主要观点总结
本文介绍了阿里集团统一的全域流量数据分析平台A+流量分析平台的背景、技术方案和实现细节。该平台通过从页面、小站、活动等多个角度切入,构建出宏观的概览数据、坑位效果、类目成交转化、路径分析、用户细分等数据分析闭环。面临每天万亿级的日志数据挑战,采用StarRocks和Paimon存储计算方案,实现秒级查询。文中详细描述了技术方案的具体内容,包括日志采集数据链路、技术背景、实现方法等,并对Flink作业与StarRocks查询性能进行了优化。
关键观点总结
关键观点1: 背景介绍
阿里集团统一的全域流量数据分析平台A+流量分析平台,旨在帮助业务快速发现流量问题并提升流量转化。
关键观点2: 面临的挑战
每天万亿级的日志数据,需要高效存储和查询,同时对实时性和查询性能有严格要求。
关键观点3: 技术方案
采用StarRocks和Paimon存储计算方案,通过分区分桶设计,实现秒级查询。具体包括实时数据写入Paimon和合并小文件的过程,以及Flink作业与StarRocks查询性能的优化等。
关键观点4: 实施细节
详细描述了日志采集数据链路、技术背景、实现方法等,包括实时公共层的利用、Paimon存储的优势、StarRocks的高效查询等。
关键观点5: 成果与展望
相比原方案,新的技术方案实现了更快的查询速度和更高的时效性。未来展望包括降低存储成本、提高计算性能、覆盖更多业务场景等。
文章预览
01 背景 1.1 业务背景 A+流量分析平台是阿里集团统一的全域流量数据分析平台。从页面 & 小站 & 活动 等作为切入点,在经过埋点、采集、计算后,构建出宏观的概览数据、坑位效果、类目成交转化、路径分析、用户细分等,致力于打造流量数据分析闭环,快速帮助业务发现流量问题 & 提升流量转化。当前,流量采集团队每天需要的日志数据达到万亿级,在写入和查询面临着巨大挑战: 写入方面:千万级 rps 实时数据写入 高吞吐写入:每秒需要处理上千万条数据的写入,写入过程中需要解决数据分布不均(数据倾斜)的问题,并进行反作弊处理、关联维表等计算。 时效性要求:从用户日志生成,发送到消息队列,读取加工存储,到计算引擎可查询,期望将整个流程的延迟稳定控制在5分钟级别,供业务快速响应决策。 查询方面:高效高并发查询 高
………………………………