今天看啥  ›  专栏  ›  ApacheFlink

构建 Streaming Lakehouse:使用 Paimon 和 Hudi 的性能对比

ApacheFlink  · 公众号  ·  · 2024-02-01 11:01
01背景信息数据湖与传统的数据仓库相比,可以更灵活地处理各种类型的数据,并支持高度可扩展的存储,通常被用于大数据分析。为了支持准实时乃至实时的数据处理,数据湖需要能够快速地接收和存储数据(数据入湖),同时提供低延迟的查询性能以满足分析需求。Apache Paimon 和 Apache Hudi 作为数据湖存储格式,有着高吞吐的写入和低延迟的查询性能,是构建数据湖的常用组件。本文将在阿里云EMR[1] 上,针对数据实时入湖场景,对 Paimon 和 Hudi 的性能进行比对,然后分别以 Paimon 和 Hudi 作为统一存储搭建准实时数仓。02集群环境本文使用的集群环境是最新的阿里云 EMR 5.16.0,集群节点的属性如下:master: 1 * ecs.g7.2xlarge 8 vCPU 32 GiBcore: 4 * ecs.g7.6xlarge 24 vCPU 96 GiB使用的组件及版本如下:Paimon: 0.7-SNAPSHOT(Paimon社区0.6 release版本)Hudi: 0.14.0Flink: ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照