专栏名称: 数据分析与开发
伯乐在线旗下账号,分享数据库相关技术文章、教程和工具,另外还包括数据库相关的工作。偶尔也谈谈程序员人生 :)
今天看啥  ›  专栏  ›  数据分析与开发

Uber 是如何减少大数据平台的成本

数据分析与开发  · 公众号  · 数据库  · 2021-10-20 12:10
随着 Uber 业务的扩张,为其提供支持的基础数据呈指数级增长,因此处理成本也越来越高。当大数据成为我们最大的运营开支之一时,我们开始了一项降低数据平台成本的举措,该计划将挑战分为三部分:平台效率、供应和需求。本文将讨论我们为提高数据平台效率和降低成本所做的努力。大数据文件格式的优化我们大部分 Apache® Hadoop® 文件系统 (HDFS) 空间都被 Apache Hive 表占用。这些表以 Apache Parquet 文件格式或 Apache ORC 文件格式存储。尽管我们计划在未来的某个时候整合到 Parquet,但由于许多特定要求,包括场景的兼容性和性能,我们还未能实现这一目标。Parquet 和 ORC 文件格式都是基于块的列格式(block-based columnar formats),这意味着文件包含许多块,每个块包含大量



文章无法展示全部,请购买VIP后 使用网页访问内容 或者 使用第三方RSS订阅工具访问内容





今天看啥 - 让阅读更高品质
本文地址:http://www.jintiankansha.me/t/FJePuLddhA