专栏名称: AI前线
InfoQ十年沉淀,为千万技术人打造的专属AI公众号。追踪技术新趋势,跟踪头部科技企业发展和传统产业技术升级落地案例。囊括网站和近万人的机器学习知识交流社群。
今天看啥  ›  专栏  ›  AI前线

流式数据处理在百度数据工厂的应用与实践

AI前线  · 公众号  · AI  · 2019-06-24 19:06
作者 | 李俊卿 编辑 | Tina AI 前线导读: 百度数据工厂以 Spark 为基础提供了流批一体的大数据分析解决方案,流式数据处理承担了其中的实时计算和实时与离线转换功能。流式数据处理不仅提供了流批统一 SQL 引擎、流批统一 META 管理和实时落数仓等技术支持,还提供了流式数据处理的一体化平台,提供流式数据处理的提交、运维、监控等能力。本文整理自百度李俊卿在 QCon 上的演讲:《流式数据处理在百度数据工厂的应用与实践》。更多优质内容请关注微信公众号“AI 前线”(ID:ai-front) 百度数据工厂最原先用 Hive 引擎,进行离线批量数据分析和 PB 级别的查询,处理一些核心报表数据。但是在我们推广过程中发现,用户其实还是有复杂分析、实时处理、数据 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照