专栏名称: AI前线

我们专注大数据和机器学习，关注前沿技术和业界实践。每天发布高质量文章，技术案例等原创干货源源不断。同时有四千人的社群微课堂，每周一次业界大牛技术分享，也希望你能从这里分享前沿技术，交流深度思考。

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词RSS订阅方法

知网期刊RSS订阅方法

即刻RSS订阅方法

实用计：Spark Streaming消费Kafka数据的两种方案

AI前线 · 公众号 · 大数据 · 2017-11-01 18:00

文章预览

作者 | 张伟编辑 | Vincent AI 前线导语：本文主要介绍 Spark Streaming(以下简称 SS，版本 1.6.3) 的一些基本概念，以及 SS 消费 Kafka(版本 0.8.2.1) 数据的两种方式的使用及其原理。我会对这两种方案做详细的解析，同时对比两种方案优劣，以及针对 Direct Approach (No Receivers) 模式介绍其如何实现 Exactly Once Semantics，也就是保证接收到的数据只被处理一次，不丢，不重。更多干货内容请关注微信公众号“AI 前线”（ID：ai-front） SS 是 Spark 上的一个流式处理框架，可以面向海量数据实现高吞吐量、高容错的实时计算。SS 支持多种类型数据源，包括 Kafka、Flume、twitter、zeroMQ、Kinesis 以及 TCP sockets 等。SS 实时接收数据流，并按照一定的时间间隔（下文称为“批处理 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博