专栏名称: AI前线
我们专注大数据和机器学习,关注前沿技术和业界实践。每天发布高质量文章,技术案例等原创干货源源不断。同时有四千人的社群微课堂,每周一次业界大牛技术分享,也希望你能从这里分享前沿技术,交流深度思考。
目录
今天看啥  ›  专栏  ›  AI前线

实用计:Spark Streaming消费Kafka数据的两种方案

AI前线  · 公众号  · 大数据  · 2017-11-01 18:00
    

文章预览

作者 | 张伟 编辑 | Vincent AI 前线导语: 本文主要介绍 Spark Streaming(以下简称 SS,版本 1.6.3) 的一些基本概念,以及 SS 消费 Kafka(版本 0.8.2.1) 数据的两种方式的使用及其原理。我会对这两种方案做详细的解析,同时对比两种方案优劣,以及针对 Direct Approach (No Receivers) 模式介绍其如何实现 Exactly Once Semantics,也就是保证接收到的数据只被处理一次,不丢,不重。 更多干货内容请关注微信公众号“AI 前线”(ID:ai-front) SS 是 Spark 上的一个流式处理框架,可以面向海量数据实现高吞吐量、高容错的实时计算。SS 支持多种类型数据源,包括 Kafka、Flume、twitter、zeroMQ、Kinesis 以及 TCP sockets 等。SS 实时接收数据流,并按照一定的时间间隔(下文称为“批处理 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览