看啥推荐读物
专栏名称: 爱数据LoveData
中国统计网(www.itongji.cn),国内最大的数据分析门户网站。提供数据分析行业资讯,统计百科知识、数据分析、商业智能(BI)、数据挖掘技术,Excel、SPSS、SAS、R等数据分析软件等在线学习平台。
目录
相关文章推荐
今天看啥  ›  专栏  ›  爱数据LoveData

Spark批量读取Redis数据-Pipeline(Scala)

爱数据LoveData  · 公众号  · BI  · 2016-12-23 17:04
最近在处理数据时,需要将原始数据与Redis的数据进行join,在读取Redis的过程中,碰到了一些问题,顺便做个笔记,希望对其他同学也有所帮助。实验过程中,当数据量还是十万级别的时候,逐个读取Redis并无压力;但当数据量达到千万级别时,问题就油然而生了,即使是使用Spark的mapPartitions也无法解决。因此,就考虑使用Redis的pipeline了(如果你有更好的方法,还请不吝赐教)。PS:本文主要针对的是Scala语言,因为目前在网上还没有看到Scala版本的Redis pipeline,希望此文能给初学者提供一个参考。文章会先介绍如何使用Scala逐个去读取Redis数据,然后再介绍pipeline的使用。方法一、逐行读取Redis数据在本文,主要使用的是redis. clients. jedis. Jedis库,如果你是使用sbt来运行spark ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照