文章预览
架构师(JiaGouX) 我们都是架构师! 架构未来,你来不来? 前言 在多年的 SparkStreaming 的大数据流处理开发中,除了Kafka, Redis 是用的最多的组件。目前生产有多个redis集群,最大的32节点的集群的key已经达到40亿个,峰值2000万的QPS。 Redis在流处理开发中一共有两种应用场景: 离线更新的维表数据,用于增加流数据的维度信息 应用实时更新的状态数据 不管是哪种应用场景,最后在SparkStreaming中都需要与Redis进行交互,来完成get、set操作假如SparkStreaming中RDD的时间间隔为1min,那么这个窗口的数据在1min内计算完成才算是"不延迟"。当遇到计算延迟的情况时,如果不与Redis交互,增加core、memory计算资源,或者提高并行度会解决这个问题, 之前开发一个1亿/min数据量的SparkStreaming应用中,发现造成计算延迟原因可能是与Redis交互耗费了太多的时间,这时候再增
………………………………