看啥推荐读物
专栏名称: 架构文摘
每天一篇架构领域重磅好文,涉及一线互联网公司的互联网应用架构、大数据、机器学习等各个热门领域。
目录
相关文章推荐
今天看啥  ›  专栏  ›  架构文摘

爬虫平台的架构实现和框架的选型

架构文摘  · 公众号  · 架构  · 2019-08-15 09:00
本文作者:张永清作者博客:www.cnblogs.com/laoqing首先来看一下一个爬虫平台的设计,作为一个爬虫平台,需要支撑多种不同的爬虫方式,所以一般爬虫平台需要包括:爬虫规则的维护,平台在接收到爬虫请求时,需要能按照匹配一定的规则去进行自动爬虫爬虫的job调度器,平台需要能负责爬虫任务的调度,比如定时调度,轮询调度等。爬虫可以包括异步的海量爬虫,也可以包括实时爬虫,异步爬虫指的是爬虫的数据不会实时返回,可能一个爬虫任务会执行很久。 实时爬虫指爬的数据要实时返回,这个就要求时间很短,一般适合少量数据的爬虫。爬虫好的数据可以生成指定的文件,比如csv文件,json文件等,然后通过数据处理引擎做统一处理,比如csv文件可以通过数据交 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照