今天看啥  ›  专栏  ›  志军

Python 实战:用 Scrapyd 打造爬虫控制台

志军  · 公众号  · Python  · 2018-10-30 07:36
爬虫本地直接跑还是部署到服务器跑? 有天,老板安排小黄一个任务,要求获取某体育赛事网站上所有足球联赛及球队的信息数据,并存入数据库中为后续的数据分析和计算做准备。因为这类信息更新频率比较低,所以隔十几天启动一次是没什么问题的,用 requests 就搞定了。又过了几天,老板跟你说,要求每天24小时不间断采集赛事信息,于是你把脚本写成了服务放在服务器运行。又过了一段时间,老板说:我们要将上个百主流体资讯网站的新闻采集回来,这时候你需要同时维护成百上千个爬虫,你需要根据频率调度每个爬虫,监控每个爬虫的异常状态和日志信息,如果这些全部需要自己来实现的话,无异于闭门造车,因为业界已经有成熟解决方案。Scrapyd 就是业内 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照