看啥推荐读物
专栏名称: 人工智能头条
专注人工智能技术前沿、实战技巧及大牛心得。
今天看啥  ›  专栏  ›  人工智能头条

爬虫小偏方系列:robots.txt 快速抓取网站的小窍门

人工智能头条  · 公众号  · AI  · 2019-01-21 19:11
文章来源 | 猿人学 Python作者王平,一个 IT 老码农,写 Python 十年有余,喜欢专研通过爬虫技术来挣钱。在我抓取网站遇到瓶颈,想剑走偏锋去解决时,常常会先去看下该网站的 robots.txt 文件,有时会给你打开另一扇抓取之门。写爬虫有很多苦恼的事情,比如:1. 访问频次太高被限制;2. 如何大量发现该网站的 URL;3. 如何抓取一个网站新产生的 URL,等等;这些问题都困扰着爬虫选手,如果有大量离散IP和账号,这些都不是问题,但是绝大部分公司都不具备这个条件的。我们在工作中写的爬虫大多是一次性和临时性的任务,需要你快速完成工作就好,当遇到上面情况,试着看下robots.txt文件。举个栗子:老板给你布置一个任务,把豆瓣每天新产生的影评,书评,小组帖子 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照