文章预览
点击上方“ 编程派 ”,选择设为“ 设为星标 ” 优质文章,第一时间送达! 爬虫是 Python 的一个常见应用场景,很多练习项目就是让大家去爬某某网站。爬取网页的时候,你大概率会碰到一些反爬措施。这种情况下,你该如何应对呢?本文梳理了常见的反爬措施和应对方案。 通过User-A ge nt 来控制访问 无论是浏览器还是爬虫程序,在向服务器发起网络请求的时候,都会发过去一个头文件:headers,比如知乎的requests headers 这里面的大多数的字段都是浏览器向服务器”表明身份“用的 对于爬虫程序来说,最需要注意的字段就是:User-Agent 很多网站都会建立 user-agent白名单,只有属于正常范围的user-agent才能够正常访问。 爬虫方法: 可以自己设置一下user-agent,或者更好的
………………………………