文章预览
專 欄 ❈ Jerry,Python中文社区专栏作者。 blog: https://my.oschina.net/jhao104/blog github:https://github.com/jhao104 ❈ 前言 在GitHub上维护了一个 代理池 的项目,代理来源是抓取一些免费的代理发布网站。上午有个小哥告诉我说有个代理抓取接口不能用了,返回状态521。抱着帮人解决问题的心态去跑了一遍代码。发现果真是这样。 通过Fiddler抓包比较,基本可以确定是JavaScript生成加密Cookie导致原来的请求返回521。 发现问题 打开Fiddler软件,用浏览器打开目标站点( http://www.kuaidaili.com/proxylist/2/ ) 。可以发现浏览器对这个页面加载了两次,第一次返回521,第二次才正常返回数据。很多没有写过网站或是爬虫经验不足的童鞋,可能就
………………………………