看啥推荐读物

专栏名称: 程序IT圈

一个学习编程技术和读者福利共存的公众号，每天推送高质量的优秀博文和原创文章，开源项目，实用工具，面试技巧等。公众号每月至少一次读者送书福利！关注置顶，不错过精彩推送！

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

知乎回答RSS订阅方法

知乎专栏 RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

爬虫，反爬虫，反反爬虫，这之间的斗争恢宏壮阔...

程序IT圈 · 公众号 · 程序员 · 2020-02-13 11:31

作者：申玉宝https://www.zhihu.com/question/28168585/answer/74840535爬虫(Spider)，反爬虫(Anti-Spider)，反反爬虫(Anti-Anti-Spider)，这之间的斗争恢宏壮阔...Day 1小莫想要某站上所有的电影，写了标准的爬虫(基于HttpClient库)，不断地遍历某站的电影列表页面，根据 Html 分析电影名字存进自己的数据库。这个站点的运维小黎发现某个时间段请求量陡增，分析日志发现都是 IP(1.1.1.1)这个用户，并且 useragent 还是 JavaClient1.6 ，基于这两点判断非人类后直接在Nginx 服务器上封杀。Day 2小莫电影只爬了一半，于是也针对性的变换了下策略：1. useragent 模仿百度("Baiduspider...")，2. IP每爬半个小时就换一个IP代理。小黎也发现了对应的变化，于是在 Nginx 上设置了一个频率限制，每分钟超过120次请求的再屏蔽I ………………………………

原文地址：访问原文地址
快照地址：访问文章快照

分享到微博