今天看啥  ›  专栏  ›  Python学习交流

Python骚操作!利用Python来爬取IP代理!偷偷给文章刷阅读量!

Python学习交流  · 公众号  · Python  · 2018-08-13 16:08
二、代码代码直接参考了下文,更多解读参见原文,其中将ip提取部分修改了下,并将用来测试IP是否可用的百度url改成了CSDN博客里文章的url。私信小编007即可获取数十套PDF哦!另外也试了下豆瓣......嗯,立马就“403”,上不去了,所以看了本文想刷其他网站数据的朋友,还是三思而行,如果账号被封,概不负责哦。==。代码(py3.5版本):源码奉上!# coding: utf-8import urllib.requestimport urllib.parseimport timefrom multiprocessing import Pool#多进程import randomfrom lxml import etree #解析def GetUserAgent():'''功能:随机获取HTTP_User_Agent'''user_agents=["Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; AcooBrowser; .NET CLR 1.1.4322; .NET CLR 2.0.50727)","Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0; Acoo Browser; SLCC1; .NET CLR 2.0.50727; ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照