二、代码代码直接参考了下文,更多解读参见原文,其中将ip提取部分修改了下,并将用来测试IP是否可用的百度url改成了CSDN博客里文章的url。私信小编007即可获取数十套PDF哦!另外也试了下豆瓣......嗯,立马就“403”,上不去了,所以看了本文想刷其他网站数据的朋友,还是三思而行,如果账号被封,概不负责哦。==。代码(py3.5版本):源码奉上!# coding: utf-8import urllib.requestimport urllib.parseimport timefrom multiprocessing import Pool#多进程import randomfrom lxml import etree #解析def GetUserAgent():'''功能:随机获取HTTP_User_Agent'''user_agents=["Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; AcooBrowser; .NET CLR 1.1.4322; .NET CLR 2.0.50727)","Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0; Acoo Browser; SLCC1; .NET CLR 2.0.50727;
………………………………