今天看啥  ›  专栏  ›  CSDN

假期还剩 2 天,Python 爬取途牛网,揭秘哪里人少景美!

CSDN  · 公众号  · 科技媒体  · 2019-05-02 18:45
作者 | timber本文经授权转自数据森麟(ID: shujusenlin)责编 | 胡巍巍五一假期还有两天,短途旅行依然来得及。这里送给大家一个用于途牛网爬取旅行线路线获取的爬虫,预祝大家都度过一个愉快的五一假期。本爬虫最先是用 Scrapy 写的,很多地方没完善好最终停歇了(定制起来比较难),笔者觉得用 Scrapy 展示出来并不是那么优雅,所以就拆了出来。主要运用到的知识点:PyQuery、Selenium、MySQL、ip_pool、进程,因为代理池是花了钱的,所以文中还是次要说一下方法就好了。免得一些调皮捣蛋的小伙伴瞎整。页面分析OK!进入正题,首先把该装的库装好,假设你在运行过程中出现 no model name xxxxx,你就 pip install xxxxx。首先来分析一波页面,罗列一下需要抓取的字段:好的冷 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照