今天看啥  ›  专栏  ›  Python学习交流

Python这么厉害的么?一次爬完整站小说

Python学习交流  · 公众号  · Python  · 2019-01-15 14:08
1.目标 排行榜的地址: http://www.qu.la/paihangbang/找到各类排行旁的的每一部小说的名字,和在该网站的链接。2.观察页的结构 很容易就能发现,每一个分类都是包裹在: 之中,这种条理清晰的网站,大大方便了爬虫的编写。在当前页面找到所有小说的连接,并保存在列表即可。3.列表去重的小技巧 就算是不同类别的小说,也是会重复出现在排行榜的。这样无形之间就会浪费很多资源,尤其是在面对爬大量网页的时候。这里只要一行代码就能解决: 这里调用了一个list的构造函数set:这样就能保证列表里没有重复的元素了。4.代码实现 模块化,函数式编程是一个非常好的习惯,坚持把每一个独立的功能都写成函数,这样会使代码简单又可复用。网页抓取头 获取排行 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照