看啥推荐读物
专栏名称: Python爱好者社区
人生苦短,我用Python。分享Python相关的技术文章、工具资源、精选课程、视频教程、热点资讯、学习资料等。每天自动更新和推送。
今天看啥  ›  专栏  ›  Python爱好者社区

爬虫入门系列(四):HTML文本解析库BeautifulSoup

Python爱好者社区  · 公众号  · Python  · 2018-02-12 21:29
作者:刘志军,6年+Python使用经验, 高级开发工程师,目前在互联网医疗行业从事Web系统构架工作个人公众号:Python之禅(微信ID:vttalk)题图:@Miguel Mateo前文传送门:爬虫入门系列(一):快速理解HTTP协议爬虫入门系列(二):优雅的HTTP库requests爬虫入门系列(三):用 requests 构建知乎 API系列文章的第3篇介绍了网络请求库神器 Requests ,请求把数据返回来之后就要提取目标数据,不同的网站返回的内容通常有多种不同的格式,一种是 json 格式,这类数据对开发者来说最友好。另一种 XML 格式的,还有一种最常见格式的是 HTML 文档,今天就来讲讲如何从 HTML 中提取出感兴趣的数据直接字符串处理?自己写个 HTML 解析器来解析吗?还是用正则表达式?这些都不是最 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照