博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
《用Python写网络爬虫》——第2章 数据抓取 2.1 分析网页
阅读量:6207 次
发布时间:2019-06-21

本文共 1043 字,大约阅读时间需要 3 分钟。

本节书摘来自异步社区《用Python写网络爬虫》一书中的第2章,第2.1节,作者 [澳]Richard Lawson(理查德 劳森),李斌 译,更多章节内容可以访问云栖社区“异步社区”公众号查看。

第2章 数据抓取

在上一章中,我们构建了一个爬虫,可以通过跟踪链接的方式下载我们所需的网页。虽然这个例子很有意思,却不够实用,因为爬虫在下载网页之后又将结果丢弃掉了。现在,我们需要让这个爬虫从每个网页中抽取一些数据,然后实现某些事情,这种做法也被称为抓取(scraping)

首先,我们会介绍一个叫做Firebug Lite的浏览器扩展,用于检查网页内容,如果你有一些网络开发背景的话,可能已经对该扩展十分熟悉了。然后,我们会介绍三种抽取网页数据的方法,分别是正则表达式、Beautiful Soup和lxml。最后,我们将对比这三种数据抓取方法。

2.1 分析网页

想要了解一个网页的结构如何,可以使用查看源代码的方法。在大多数浏览器中,都可以在页面上右键单击选择View page source选项,获取网页的源代码,如图2.1所示。

我们可以在HTML的下述代码中找到我们感兴趣的数据。

...

4d7b8e6a5558cfe9ea6103375bb3f5b886438206
对于浏览器解析而言,缺失空白符和格式并无大碍,但在我们阅读时则会造成一定困难。要想更好地理解该表格,我们将使用Firebug Lite扩展。该扩展适用于所有浏览器,我们可以通过 页面获取到该扩展。如果愿意的话,Firefox用户可以安装完整版的Firebug扩展,不过Lite版本已经包含了我们在本章和第6章中所用到的功能。

Firebug Lite安装完成后,可以右键单击我们在抓取中感兴趣的网页部分,然后在菜单中选择Inspect with Firebug Lite,如图2.2所示。

866944e3956e65b1c78aff685bc4e495aba99fd2

此时,浏览器就会打开如图2.3所示的Firebug面板,并显示选中元素周围的HTML层次结构。

如图2.3所示,当选择国家面积这一属性时,我们可以从Firebug面板中清晰地看到,该值包含在class为w2p_fw的

元素中,而元素又是ID为places_area__row的

87a6b7f55d484b0bd961dd709159ac553c11888b

转载地址:http://ttkja.baihongyu.com/

你可能感兴趣的文章
离线安装Android开发环境的方法
查看>>
微信5.0安卓内测版下载
查看>>
Linux常用命令(1-vi/vim)
查看>>
显示中文格式的日期、星期几
查看>>
ping中用到的校验和算法
查看>>
extjs 选择器
查看>>
c语言spline
查看>>
Orcale的 rownum
查看>>
28、editText只输入英文字母和'-',用于授权码输入
查看>>
selenium采用find_element_by方法识别页面元素
查看>>
***七牛跨域上传图片JS SDK
查看>>
LinqSelect
查看>>
如何解决"应用程序无法启动,因为应用程序的并行配置不正确"问题(转载)
查看>>
几种深度学习框架的使用和对比
查看>>
phpcms内容页替换
查看>>
黑客?普通程序员?有什么区别?
查看>>
视图和路由
查看>>
优酷新版播放器站外调用代码详解
查看>>
Hdoj 2059
查看>>
1077. Travelling Tours
查看>>