博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
《用Python写网络爬虫》——第2章 数据抓取 2.1 分析网页
阅读量:6207 次
发布时间:2019-06-21

本文共 1043 字,大约阅读时间需要 3 分钟。

本节书摘来自异步社区《用Python写网络爬虫》一书中的第2章,第2.1节,作者 [澳]Richard Lawson(理查德 劳森),李斌 译,更多章节内容可以访问云栖社区“异步社区”公众号查看。

第2章 数据抓取

在上一章中,我们构建了一个爬虫,可以通过跟踪链接的方式下载我们所需的网页。虽然这个例子很有意思,却不够实用,因为爬虫在下载网页之后又将结果丢弃掉了。现在,我们需要让这个爬虫从每个网页中抽取一些数据,然后实现某些事情,这种做法也被称为抓取(scraping)

首先,我们会介绍一个叫做Firebug Lite的浏览器扩展,用于检查网页内容,如果你有一些网络开发背景的话,可能已经对该扩展十分熟悉了。然后,我们会介绍三种抽取网页数据的方法,分别是正则表达式、Beautiful Soup和lxml。最后,我们将对比这三种数据抓取方法。

2.1 分析网页

想要了解一个网页的结构如何,可以使用查看源代码的方法。在大多数浏览器中,都可以在页面上右键单击选择View page source选项,获取网页的源代码,如图2.1所示。

我们可以在HTML的下述代码中找到我们感兴趣的数据。

...

4d7b8e6a5558cfe9ea6103375bb3f5b886438206
对于浏览器解析而言,缺失空白符和格式并无大碍,但在我们阅读时则会造成一定困难。要想更好地理解该表格,我们将使用Firebug Lite扩展。该扩展适用于所有浏览器,我们可以通过 页面获取到该扩展。如果愿意的话,Firefox用户可以安装完整版的Firebug扩展,不过Lite版本已经包含了我们在本章和第6章中所用到的功能。

Firebug Lite安装完成后,可以右键单击我们在抓取中感兴趣的网页部分,然后在菜单中选择Inspect with Firebug Lite,如图2.2所示。

866944e3956e65b1c78aff685bc4e495aba99fd2

此时,浏览器就会打开如图2.3所示的Firebug面板,并显示选中元素周围的HTML层次结构。

如图2.3所示,当选择国家面积这一属性时,我们可以从Firebug面板中清晰地看到,该值包含在class为w2p_fw的

元素中,而元素又是ID为places_area__row的

87a6b7f55d484b0bd961dd709159ac553c11888b

转载地址:http://ttkja.baihongyu.com/

你可能感兴趣的文章
【详细】【转】C#中理解委托和事件
查看>>
网络通信
查看>>
华为手机设置桌面图标角标提醒的实现
查看>>
[日常] Go语言圣经-错误,函数值习题
查看>>
CSS 文本字体颜色设置方法(CSS color)
查看>>
springMVC Model ModelMap 和 ModelAndView的区别(转)
查看>>
java C 类自动转换规则
查看>>
golang 的 buffered channel 及 unbuffered channel
查看>>
树莓派集群实践——nfs
查看>>
system generator学习笔记【01】
查看>>
C# 因IIS回收导致定时器失效的解决方案
查看>>
use crunch compression
查看>>
Hadoop: the definitive guide 第三版 拾遗 第十二章 之Hive分区表、桶
查看>>
如何修改 EM12c 中 SYSMAN 用户的密码?
查看>>
[Leetcode] Trapping Rain Water
查看>>
算法练习 (二)
查看>>
程序员谈学习:我为什么要学习Linux?
查看>>
Oracle Essbase入门系列(一)
查看>>
Python编程-Office操作-操作Excel(上)
查看>>
IOCP数据中间件
查看>>