irpas技术客

《精通Python爬虫框架Scrapy》第2章 理解HTML和XPath_人民邮电出版社爬取xpath_人民邮电出版社有限公司

irpas 3773

第2章 理解HTML和XPath

为了从网页中抽取信息,你必须对其结构有更多了解。我们将快速浏览HTML、HTML的树状表示,以及在网页上选取信息的一种方式XPath。

2.1 HTML、DOM树表示以及XPath

让我们花费一些时间来了解从用户在浏览器中输入URL(或者更常见的是,在其单击链接或书签时)到屏幕上显示出页面的过程。从本书的视角来看,该过程包含4个步骤,如图2.1所示。

图2.1

在浏览器中输入URL。URL的第一部分(域名,比如gumtree.com)用于在网络上找到合适的服务器,而URL以及cookie等其他数据则构成了一个请求,用于发送到那台服务器当中。 服务端回应,向浏览器发送一个HTML页面。需要注意的是,服务端也可能返回其他格式,比如XML或JSON,不过目前我们只关注HTML。 将HTML转换为浏览器内部的树状表示形式:文档对象模型(Document Object Model,DOM)。 基于一些布局规则渲染内部表示,达到你在屏幕上看到的视觉效果。

下面来看看这些步骤,以及它们所需的文档表示。这将有助于定位你想要抓取并编写程序获取的文本。

2.1.1 


1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,会注明原创字样,如未注明都非原创,如有侵权请联系删除!;3.作者投稿可能会经我们编辑修改或补充;4.本站不提供任何储存功能只提供收集或者投稿人的网盘链接。

标签: #人民邮电出版社爬取xpath #第2章理解HTML和XPath