irpas技术客

Scrapy框架简要概述(2)_Ybc_Jame

irpas 466

1、scrapy的安装

????????????????命令: ??sudo apt-get install scrapy

????????????????或者: ?pip/pip3 install scrapy

2、创建scrapy的项目 ? ? ? ?

? ? ? ? ? ? ? ?1、 创建项目: ????scrapy startproject mySpider

????????????????2、生成一个爬虫: ????scrapy genspider itcast itcast.cn

? ? ? ? ? ? ? ? 3、提取数据: ????根据网站结构在spider中实现数据采集相关内容

? ? ? ? ? ? ? ?4、 保存数据: ????使用pipeline进行数据后续处理和保存

3、创建scrapy爬虫

????????????????创建scrapy项目的命令: ????

????????????????????????scrapy startproject <项目名字>

????????????????示例: ????

????????????????????????scrapy startproject book

4、运行scrapy爬虫

????????????????命令: ????

????????????????????????在项目路径下执行: ????

????????????????????????????????scrapy genspider <爬虫名字> <允许爬取的域名>

5、scrapy定位以及提取数据或属性值的方法

????????1、response.xpath方法的返回结果是一个类似list的类型,其中包含的是selector对象,操? ? ? ? ? ? ? ? 作和列表

????????2、一样,但是有一些额外的方法额外方法extract():返回一个包含有字符串的列表额外方法

????????3、extract_first():返回列表中的第一个字符串,列表为空没有返回None

6、response响应对象的常用属性

response.url:当前响应的url地址

response.request.url:当前响应对应的请求的url地址

response.headers:响应头

response.requests.headers:当前响应的请求头

response.body:响应体,也就是html代码,byte类型

response.status:响应状态码


Scrapy框架简要概述(1)



1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,会注明原创字样,如未注明都非原创,如有侵权请联系删除!;3.作者投稿可能会经我们编辑修改或补充;4.本站不提供任何储存功能只提供收集或者投稿人的网盘链接。

标签: #Scrapy框架简要概述2