Scrapy框架简要概述(2)_Ybc_Jame

irpas 02-07 466

1、scrapy的安装

????????????????命令: ??sudo apt-get install scrapy

????????????????或者： ?pip/pip3 install scrapy

2、创建scrapy的项目 ? ? ? ?

? ? ? ? ? ? ? ?1、创建项目: ????scrapy startproject mySpider

????????????????2、生成一个爬虫: ????scrapy genspider itcast itcast.cn

? ? ? ? ? ? ? ? 3、提取数据: ????根据网站结构在spider中实现数据采集相关内容

? ? ? ? ? ? ? ?4、保存数据: ????使用pipeline进行数据后续处理和保存

3、创建scrapy爬虫

????????????????创建scrapy项目的命令： ????

????????????????????????scrapy startproject <项目名字>

????????????????示例： ????

????????????????????????scrapy startproject book

4、运行scrapy爬虫

????????????????命令： ????

????????????????????????在项目路径下执行: ????

????????????????????????????????scrapy genspider <爬虫名字> <允许爬取的域名>

5、scrapy定位以及提取数据或属性值的方法

????????1、response.xpath方法的返回结果是一个类似list的类型，其中包含的是selector对象，操? ? ? ? ? ? ? ? 作和列表

????????2、一样，但是有一些额外的方法额外方法extract()：返回一个包含有字符串的列表额外方法

????????3、extract_first()：返回列表中的第一个字符串，列表为空没有返回None

6、response响应对象的常用属性

response.url：当前响应的url地址

response.request.url：当前响应对应的请求的url地址

response.headers：响应头

response.requests.headers：当前响应的请求头

response.body：响应体，也就是html代码，byte类型

response.status：响应状态码

Scrapy框架简要概述(1)

1.本站遵循行业规范，任何转载的稿件都会明确标注作者和来源；2.本站的原创文章，会注明原创字样,如未注明都非原创，如有侵权请联系删除！；3.作者投稿可能会经我们编辑修改或补充；4.本站不提供任何储存功能只提供收集或者投稿人的网盘链接。