1、scrapy的安装
????????????????命令: ??sudo apt-get install scrapy
????????????????或者: ?pip/pip3 install scrapy
2、创建scrapy的项目 ? ? ? ?? ? ? ? ? ? ? ?1、 创建项目: ????scrapy startproject mySpider
????????????????2、生成一个爬虫: ????scrapy genspider itcast itcast.cn
? ? ? ? ? ? ? ? 3、提取数据: ????根据网站结构在spider中实现数据采集相关内容
? ? ? ? ? ? ? ?4、 保存数据: ????使用pipeline进行数据后续处理和保存
3、创建scrapy爬虫????????????????创建scrapy项目的命令: ????
????????????????????????scrapy startproject <项目名字>
????????????????示例: ????
????????????????????????scrapy startproject book
4、运行scrapy爬虫????????????????命令: ????
????????????????????????在项目路径下执行: ????
????????????????????????????????scrapy genspider <爬虫名字> <允许爬取的域名>
5、scrapy定位以及提取数据或属性值的方法????????1、response.xpath方法的返回结果是一个类似list的类型,其中包含的是selector对象,操? ? ? ? ? ? ? ? 作和列表
????????2、一样,但是有一些额外的方法额外方法extract():返回一个包含有字符串的列表额外方法
????????3、extract_first():返回列表中的第一个字符串,列表为空没有返回None
6、response响应对象的常用属性response.url:当前响应的url地址
response.request.url:当前响应对应的请求的url地址
response.headers:响应头
response.requests.headers:当前响应的请求头
response.body:响应体,也就是html代码,byte类型
response.status:响应状态码
Scrapy框架简要概述(1)
1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,会注明原创字样,如未注明都非原创,如有侵权请联系删除!;3.作者投稿可能会经我们编辑修改或补充;4.本站不提供任何储存功能只提供收集或者投稿人的网盘链接。 |
标签: #Scrapy框架简要概述2