Scrapy爬虫框架

一、Scrapy爬虫框架
1、Scrapy爬虫框架是由多个爬虫组件共同构成的爬虫应用程序,在爬取站点时具有自动爬取站点的能力。
2、scrapy的构成
(1) 引擎
(2) 调度器
(3) 爬虫spider
(4) 管道
(5) 下载器

二、scrapy的安装
1、使用pip 安装scrapy组件
pip install scrapy
在系统环境变量中配置scrapy的路径
Path=C:\Python37\Scripts

2、在pycharm中安装scrapy

点击install Package按钮开始安装选中的组件。
安装成功,有如下提示信息:

3、在pycharm中创建scrapy项目
(1) 创建scrapy项目
scrapy startproject 项目名称

(2) 生成爬虫
scrapy genspider 爬虫名称(此名称是唯一的,不能和其他名称相同) 要爬取的网址(域名)
示例如下:

(3)修改项目下的setting.py文件,将机器人规则改为False,否则站点爬取会失败

(3) 修改xxxspider.py文件

标签

评论

© 2021 成都云创动力科技有限公司 蜀ICP备20006351号-1