scrapy爬虫的运行

一、scrapy爬虫的运行
1、在字符界面使用
scrapy crawl 爬虫名称;
例如:
scrapy crawl baiduspider

2、在pycharm中编写运行爬虫的py文件run.py
示例如下:
from scrapy import cmdline

cmdline.execute('scrapy crawl 爬虫名称'.split())

3、scrapy中的请求响应对象
(1)Request对象,用于向服务器发起请求的对象
使用构造方法返回request对象
request=Request(“url地址”,method=”GET或者POST”,encoding=”utf-8”)

(2)Response对象,获取服务器端返回的响应
Response=Response(“url地址”)

4、scrapy的select对象
(1)对响应的数据进行解析的对象,在scrapy中使用xpath进行解析(使用标签元素和css进行文档的分析)

(2)安装xpath-helper工具,对获取的xpath解析的文档进行查询
1)下载xpath-helper工具
2)安装步骤如下:

选择xpath-helper文件夹,点选择即可

安装完成以后,如图所示:

重新启动浏览器,输入要抓取数据的网址,按F12进入开发者工具,分析要抓取的标签
示例如下:

拷贝的xpath信息如下:
//*[@id="main"]/div[7]/table/tbody[2]/tr[1]

再按F12结束分析
按组合键ctrl+shift+x打开和关闭xpath-helper分析器,如图所示:

输入copy的xpath信息到Query框中
获取的消息如下:

                         标题
                        作者
                        点击
                        回复
                        回复时间





                                    寻找你所不知的人生密码——周易四柱批八字

                                易林逍遥子
                                9145806
                                189329
                                11-17 09:10
                            ......              

二、使用scrapy和xpath获取天涯论坛的标题信息
1、创建天涯爬虫的项目
scrapy startparoject prjtianyaspider

2、进入prjtianyaspider目录

3、在pychram中的形目结构截图如下:

4、修改setting.py文件设置规则:

Obey robots.txt rules

ROBOTSTXT_OBEY = False

5、修改 文件

评论