scrapy一.创建项目

无标签

发布日期: 2020-09-30

更新日期: 2023-04-02

文章字数: 253

阅读时长: 1 分

阅读次数:

安装scrapy

pip install scrapy -i

注：推荐使用`anaconda`安装，`conda install scrapy`

创建MyScrapy项目

scrapy startproject MyScrapy

执行后scrapy就会生成一个项目

同时执行命令后会有提示

cd MyScrapy

生成一个爬虫模板,取名是energy,url是www.energy-chemical.com

scrapy genspider energy www.energy-chemical.com

spider下会生成对应名称的py文件

其中spiders 文件夹下就有刚刚生成的模板

energy.py中的内容

修改 ROBOTSTXT_OBEY，这是按照robots.txt的规则来的，但是我们很多数据都不允许爬去，所以要修改掉

执行爬虫

输入命令 scrapy ，下方会有快捷提示，crawl就是执行一个爬虫,后面接去的name,scrapu crawl energy

会出现非常多的日志，这些日志很多都是暂时用不到的，所以调整日志的等级，只看我们需要的

settings.py 里面添加 LOG_LEVEL = 'WARNING'

在执行一次scrapy crawl energy 查看区别

这是我们什么也没输出，print response,有信息了

John Doe

https://v-10.cn/2020/09/30/scrapy-yi-chuang-jian-xiang-mu/

本博客所有文章除特別声明外，均采用 CC BY 4.0 许可协议。转载请注明来源 John Doe !

无标签

pycharm远程连接到服务器

2020-10-26 John Doe

pycharm更改字体大小

2020-09-23 John Doe

scrapy一.创建项目

安装scrapy

注：推荐使用`anaconda`安装，`conda install scrapy`

创建`MyScrapy`项目

`scrapy startproject MyScrapy`

执行后`scrapy`就会生成一个项目

同时执行命令后会有提示

生成一个爬虫模板,取名是`energy`,url是`www.energy-chemical.com`

spider下会生成对应名称的py文件

其中`spiders` 文件夹下就有刚刚生成的模板

`energy.py`中的内容

修改 `ROBOTSTXT_OBEY`，这是按照robots.txt的规则来的，但是我们很多数据都不允许爬去，所以要修改掉

执行爬虫

输入命令 `scrapy` ，下方会有快捷提示，`crawl`就是执行一个爬虫,后面接去的`name`,`scrapu crawl energy`

会出现非常多的日志，这些日志很多都是暂时用不到的，所以调整日志的等级，只看我们需要的

`settings.py` 里面添加 `LOG_LEVEL = 'WARNING'`

在执行一次`scrapy crawl energy` 查看区别

这是我们什么也没输出，`print response`,有信息了

scrapy一.创建项目

安装scrapy

注：推荐使用anaconda安装，conda install scrapy

创建MyScrapy项目

scrapy startproject MyScrapy

执行后scrapy就会生成一个项目

同时执行命令后会有提示

生成一个爬虫模板,取名是energy,url是www.energy-chemical.com

spider下会生成对应名称的py文件

其中spiders 文件夹下就有刚刚生成的模板

energy.py中的内容

修改 ROBOTSTXT_OBEY，这是按照robots.txt的规则来的，但是我们很多数据都不允许爬去，所以要修改掉

执行爬虫

输入命令 scrapy ，下方会有快捷提示，crawl就是执行一个爬虫,后面接去的name,scrapu crawl energy

会出现非常多的日志，这些日志很多都是暂时用不到的，所以调整日志的等级，只看我们需要的

settings.py 里面添加 LOG_LEVEL = 'WARNING'

在执行一次scrapy crawl energy 查看区别

这是我们什么也没输出，print response,有信息了

注：推荐使用`anaconda`安装，`conda install scrapy`

创建`MyScrapy`项目

`scrapy startproject MyScrapy`

执行后`scrapy`就会生成一个项目

生成一个爬虫模板,取名是`energy`,url是`www.energy-chemical.com`

其中`spiders` 文件夹下就有刚刚生成的模板

`energy.py`中的内容

修改 `ROBOTSTXT_OBEY`，这是按照robots.txt的规则来的，但是我们很多数据都不允许爬去，所以要修改掉

输入命令 `scrapy` ，下方会有快捷提示，`crawl`就是执行一个爬虫,后面接去的`name`,`scrapu crawl energy`

`settings.py` 里面添加 `LOG_LEVEL = 'WARNING'`

在执行一次`scrapy crawl energy` 查看区别

这是我们什么也没输出，`print response`,有信息了