安装scrapy
pip install scrapy -i
注:推荐使用anaconda
安装,conda install scrapy
创建MyScrapy
项目
scrapy startproject MyScrapy
cd MyScrapy
生成一个爬虫模板,取名是energy
,url是www.energy-chemical.com
scrapy genspider energy www.energy-chemical.com
修改 ROBOTSTXT_OBEY
,这是按照robots.txt的规则来的,但是我们很多数据都不允许爬去,所以要修改掉
执行爬虫
输入命令 scrapy
,下方会有快捷提示,crawl
就是执行一个爬虫,后面接去的name
,scrapu crawl energy
会出现非常多的日志,这些日志很多都是暂时用不到的,所以调整日志的等级,只看我们需要的
settings.py
里面添加 LOG_LEVEL = 'WARNING'
在执行一次scrapy crawl energy
查看区别
这是我们什么也没输出,print response
,有信息了