scrapy一.创建项目


  1. 安装scrapy

pip install scrapy -i

注:推荐使用anaconda安装,conda install scrapy

  1. 创建MyScrapy项目

  • scrapy startproject MyScrapy

  • 执行后scrapy就会生成一个项目

  • 同时执行命令后会有提示

cd MyScrapy

  1. 生成一个爬虫模板,取名是energy,url是www.energy-chemical.com

scrapy genspider energy www.energy-chemical.com

  • spider下会生成对应名称的py文件

  • 其中spiders 文件夹下就有刚刚生成的模板

  • energy.py中的内容

  1. 修改 ROBOTSTXT_OBEY,这是按照robots.txt的规则来的,但是我们很多数据都不允许爬去,所以要修改掉

  1. 执行爬虫

  • 输入命令 scrapy ,下方会有快捷提示,crawl就是执行一个爬虫,后面接去的name,scrapu crawl energy

  • 会出现非常多的日志,这些日志很多都是暂时用不到的,所以调整日志的等级,只看我们需要的

  • settings.py 里面添加 LOG_LEVEL = 'WARNING'

  • 在执行一次scrapy crawl energy 查看区别

  • 这是我们什么也没输出,print response,有信息了


文章作者: John Doe
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 John Doe !
  目录