博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
scrapy snippet
阅读量:4667 次
发布时间:2019-06-09

本文共 912 字,大约阅读时间需要 3 分钟。

1. spider文件

from scrapy.contrib.spiders import CrawlSpider, Rulefrom scrapy.contrib.linkextractors.sgml import SgmlLinkExtractorfrom scrapy.selector import HtmlXPathSelectoritem = DomzItem()image_urls = hxs.select('//img/@src').extract()item['image_urls'] = ["http:" + x for x in image_urls]return item

 

from scrapy.selector import HtmlXPathSelectorhxs = HtmlXPathSelector(response)

 

class MySpider(CrawlSpider): #控制下载速度    name = 'myspider'    download_delay = 2

 

$ scrapy crawl somespider -s JOBDIR=crawls/somespider-1   #这样开始下载之后可以Ctrl + C停止,恢复下载还是同样的命令 $ scrapy crawl somespider -s JOBDIR=crawls/somespider-1

 

 

name = "wikipedia"allowed_domains = ["wikipedia.org"]start_urls = [  "http://en.wikipedia.org/wiki/Pune"]

 

 

 2. setting文件

ITEM_PIPELINES = ['scrapy.contrib.pipeline.images.ImagesPipeline']IMAGES_STORE= '...'

 

3. item 文件

image_urls = Field() images = Field()

 

转载于:https://www.cnblogs.com/bushe/p/4003392.html

你可能感兴趣的文章
HTML5 audio标签 打造属于自己的音乐播放器
查看>>
【第二组】典型场景:用户上传自定义谜题,工作序号:002,2017/7/6
查看>>
ubuntu17.04 调试系统工具bcc,systamtap安装
查看>>
A Fast and Scalable Web Platform by Extending NGINX with Lua
查看>>
5.6 在线DDL (online DDL)详解
查看>>
电容计算公式
查看>>
vue阿里上传图片报400错误
查看>>
Python基础之函数
查看>>
课堂练习--单元测试
查看>>
嵌入式 探讨父子线程、进程终止顺序不同产生的结果_skdkjxy_新浪博客
查看>>
【机器学习】如何成为当下合格的算法工程师
查看>>
vuex 学习总结及demo
查看>>
MySQL高可用架构故障自动转移插件MHA
查看>>
lnmp之nginx1.10.2安装
查看>>
recv send 阻塞和非阻塞
查看>>
网络丢包分析
查看>>
打印LIS
查看>>
剑指offer第2章学习(2)
查看>>
java后台验证码的生成
查看>>
Bootstrap辅助类
查看>>