解决方案:文章采集助手之scrapy爬虫框架（二）的查询规则

优采云发布时间: 2022-10-22 23:18

　　文章采集助手，scrapy爬虫框架，2013年，李响在“scrapy初探”文章中介绍了scrapy爬虫框架，同年scrapy1.1发布，作者为davelee。这个框架中有一个非常有用的库requests库。众所周知，今天最为流行的是javascript（包括jquery）的爬虫库，尤其是jquerylib那是非常被广泛使用。

　　用jquery库进行scrapy框架开发中，我们经常会遇到scrapy连接post方法不能与content-type属性进行绑定，这个基本上是scrapy当前特别有矛盾的地方。在scrapy中，能够连接content-type属性进行绑定的方法有三个。///'''requests.get(url)'''e.g.'''///'''///'''先看一下url的查询规则：type=‘text/xxx’filetype=‘post’查询规则中filetype=’post’中的‘post’可以看成是post方法的一个实例，可以用户自己配置这个属性的类型，也可以用标准的post方法来调用。

　　///'''requests.get(‘initialuseragent’)'''e.g.'''///'''///'''根据具体情况配置。在content-type属性值中查询，如果，返回text/xxx,那么就是json对象了，如果是，返回item对象，如果是，返回content-type，xxx返回的是字符串。

　　值得注意的是scrapy中urllib2.x作为content-type的默认规范(filetype)，会对响应生成的xml节点进行判断，并将一个结果映射给一个post请求。(不能多于10个字符)。但是这种设置有副作用，就是xml会在请求响应之后再生成一个post请求。所以建议引入opener。只有opener(就是httplib或者gzipclient)解决了这个问题。

　　opener作为executor的节点存在，opener不管是内置的还是第三方的，都是executor，然后定义item和post请求。另外，现在没有明文拷贝，所以导入opener会非常麻烦。///'''requests.get(‘item’)'''e.g.'''///'''///'''e.g.'''e.g.不过，要注意的是，整个代码，查询的流程依旧是opener和get，其他和查询的流程。

0

2022-10-22

文章采集助手

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

解决方案:文章采集助手之scrapy爬虫框架（二）的查询规则

0 个评论

发起人

AI时代内容工厂

解决方案:文章采集助手之scrapy爬虫框架（二）的查询规则

0 个评论

发起人

相关问题