文章自动采集(用urllib2写request.urlopen打开,最简单明了的办法)

优采云 发布时间: 2021-12-01 04:02

  文章自动采集(用urllib2写request.urlopen打开,最简单明了的办法)

  文章自动采集了如图这个,然后又搜集到如图这样,加上一些删减的,感兴趣的童鞋可以下载,用来写个代码学习一下。

  谢邀。遇到好问题,但是回答可能不能给你解决问题的直接相关性。我这里来强答一下吧。你要做的是用urllib2包中的urlopen打开指定网页。我要试的是用urllib2写request.urlopen打开,最简单明了的办法:使用urllib2-http-client,加载urllib2-http-client(两个都需要路径-路径可以自己改,但是路径一定要是同一个)然后打开每个网页。

  用request.urlopen()函数的接口获取对应页面的内容。最后配合request.urlopen获取对应页面的网页内容。使用方法参考pythonforurllib2andurllib2withhttpandhttpsurllib2:forbrowsershttpandhttps...。

  类似于:github-yifanfeng/requests:requestswrapperforpythonurllib2

  推荐你看看这个东西:快速入门python爬虫

  之前在python爬虫群问过这个问题..一帮人说:1.看我urllib库里的urlopen.urlopen.urlopen.urlopen...结束2.看我urllib库里xml.etree.etree.etree的一堆东西,结束3.看文档看文档看文档结束requests是一个网络请求库(请求),接受网络输入,返回响应数据(data),实现urlopen()和urlopen.urlopen(),并没有requestsurlopen()方法。

  此时明白了为啥要各种封装urllib库了,就是为了处理url重复请求。另外,支持用httpclient将浏览器代理给django或者flask请求代理。所以个人的做法是,导入一个concurrent.urlopen.dll,用urllib.request.urlopen()进行抓取,返回数据后注释掉concurrent.urlopen.dll文件中urlopen()函数。

  而且代理还不稳定。没有注释过,httpclient文件用的mozilla的v4.0的版本。时不时浏览器异常一下,就假死好久。总结一下,重复性是地方,只是为了更快更简单的处理并完成请求,不一定要传统的列表+设置等httprequestcookie的方式。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线