文章自动采集(用urllib2写request.urlopen打开，最简单明了的办法)

优采云发布时间: 2021-12-01 04:02

　　文章自动采集了如图这个，然后又搜集到如图这样，加上一些删减的，感兴趣的童鞋可以下载，用来写个代码学习一下。

　　谢邀。遇到好问题，但是回答可能不能给你解决问题的直接相关性。我这里来强答一下吧。你要做的是用urllib2包中的urlopen打开指定网页。我要试的是用urllib2写request.urlopen打开，最简单明了的办法：使用urllib2-http-client，加载urllib2-http-client（两个都需要路径-路径可以自己改，但是路径一定要是同一个）然后打开每个网页。

　　用request.urlopen()函数的接口获取对应页面的内容。最后配合request.urlopen获取对应页面的网页内容。使用方法参考pythonforurllib2andurllib2withhttpandhttpsurllib2:forbrowsershttpandhttps...。

　　类似于：github-yifanfeng/requests:requestswrapperforpythonurllib2

　　推荐你看看这个东西：快速入门python爬虫

　　之前在python爬虫群问过这个问题..一帮人说：1.看我urllib库里的urlopen.urlopen.urlopen.urlopen...结束2.看我urllib库里xml.etree.etree.etree的一堆东西，结束3.看文档看文档看文档结束requests是一个网络请求库(请求)，接受网络输入，返回响应数据(data)，实现urlopen()和urlopen.urlopen()，并没有requestsurlopen()方法。

　　此时明白了为啥要各种封装urllib库了，就是为了处理url重复请求。另外，支持用httpclient将浏览器代理给django或者flask请求代理。所以个人的做法是，导入一个concurrent.urlopen.dll,用urllib.request.urlopen()进行抓取，返回数据后注释掉concurrent.urlopen.dll文件中urlopen()函数。

　　而且代理还不稳定。没有注释过，httpclient文件用的mozilla的v4.0的版本。时不时浏览器异常一下，就假死好久。总结一下，重复性是地方，只是为了更快更简单的处理并完成请求，不一定要传统的列表+设置等httprequestcookie的方式。

0

2021-12-01

文章自动采集

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

文章自动采集(用urllib2写request.urlopen打开，最简单明了的办法)

0 个评论

发起人

AI时代内容工厂

文章自动采集(用urllib2写request.urlopen打开，最简单明了的办法)

0 个评论

发起人

相关问题