解读:简单实用的公众号文章和视频自动采集的相关小技巧
优采云 发布时间: 2022-10-30 17:17解读:简单实用的公众号文章和视频自动采集的相关小技巧
文章自动采集和发布公众号的历史文章,简洁易用,无需配置,快速搞定。今天分享简单实用的公众号文章和视频自动采集的相关小技巧。公众号文章自动采集用过爬虫爬虫的人都应该知道,爬虫一般会按照某个ip来抓取一整条网页,保存整个网页的url地址。因为url长度变化会导致很多点击跳转的请求,所以一般抓取的url中,会有headersbody等字段,用来区分请求的来源,抓取的过程中经常会要求配置请求次数和抓取次数,有时候还会保存为html文件,这都是很耗时间的操作。
这些都是抓取网页本身的操作,下面我就讲讲怎么用chrome浏览器扩展来进行网页的抓取操作。使用requests第一步安装requests第二步在命令行上测试发现requests无法正常运行chromef12右键菜单-网络选项-internet选项-扩展程序-浏览器-requests选择安装配置文件:c:\users\username\appdata\local\google\chrome\profiles\google\chrome\userdata\extensions现在浏览器右侧的标签页上出现requests的字样了,说明配置成功。
但是这个有什么用呢?我们发现requests抓取的网页是存储在了cookies里面的,而且每次抓取重定向url的时候都要重新进行爬取,很不方便。这个时候我们可以通过浏览器自带的开发者工具来查看http的状态,发现http的响应是established,代表着该请求已经成功发起了,只是请求的url还没有被js解析。
这个时候我们把http响应缓存下来,把url改成自己需要抓取的url,requests的http请求接收下来就是会转发给cookies里面的url。并且requests会把最终返回的html页面保存到本地。而且我们可以很轻松的写出抓取的response,抓取也变得方便。完整的requests配置示例如下:cookiesaccess-control-allow-origin"*"//启用浏览器的https连接允许目标主机对其get请求,并禁止目标主机对其post请求requestuser-agentmozilla/5.0(macintosh;intelmacosx10_13_6)applewebkit/537.36(khtml,likegecko)chrome/51.0.3738.106safari/537.36"//启用浏览器的https链接允许目标主机对其get请求,并禁止目标主机对其post请求requesttimeout"30"//设置最大30分钟抓取方法cookie抓取param{"cookie":"你的用户名","path":"你要抓取的文章地址","timeout":10}抓取的方法大致就是这样了,对于需要爬取很多页面的工作来说,比较好的方法是先给原网页的headers中添加cookie,然后把获取到的cookie传递给requests。现在我们运行这个脚本来试一下,能。