解读:简单实用的公众号文章和视频自动采集的相关小技巧

优采云发布时间: 2022-10-30 17:17

　　文章自动采集和发布公众号的历史文章，简洁易用，无需配置，快速搞定。今天分享简单实用的公众号文章和视频自动采集的相关小技巧。公众号文章自动采集用过爬虫爬虫的人都应该知道，爬虫一般会按照某个ip来抓取一整条网页，保存整个网页的url地址。因为url长度变化会导致很多点击跳转的请求，所以一般抓取的url中，会有headersbody等字段，用来区分请求的来源，抓取的过程中经常会要求配置请求次数和抓取次数，有时候还会保存为html文件，这都是很耗时间的操作。

　　这些都是抓取网页本身的操作，下面我就讲讲怎么用chrome浏览器扩展来进行网页的抓取操作。使用requests第一步安装requests第二步在命令行上测试发现requests无法正常运行chromef12右键菜单-网络选项-internet选项-扩展程序-浏览器-requests选择安装配置文件：c:\users\username\appdata\local\google\chrome\profiles\google\chrome\userdata\extensions现在浏览器右侧的标签页上出现requests的字样了，说明配置成功。

　　但是这个有什么用呢？我们发现requests抓取的网页是存储在了cookies里面的，而且每次抓取重定向url的时候都要重新进行爬取，很不方便。这个时候我们可以通过浏览器自带的开发者工具来查看http的状态，发现http的响应是established，代表着该请求已经成功发起了，只是请求的url还没有被js解析。

　　这个时候我们把http响应缓存下来，把url改成自己需要抓取的url，requests的http请求接收下来就是会转发给cookies里面的url。并且requests会把最终返回的html页面保存到本地。而且我们可以很轻松的写出抓取的response，抓取也变得方便。完整的requests配置示例如下：cookiesaccess-control-allow-origin"*"//启用浏览器的https连接允许目标主机对其get请求，并禁止目标主机对其post请求requestuser-agentmozilla/5.0(macintosh;intelmacosx10_13_6)applewebkit/537.36(khtml,likegecko)chrome/51.0.3738.106safari/537.36"//启用浏览器的https链接允许目标主机对其get请求，并禁止目标主机对其post请求requesttimeout"30"//设置最大30分钟抓取方法cookie抓取param{"cookie":"你的用户名","path":"你要抓取的文章地址","timeout":10}抓取的方法大致就是这样了，对于需要爬取很多页面的工作来说，比较好的方法是先给原网页的headers中添加cookie，然后把获取到的cookie传递给requests。现在我们运行这个脚本来试一下，能。

0

2022-10-30

文章自动采集和发布

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

解读:简单实用的公众号文章和视频自动采集的相关小技巧

0 个评论

发起人

AI时代内容工厂

解读:简单实用的公众号文章和视频自动采集的相关小技巧

0 个评论

发起人

相关问题