分享文章:号内采集自动抓取公众号所有历史文章图文教程
优采云 发布时间: 2022-12-03 12:21分享文章:号内采集自动抓取公众号所有历史文章图文教程
如果需要采集指定微信公众号文章的所有历史记录,需要使用微信公众号文章搜索导出助手中的采集功能,通过账号内的采集,可以一次导出一个公众号的所有文章链接、内容、图片、封面、消息等。下面介绍该功能的具体教程
有3分钟视频教程,推荐观看视频,操作更直观(2021.12.23更新)
注意把视频右下角的360p改成1080p,视频更清晰
第一步进入历史消息界面
采集账号需要通过微信PC端进入历史新闻界面,但是微信从3.4.5.x版本开始取消了这个入口,不过还是有办法的
如果你的微信已经是3.4.5.x及以上版本,有两种方式:
方法一(推荐):点击账户中的采集页面,开始采集按钮上方会有一个文章链接。点击后在公众号中输入任意文章链接即可获取公众号小主页链接(历史新闻界面链接)。请注意,此功能仅适用于 V1.6.2 及以上版本。如果您不是最新版本,则必须先升级到最新版本。最新版本下载链接:
方法二:使用我们的工具自动获取公众号历史新闻界面链接:,输入您想要采集的公众号任意文章文章获取历史新闻界面链接
通过方法一或方法二成功获取到历史文章链接后,继续下面的操作
获取链接后,复制链接发送给文件传输助手或微信好友点击链接打开历史消息界面
第二步:准备采集历史文章
历史消息界面已经通过第一步打开,然后回到微信公众号文章搜索并导出助手软件,点击号码中的采集,点击开始采集按钮,完成后点击按钮会变成初始化,等待按钮变成*敏*感*词*,然后回到微信历史消息界面,点击上面的刷新按钮
注意:
1、点击开始采集按钮后,第一次操作会出现如下截图,提示安装证书。安装证书记得点是,不然会很麻烦
2、如果电脑安装了360等安全软件,点击开始采集后会有拦截窗口,一定要选择允许,这个监控是代理你电脑的ip地址,然后刷新即可自动获取cookies等参数,无需手动填写,不会有安全隐患,获取成功后软件会自动取消代理ip
3、如果点击开始采集后电脑无法上网,请参考右侧教程:
第三步:开始采集历史文章
刷新公众号历史消息界面后,正常情况下,软件已经开始采集历史文章,等待采集完成即可
如果刷新后软件没有反应,可以参考右边的文章:
第四步:下载历史 文章
等待公众号历史文章全部采集完成后,在列表任意位置右击弹出菜单栏,在菜单栏中可以导出文章,获取文章阅读量等功能,在导出文章之前,也可以先点击下载设置,设置文件保存的文件夹,选择是否下载图片、音视频功能等,需要勾选,不需要或不勾选,避免不必要的麻烦
其他考虑
1.一个公众号采集一次就够了,已经有采集的文章会自动保存到本地数据库,点击采集右侧的本地搜索在帐户中,以便在 采集 之前将其发送给所有 文章
2、刷新历史消息界面后,软件采集到达文章后,无需再次刷新,直接关闭页面即可
3.一定要等到开始采集按钮变成*敏*感*词*,再刷新历史消息界面
4、如果历史文章无法自动爬取,必须先看教程查看,查看也很简单:
您也可以尝试手动获取公众号首页和cookies:
最新版:熊猫智能采集软件 V2.6 免费版
优采云采集器软件破解版是一款非常好用的网页数据采集工具,它拥有强大的网页数据采集技术,可以帮助用户在网页上编辑图片,文字,视频等内容到采集,还支持对抓取成功的数据进行编辑,编辑后可以直接发布到您的网站。
【特征】
【全面的采集功能】
浏览器可见的任何内容都可以 采集。采集的对象包括文字内容、图片、flash*敏*感*词*视频等网络内容。采集同时支持图文混合对象。
[面向对象 采集 方式]
面向对象的 采集 方法。同时采集文本和回复内容的能力,分页内容可以轻松合并,采集内容可以分散在多个页面。结果可能是复杂的父子表结构。
[采集快]
优采云采集器 的采集 速度是采集 软件中(最快之一)。不要使用落后和低效的正则匹配技术。它也不使用第三方内置浏览器访问技术。使用自主研发的分析引擎。
【结果数据完整性高】
熊猫独有的多模板功能,确保结果数据完整无遗漏。独有的智能纠错模式,可自动纠正模板与目标页面不一致的情况。
【JS分析自动判断识别】
现在很多网页都使用ajax网页内容动态生成技术。这时候仅仅依靠网页的源代码是无法获得需要的有效内容的。此时需要对采集页面进行JavaScript(JS)解析,获取JS执行后的结果码。
Panda支持对需要JS解析的页面进行JS解析,并获取JS解析后的实际内容。针对执行JS解析速度慢、效率低的问题,Panda内置了智能判断功能,可以自动判断采集页面是否需要执行JS解析。如果不是,尽量不要使用低效的JS解析方式。
【多模板自动适配能力】
很多网站“内容页”都会有多个不同类型的模板,所以优采云采集器软件允许每个采集项目同时设置多个内容页引用模板,当采集运行时,系统会自动匹配并找到最合适的参考模板来分析内容页面。
【实时帮助窗口】
在采集项目设置链接中,系统会在窗口右上方显示与当前配置相关的实时帮助内容,为新手提供实时帮助。所以 优采云采集器 软件很容易上手。全程智能辅助,即使是第一次接触优采云采集器软件,也更容易实现采集项目的配置。
【轻松合并分页内容】
支持多种分页方式,用户只需要两步就可以实现分页内容的合并:点击鼠标确定分页链接的位置,需要的字段项勾选“分页合并”项按页合并。如果页面中有重复的子项,它可以自动找到页面中重复的子项,即自动合并页面内容。
通常,如上述论坛示例,分页页面中的回复内容可以自动合并。这时,用户只需要用鼠标点击,就可以确认分页链接的位置。在某些场合,主体(主表)的内容也会出现在论坛内容页的分页中。这时候系统会自动判断,不会把主表的内容当成重复子项的子表的内容采集。
【指示】
用户名:test 密码:123456 登录免费使用
1、在软件上点击新建工程(标准),输入工程名称
2、在框中输入请求的采集金额信息列表的网址,然后点击“开始预分析”,在弹出的对话框中选择“否”;选择翻页方式 1.
3.然后在信息栏中选择下一页的图标,最后点击“Next Setup”
4. 在内容选择页面,选择任意信息标题,然后点击“下一步”
5.在内容页模板管理中,点击开始分析,在弹出的对话框中选择否
6、在左侧框选择帖子标题,勾选采集项,该项必须订购;在数据库中,选择“采集存储表”,然后选择标题;
7、在采集内容页,我们需要选择内容的上下两部分,即中间的内容就是需要采集的内容,先找到上半部分的内容内容,勾选采集这个项目,这个项目必须订购,这个项目合并在页面中;在存储数据库中,选择“采集存储表”,然后选择内容 8、在软件的“属性页”点击如下图标,立即运行修改后的项目,此时采集 一键启动;
采集收到的信息会以列表的形式显示在下方的方框中;此时,选择任意一个信息标题,然后点击内容页面,可以看到采集收到的信息标题、内容和链接。