解读:微信公众号文章采集的入口--历史消息页详解

优采云 发布时间: 2022-12-14 10:48

  解读:微信公众号文章采集的入口--历史消息页详解

  采集微信文章和采集网站的内容是一样的,都需要从列表页开始。而微信文章的列表页就是公众号里的查看历史新闻页。网上其他一些微信采集器现在都用搜狗搜索,采集虽然方法简单多了,但是内容不全。所以我们还是要采集来自最规范最全面的公众号历史新闻页面。

  由于微信的限制,我们复制的链接不完整,无法在浏览器中打开内容。所以我们需要使用anyproxy通过上一篇文章介绍的方法获取微信公众号历史新闻页面的完整链接地址。

  上一篇文章文章中提到,biz参数是公众号的ID,uin是用户的ID。目前uin在所有公众号中是唯一的。另外两个重要参数key和pass_ticket在微信客户端是辅助参数。

  所以在这个地址过期之前,我们可以通过在浏览器中查看原文,得到历史消息的文章列表。如果我们要自动解析内容,我们也可以做一个程序,保存key和如何让网站收录输入pass_ticket的链接地址,然后得到文章的列表> 例如,通过 php 程序。

  最近有朋友告诉我,他的采集目标是做一个公众号,所以我觉得没必要用上一篇文章写的批量采集方法。那么我们来看看如何获​​取历史新闻页面中的文章列表。通过分析文章列表,我们可以得到这个公众号的所有内容链接地址,然后采集内容就可以了。

  在anyproxy web界面,如果证书配置正确,可以显示https的内容。web界面的地址就是localhost可以换成你自己的IP地址或者域名。从列表中找到以getmasssendmsg开头的记录,点击后右侧会显示这条记录的详细信息:

  

  红框部分为完整链接地址。前面拼接微信公众平台的域名后,就可以在浏览器中打开了。

  然后将页面下拉到html内容的末尾,我们可以看到一个json变量就是文章历史消息列表:

  我们复制msgList的变量值,用json格式化工具分析,可以看到json有如下结构:

  简单分析一下这个json(这里只介绍一些重要的信息,其他的省略):

  这里还要提一下,如果想获取时间较长的历史消息内容,需要在手机或者模拟器上下拉页面。当你下拉到底部时,微信会自动读取下一页内容。下页链接地址和历史新闻页链接地址也是getmasssendmsg开头的地址。但是内容只有json,没有html。直接解析json就可以了。

  这时候可以使用前面文章介绍的方法,使用anyproxy匹配msgList变量的值,异步提交给服务器,然后使用php的json_decode将json解析成数组从服务器。然后遍历数组。我们可以得到每一个文章的标题和链接地址。

  

  如果您只需要单个采集公众号的内容,您可以在每天群发后通过anyproxy获取带有key和pass_ticket的完整链接地址。然后自己做一个程序,手动提交地址给自己的程序。使用php等语言定时匹配msgList,然后解析json。这样就不需要修改anyproxy的规则,也不需要创建采集队列和跳转页面。

  现在我们可以通过公众号的历史新闻获取文章的名单。在接下来的文章中,我将针对具体内容介绍如何根据历史新闻>中的文章链接地址获取文章的方法。还有一些关于如何保存文章、封面图片和全文搜索的技巧。

  持续更新,微信公众号文章批量采集系统搭建

  微信公众号入口文章采集--历史新闻页面详解

  微信公众号文章页面分析和采集

  提高微信公众号文章采集效率,anyproxy的高级使用

  解决方案:B2B网站内容都是采集而来或是优化痕迹过度

  1. B2B的网站上有很多死链接。由于网站的操作,可能会创建很多路径或目录,会出现很多403错误,这种死链接会影响权重,影响Ranking,加倍影响BD的收录。

  2、B2B企业中有一些不恰当的词 网站

  我们仍然不想使用这些敏感词。观察和维护SEO搜索引擎文化是每个站长必须做的。相反,你的网站可能被黑了,所以BD收录的数量会大大减少。

  3. B2B网站二级域名使用过多或链接过深

  

  这一点我深有体会。我的门户网站和163一样是二级域名。不管我怎么做外链,怎么提高更新频率,我也不能增加BD的收录的个数,因为二级域名会分开。重量,对于太深的链接也是如此。如果二级域名太多,链接太深,BD很生气。

  4、B2B中JS调用过多网站

  比如广告满天飞,弹窗太多等等,用户不喜欢,BD更不喜欢。

  5、B2B网站的内容来自采集或过度优化

  内容为王,外链为王这句话还是很有道理的。如果您的网站内容全部来自采集,那简直就是垃圾场。可以想象,BD会收录你的内容?过多的优化痕迹意味着你没有你需要的工具,BD会认为你的是垃圾场,所以不会收录你的内容。

  

  6.空间问题(很重要)

  为什么我说空间极其重要,因为我深受其影响,我使用的空间经常打不开。当某时刻BD蜘蛛顺着路径走进来的时候,发现门是关着的,无法访问BD蜘蛛的请求。几次之后,就只能继续拜访其他家了。所以空间不仅仅是收录会影响B2B公司网站,BD蜘蛛也会判断你的友情等级,友情等级越高,蜘蛛喜欢的越多,收录的数量自然会增加 会提出来。

  7. 批量或*敏*感*词*修改网址

  这包括 B2B 公司的内部 URL 网站 和用于放置外部链接的 URL。因为很多站长都是新站,有时候听了别人的意见或者觉得不满意就修改版本,删掉一些目录或者链接。BD这样做的目的就是延迟你的审核。你的很难放出来,而且对于外链的URL,很多站长会把外链的URL超链接改成锚文本链接,这样你的BD相关域就突然消失了,相关域也就消失了。迷路了。影响 收录。这将降低收录速度或减少收录音量。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线