话题：文章采集免费 - 自动文章采集器-优采云官网

微信公众号文章集的入口-历史新闻页面的详细说明

采集交流 • 优采云发表了文章 • 0 个评论 • 235 次浏览 • 2020-08-05 16:13 • 来自相关话题

　　采集微信文章与采集网站内容相同. 您需要从列表页面开始. 而微信文章的列表页面是官方账户的浏览历史页面. 互联网上的其他一些微信采集者现在使用搜狗进行搜索. 尽管采集方法要简单得多，但是内容并不完整. 因此，我们仍然必须从官方帐户的最标准，最全面的历史信息页面中进行采集.
　　由于微信的限制，我们可以复制到的链接不完整，并且无法在浏览器中打开内容. 因此，我们需要使用anyproxy通过上一篇文章介绍的方法来获取完整的微信官方帐户历史记录消息页面的链接地址.
　　http://mp.weixin.qq.com/mp/get ... r%3D1
　　如前一篇文章所述，biz参数是官方帐户的ID，而uin是用户的ID. 目前，uin是所有正式帐户中唯一的帐户. 另外两个重要参数key和pass_ticket是微信客户端上的补充参数.
　　因此，在该地址无效之前，我们可以通过在浏览器中查看原创文本来获取历史新闻报道的列表. 如果要自动分析内容，我们还可以使用尚未过期的key和pass_ticket编写程序. 提交链接地址，然后例如通过php程序获取文章列表.
　　最近，一个朋友告诉我，他的收款目标是一个官方帐户. 我认为没有必要使用上一篇文章中介绍的批量采集方法. 因此，让我们看一下如何在历史新闻页面中获取文章列表. 通过分析文章列表，我们可以获得该官方帐户的所有内容链接地址，然后采集内容.
　　如果在anyproxy的Web界面中正确配置了证书，则可以显示https的内容. Web界面的地址是localhost: 8002，其中localhost可以替换为您自己的IP地址或域名. 从列表中找到以getmasssendmsg开头的记录，然后单击它，该记录的详细信息将显示在右侧:
　　
　　红色框是完整的链接地址. 将微信公众平台的域名拼接到最前面后，即可在浏览器中打开.
　　然后将页面下拉至html内容的末尾，我们可以看到json变量是收录历史新闻的文章列表:
　　
　　我们复制msgList的变量值，并使用json格式化工具对其进行分析，我们可以看到json具有以下结构:
　　{
"list": [
{
"app_msg_ext_info": {
"author": "",
"content": "",
"content_url": "http://mp.weixin.qq.com/s%3F__ ... ot%3B,
"copyright_stat": 100,
"cover": "http://mmbiz.qpic.cn/mmbiz/Mof ... ot%3B,
"digest": "擦亮双眼，远离谣言。",
"fileid": 505283695,
"is_multi": 1,
"multi_app_msg_item_list": [
{
"author": "",
"content": "",
"content_url": "http://mp.weixin.qq.com/s%3F__ ... ot%3B,
"copyright_stat": 100,
"cover": "http://mmbiz.qpic.cn/mmbiz_png ... ot%3B,
"digest": "12月28日，广州亚运城综合体育馆，内附购票入口~",
"fileid": 0,
"source_url": "http://wechat.show.wepiao.com/ ... ot%3B,
"title": "2017微信公开课Pro版即将召开"
},
...//循环被省略
],
"source_url": "",
"subtype": 9,
"title": "谣言热榜 | 十一月朋友圈十大谣言"
},
"comm_msg_info": {
"content": "",
"datetime": 1480933315,
"fakeid": "3093134871",
"id": 1000000010,
"status": 2,
"type": 49 //类型为49的时候是图文消息
}
},
...//循环被省略
]
}
　　对此json的简要分析（此处仅介绍了一些重要信息，其他信息则省略了）:
　　"list": [ //最外层的键名；只出现一次，所有内容都被它包含。
{//这个大阔号之内是一条多图文或单图文消息，通俗的说就是一天的群发都在这里
"app_msg_ext_info":{//图文消息的扩展信息
"content_url": "图文消息的链接地址",
"cover": "封面图片",
"digest": "摘要",
"is_multi": "是否多图文，值为1和0",
"multi_app_msg_item_list": [//这里面包含的是从第二条开始的图文消息，如果is_multi=0，这里将为空
{
"content_url": "图文消息的链接地址",
"cover": "封面图片",
"digest": ""摘要"",
"source_url": "阅读原文的地址",
"title": "子内容标题"
},
...//循环被省略
],
"source_url": "阅读原文的地址",
"title": "头条标题"
},
"comm_msg_info":{//图文消息的基本信息
"datetime": '发布时间，值为unix时间戳',
"type": 49 //类型为49的时候是图文消息
}
},
...//循环被省略
]
　　这里要提到的另一件事是，如果您想获得更长的历史消息内容，则需要在电话或仿真器中下拉页面. 当它到达底部时，微信会自动读取它. 下一页的内容. 下一页的链接地址和历史消息页的链接地址也是以getmasssendmsg开头的地址. 但是内容只是json，没有html. 只需直接解析json.
　　这时，您可以使用上一篇文章中介绍的方法来使用anyproxy将msgList变量值与服务器异步地匹配，然后使用php的json_decode将json从服务器解析为数组. 然后遍历循环数组. 我们可以获取每篇文章的标题和链接地址.
　　如果您只需要采集一个官方帐户的内容，则可以在每日批量发布后通过anyproxy获得带有key和pass_ticket的完整链接地址. 然后自己制作一个程序，然后手动将地址提交给您的程序. 使用php等语言定期匹配msgList，然后解析json. 这样，无需修改anyproxy规则，也无需创建采集队列和跳转页面.
　　现在，我们可以通过官方帐户的历史新闻获得文章列表. 在下一篇文章中，我将根据历史新闻中的文章链接地址介绍如何获取文章的特定内容. 在保存文章，封面图片和全文检索方面也有一些经验.
　　如果您觉得自己写的内容不清楚，或者有不明白的地方，请在下面留言. 或骚扰微信帐户翠金，就像感觉良好一样.
　　持续更新，构建微信公众号批量收款系统
　　微信公众号文章集的入口-历史新闻页面的详细说明
　　分析并采集微信公众号文章页面
　　提高微信公众号文章采集的效率，先进使用anyproxy 查看全部

　　红色框是完整的链接地址. 将微信公众平台的域名拼接到最前面后，即可在浏览器中打开.
　　然后将页面下拉至html内容的末尾，我们可以看到json变量是收录历史新闻的文章列表:
　　

　　我们复制msgList的变量值，并使用json格式化工具对其进行分析，我们可以看到json具有以下结构:
　　{
"list": [
{
"app_msg_ext_info": {
"author": "",
"content": "",
"content_url": "http://mp.weixin.qq.com/s%3F__ ... ot%3B,
"copyright_stat": 100,
"cover": "http://mmbiz.qpic.cn/mmbiz/Mof ... ot%3B,
"digest": "擦亮双眼，远离谣言。",
"fileid": 505283695,
"is_multi": 1,
"multi_app_msg_item_list": [
{
"author": "",
"content": "",
"content_url": "http://mp.weixin.qq.com/s%3F__ ... ot%3B,
"copyright_stat": 100,
"cover": "http://mmbiz.qpic.cn/mmbiz_png ... ot%3B,
"digest": "12月28日，广州亚运城综合体育馆，内附购票入口~",
"fileid": 0,
"source_url": "http://wechat.show.wepiao.com/ ... ot%3B,
"title": "2017微信公开课Pro版即将召开"
},
...//循环被省略
],
"source_url": "",
"subtype": 9,
"title": "谣言热榜 | 十一月朋友圈十大谣言"
},
"comm_msg_info": {
"content": "",
"datetime": 1480933315,
"fakeid": "3093134871",
"id": 1000000010,
"status": 2,
"type": 49 //类型为49的时候是图文消息
}
},
...//循环被省略
]
}
　　对此json的简要分析（此处仅介绍了一些重要信息，其他信息则省略了）:
　　"list": [ //最外层的键名；只出现一次，所有内容都被它包含。
{//这个大阔号之内是一条多图文或单图文消息，通俗的说就是一天的群发都在这里
"app_msg_ext_info":{//图文消息的扩展信息
"content_url": "图文消息的链接地址",
"cover": "封面图片",
"digest": "摘要",
"is_multi": "是否多图文，值为1和0",
"multi_app_msg_item_list": [//这里面包含的是从第二条开始的图文消息，如果is_multi=0，这里将为空
{
"content_url": "图文消息的链接地址",
"cover": "封面图片",
"digest": ""摘要"",
"source_url": "阅读原文的地址",
"title": "子内容标题"
},
...//循环被省略
],
"source_url": "阅读原文的地址",
"title": "头条标题"
},
"comm_msg_info":{//图文消息的基本信息
"datetime": '发布时间，值为unix时间戳',
"type": 49 //类型为49的时候是图文消息
}
},
...//循环被省略
]
　　这里要提到的另一件事是，如果您想获得更长的历史消息内容，则需要在电话或仿真器中下拉页面. 当它到达底部时，微信会自动读取它. 下一页的内容. 下一页的链接地址和历史消息页的链接地址也是以getmasssendmsg开头的地址. 但是内容只是json，没有html. 只需直接解析json.
　　这时，您可以使用上一篇文章中介绍的方法来使用anyproxy将msgList变量值与服务器异步地匹配，然后使用php的json_decode将json从服务器解析为数组. 然后遍历循环数组. 我们可以获取每篇文章的标题和链接地址.
　　如果您只需要采集一个官方帐户的内容，则可以在每日批量发布后通过anyproxy获得带有key和pass_ticket的完整链接地址. 然后自己制作一个程序，然后手动将地址提交给您的程序. 使用php等语言定期匹配msgList，然后解析json. 这样，无需修改anyproxy规则，也无需创建采集队列和跳转页面.
　　现在，我们可以通过官方帐户的历史新闻获得文章列表. 在下一篇文章中，我将根据历史新闻中的文章链接地址介绍如何获取文章的特定内容. 在保存文章，封面图片和全文检索方面也有一些经验.
　　如果您觉得自己写的内容不清楚，或者有不明白的地方，请在下面留言. 或骚扰微信帐户翠金，就像感觉良好一样.
　　持续更新，构建微信公众号批量收款系统
　　微信公众号文章集的入口-历史新闻页面的详细说明
　　分析并采集微信公众号文章页面
　　提高微信公众号文章采集的效率，先进使用anyproxy

微信公众号文章集的入口-历史新闻页面的详细说明

采集交流 • 优采云发表了文章 • 0 个评论 • 235 次浏览 • 2020-08-05 16:13 • 来自相关话题

AI时代内容工厂

文章采集免费

微信公众号文章集的入口-历史新闻页面的详细说明

微信公众号文章集的入口-历史新闻页面的详细说明

话题描述

相关话题

最佳回复者

1 人关注该话题