Python登录微信公众号后台编辑素材界面的原理和解析

优采云发布时间: 2021-04-28 03:11

　　准备阶段

　　为了实现此采集器，我们需要使用以下工具

　　此外，此抓取程序使用微信官方帐户后端编辑资料界面。原理是，当我们插入超链接时，微信将调用特殊的API（请参见下图）以获取指定官方帐户的文章列表。因此，我们还需要拥有一个官方帐户。

　　fig1

　　正式开始

　　我们需要登录到WeChat官方帐户，依次单击“物料管理”，“新建图形消息”，然后单击上方的超链接。

　　fig2

　　下一步，按F12键，打开Chrome的开发者工具，然后选择“网络”

　　fig3

　　这时，在上一个超链接界面中，单击“选择另一个官方帐户”，然后输入您要抓取的官方帐户（例如，中国移动）

　　fig4

　　这时，先前的网络将刷新一些链接，其中以“ appmsg”开头的内容是我们需要分析的

　　fig5

　　我们解析请求的网址

　　https://mp.weixin.qq.com/cgi-bin/appmsg?action=list_ex&begin=0&count=5&fakeid=MzI1MjU5MjMzNA==&type=9&query=&token=143406284&lang=zh_CN&f=json&ajax=1

　　分为三部分

　　通过不断浏览下一页，我们发现每次开始都只会更改一次，每次都会增加5，这就是count的值。

　　接下来，我们使用Python获取相同的资源，但是无法通过直接运行以下代码来获取资源。

　　import requests

url = "https://mp.weixin.qq.com/cgi-bin/appmsg?action=list_ex&begin=0&count=5&fakeid=MzI1MjU5MjMzNA==&type=9&query=&token=1957521839&lang=zh_CN&f=json&ajax=1"

requests.get(url).json()

# {'base_resp': {'ret': 200003, 'err_msg': 'invalid session'}}

　　之所以能够在浏览器上获取资源，是因为我们登录了微信官方账号后端。而且Python没有我们的登录信息，因此该请求无效。我们需要在请求中设置headers参数，并传入Cookie和User-Agent以模拟登录

　　因为标题信息的内容每次都会改变，所以我将这些内容放在一个单独的文件“ wechat.yaml”中，信息如下

　　cookie: ua_id=wuzWM9FKE14...

user_agent: Mozilla/5.0...

　　您只需要稍后阅读

　　# 读取cookie和user_agent

import yaml

with open("wechat.yaml", "r") as file:

file_data = file.read()

config = yaml.safe_load(file_data)

headers = {

"Cookie": config['cookie'],

"User-Agent": config['user_agent']

}

requests.get(url, headers=headers, verify=False).json()

　　在返回的JSON中，我们可以看到每个文章的标题（标题），摘要（摘要），链接（链接），推送时间（update_time）和封面地址（封面）。

　　appmsgid是每个推文的唯一标识符，而aid是每个推文的唯一标识符。

　　fig6

　　实际上，除了cookie之外，URL中的token参数还将用于限制采集器，因此上述代码的输出可能为{'base_resp'：{'ret'：200040，'err_msg '：'无效的csrf令牌'}}

　　接下来，我们编写一个循环以获取文章的所有JSON并保存。

　　import json

import requests

import time

import random

import yaml

with open("wechat.yaml", "r") as file:

file_data = file.read()

config = yaml.safe_load(file_data)

headers = {

"Cookie": config['cookie'],

"User-Agent": config['user_agent']

}

# 请求参数

url = "https://mp.weixin.qq.com/cgi-bin/appmsg"

begin = "0"

params = {

"action": "list_ex",

"begin": begin,

"count": "5",

"fakeid": config['fakeid'],

"type": "9",

"token": config['token'],

"lang": "zh_CN",

"f": "json",

"ajax": "1"

}

# 存放结果

app_msg_list = []

# 在不知道公众号有多少文章的情况下，使用while语句

# 也方便重新运行时设置页数

i = 0

while True:

begin = i * 5

params["begin"] = str(begin)

# 随机暂停几秒，避免过快的请求导致过快的被查到

time.sleep(random.randint(1,10))

resp = requests.get(url, headers=headers, params = params, verify=False)

# 微信流量控制, 退出

if resp.json()['base_resp']['ret'] == 200013:

print("frequencey control, stop at {}".format(str(begin)))

break

# 如果返回的内容中为空则结束

if len(resp.json()['app_msg_list']) == 0:

print("all ariticle parsed")

break

app_msg_list.append(resp.json())

# 翻页

i += 1

　　在上面的代码中，我还将伪造品和令牌存储在“ wechat.yaml”文件中。这是因为fakeid是每个官方帐户唯一的标识符，并且令牌会经常更改。此信息可以通过解析URL获得，也可以从开发人员工具中查看

　　fig7

　　爬行一段时间后，您会遇到以下问题

　　{'base_resp': {'err_msg': 'freq control', 'ret': 200013}}

　　这时，当您尝试在官方帐户的背景中插入超链接时，会出现以下提示

　　fig8

　　这是官方帐户的流量限制，通常需要等待30-60分钟才能继续。为了完美解决此问题，您可能需要申请多个官方帐户，您可能需要与微信官方帐户登录系统进行对抗，或者您可能需要建立代理池。

　　但是我不需要工业级的采集器，我只想搜寻我自己的官方帐户信息，因此请等待一个小时，再次登录到官方帐户，获取Cookie和令牌并运行它。我不想为自己的利益挑战别人的工作。

　　最后，将结果保存为JSON格式。

　　# 保存结果为JSON

json_name = "mp_data_{}.json".format(str(begin))

with open(json_name, "w") as file:

file.write(json.dumps(app_msg_list, indent=2, ensure_ascii=False))

　　或提取文章标识符，标题，URL和发布时间的四列，并将它们保存为CSV。

　　info_list = []

for msg in app_msg_list:

if "app_msg_list" in msg:

for item in msg["app_msg_list"]:

info = '"{}","{}","{}","{}"'.format(str(item["aid"]), item['title'], item['link'], str(item['create_time']))

info_list.append(info)

# save as csv

with open("app_msg_list.csv", "w") as file:

file.writelines("\n".join(info_list))

0

2021-04-28

querylist采集微信公众号文章

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

Python登录微信公众号后台编辑素材界面的原理和解析

0 个评论

发起人