Python 抓取微信公众号文章
优采云 发布时间: 2020-08-11 15:51def remove_tags(s): return re.sub(r'', '', s)
然后按照时效性链接获取文章内容,并从中提取参数信息:
from html import unescape from urllib.parse import urlencode def weixin_params(link): html = req.get(link) rParams = r'var (biz =.*?".*?");\s*var (sn =.*?".*?");\s*var (mid =.*?".*?");\s*var (idx =.*?".*?");' params = re.findall(rParams, html) if len(params) == 0: return None return {i.split('=')[0].strip(): i.split('=', 1)[1].strip('|" ') for i in params[0]} for (link, title, abstract) in infos: title = unescape(self.remove_tag(title)) abstract = unescape(self.remove_tag(abstract)) params = weixin_params(link) if params is not None: link = "http://mp.weixin.qq.com/s?" + urlencode(params) print(link, title, abstract)
由此可以搜集到以 Python 为关键词的微信公众号文章,包括链接、标题和摘要。如需文章内容也可以随时通过链接提取,但是为了尊重创作者,请在抓取文章正文的时侯请复查原创信息并合理标明作者及引用信息。
来自:#rd