Python 抓取微信公众号文章

优采云发布时间: 2020-08-11 15:51

　　 def remove_tags(s): return re.sub(r'', '', s)

　　然后按照时效性链接获取文章内容，并从中提取参数信息：

　　 from html import unescape from urllib.parse import urlencode def weixin_params(link): html = req.get(link) rParams = r'var (biz =.*?".*?");\s*var (sn =.*?".*?");\s*var (mid =.*?".*?");\s*var (idx =.*?".*?");' params = re.findall(rParams, html) if len(params) == 0: return None return {i.split('=')[0].strip(): i.split('=', 1)[1].strip('|" ') for i in params[0]} for (link, title, abstract) in infos: title = unescape(self.remove_tag(title)) abstract = unescape(self.remove_tag(abstract)) params = weixin_params(link) if params is not None: link = "http://mp.weixin.qq.com/s?" + urlencode(params) print(link, title, abstract)

　　由此可以搜集到以 Python 为关键词的微信公众号文章，包括链接、标题和摘要。如需文章内容也可以随时通过链接提取，但是为了尊重创作者，请在抓取文章正文的时侯请复查原创信息并合理标明作者及引用信息。

　　来自：#rd

0

2020-08-11

querylist采集微信公众号文章

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

Python 抓取微信公众号文章

0 个评论

发起人

AI时代内容工厂

Python 抓取微信公众号文章

0 个评论

发起人

相关问题