抓取网页生成电子书(用Python一键备份某个公众号的所有文章(图) )

优采云发布时间: 2022-03-20 07:03

　　抓取网页生成电子书(用Python一键备份某个公众号的所有文章(图)

)

　　上面写的公众号的备份方法是单次备份。如果要备份某个公众号的所有文章，那就有点太麻烦了，所以今天分享一个公众号的一键备份。公众号的所有文章，再也不用担心文章被删除了。这里以我自己的公众号苏生不火为例。原理是通过抓包来抓微信客户。终端接口，使用Python请求微信接口获取公众号文章的链接然后下载。

　　查尔斯捕获包

　　常见的数据包捕获工具包括 Fiddler 和 charles。 Charles在这里使用，先去官网下载软件，然后打开微信客户端找到公众号，进入文章列表可以看到贴出来的文章。

　　但是Charles在安装证书之前无法获取https接口数据，显示unknown。

　　安装证书后在proxy->ssl代理设置中添加域名和主机。

　　再次爬取，可以看到公众号文章的界面数据。

　　公众号接口地址文章/mp/profile_ext?action=getmsg&__biz=MjM5ODIzNDEx&f=json&offset=25&count=10&is_ok=1&scene=124&uin=MTU0MTQzNj&key=f57423 参数很多，其中有用的参数__biz是用户公众号和公众号的唯一id，uin是用户的id，这个不变，key是请求的秘钥，会在一段时间后过期，offset是偏移量，count是个数每个请求的条目数，return 可以看到返回的数据包括文章title标题、摘要摘要、文章地址content_url、阅读原文地址source_url、封面封面、作者作者，抓住这些有用的数据。

　　python抢公众号文章

　　接口参数和返回数据分析完毕，开始用Python请求微信接口就够了。

　　这里我只抢原创文章，我的公众号有160多篇文章原创，生成HTML文件需要2分钟。

　　用谷歌浏览器打开即可查看。

　　生成的HTML文件也可以转换成chm格式，需要先安装软件Easy CHM，它是快速制作CHM电子书或CHM帮助文件的强大工具

　　左边的文章标题和右边的文章内容看起来很方便。

　　还有带有文章标题和链接的markdown文件，文章之前介绍过关于markdown的。

　　Excel 文件格式也可用。

　　生成HTML、markdown和Excel更快，因为都是文本，我们开始导出PDF吧。

　　导出 PDF

　　导出PDF的工具是wkhtmltopdf，先去官网下载安装wkhtmltopdf，安装后设置环境变量。这个之前写过文章，然后就可以直接在命令行生成PDF了。

　　λ wkhtmltopdf http://www.baidu.com baidu.pdfLoading pages (1/6)Counting pages (2/6)Resolving links (4/6)Loading headers and footers (5/6)Printing pages (6/6)Done

0

2022-03-20

抓取网页生成电子书

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

抓取网页生成电子书(用Python一键备份某个公众号的所有文章(图) )

0 个评论

发起人

AI时代内容工厂

抓取网页生成电子书(用Python一键备份某个公众号的所有文章(图) )

0 个评论

发起人

相关问题