抓取网页生成电子书(苏生不惑第167篇原创文章(苏生)不惑为例 )

优采云发布时间: 2021-10-26 04:24

　　抓取网页生成电子书(苏生不惑第167篇原创文章(苏生)不惑为例

)

　　苏生不主第167章原创文章，将此公众号设为star，第一时间看到最新的文章。

　　我在文章之前写了以下关于备份的内容：

　　上面写的公众号备份方法是单次备份。如果要备份某个公众号的所有文章，就有点麻烦了，所以今天分享一个Python一键备份公众号的所有文章，再也不用担心删除我想看的文章。这里以我自己的公众号苏升为例。原理是通过抓包来抓微信客户。使用Python请求微信接口获取公众号文章链接并下载。

　　查尔斯*敏*感*词*包裹

　　常见的抓包工具有Fiddler、Charles、Charles这里用的，先到官网下载软件，然后打开微信客户端找到公众号，进入文章列表查看发送的文章 .

　　但是Charles在安装证书前无法获取https接口数据，显示未知。

　　安装证书后，在proxy->ssl代理设置中添加域名和主机。

　　再次获取查看公众号文章界面数据。

　　公众号接口地址文章/mp/profile_ext?action=getmsg&__biz=MjM5ODIzNDEx&f=json&offset=25&count=10&is_ok=1&scene=124&uin=MTU0MTQzNj&key=f57423，还有很多有用的参数__biz是用户公众号和公众号之间的唯一id，uin是用户的id，这个不变，key是请求的秘钥，一段时间后失效，offset是偏移量，count是每次请求数，返回值可以看到返回的数据包括文章标题，摘要，文章地址content_url，阅读源地址source_url，封面，作者作者，抓这些有用的数据就好了。

　　python 抢公众号文章

　　上面分析了接口参数和返回数据，直接开始用Python请求微信接口。

　　这里只抓取原创文章，我的公众号有160多个原创，生成HTML文件需要2分钟。

　　用谷歌浏览器打开看看。

　　生成的HTML文件也可以转成chm格式，需要先安装Easy CHM软件，是快速创建CHM电子书或CHM帮助文件的强大工具

　　左边是文章的标题，右边是文章的内容，看起来很方便。

　　还有一个收录文章标题和链接的markdown文件，在文章之前介绍过关于markdown的内容。

　　Excel 文件格式也可用。

　　生成HTML、markdown和Excel都比较快，因为都是文本，下面开始导出PDF。

　　导出 PDF

　　导出PDF的工具是wkhtmltopdf。首先到官网下载安装wkhtmltopdf。安装完成后，设置环境变量。文章之前写过这个，然后就可以直接从命令行生成PDF了。

　　λ wkhtmltopdf http://www.baidu.com baidu.pdfLoading pages (1/6)Counting pages (2/6)Resolving links (4/6)Loading headers and footers (5/6)Printing pages (6/6)Done

0

2021-10-26

抓取网页生成电子书

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

抓取网页生成电子书(苏生不惑第167篇原创文章(苏生)不惑为例 )

0 个评论

发起人