抓取网页生成电子书(苏生不惑第167篇原创文章(苏生)不惑为例 )

优采云 发布时间: 2021-10-26 04:24

  抓取网页生成电子书(苏生不惑第167篇原创文章(苏生)不惑为例

)

  苏生不主第167章原创文章,将此公众号设为star,第一时间看到最新的文章。

  我在文章之前写了以下关于备份的内容:

  上面写的公众号备份方法是单次备份。如果要备份某个公众号的所有文章,就有点麻烦了,所以今天分享一个Python一键备份公众号的所有文章,再也不用担心删除我想看的文章。这里以我自己的公众号苏升为例。原理是通过抓包来抓微信客户。使用Python请求微信接口获取公众号文章链接并下载。

  查尔斯*敏*感*词*包裹

  常见的抓包工具有Fiddler、Charles、Charles这里用的,先到官网下载软件,然后打开微信客户端找到公众号,进入文章列表查看发送的文章 .

  

  但是Charles在安装证书前无法获取https接口数据,显示未知。

  

  安装证书后,在proxy->ssl代理设置中添加域名和主机。

  

  再次获取查看公众号文章界面数据。

  

  公众号接口地址文章/mp/profile_ext?action=getmsg&__biz=MjM5ODIzNDEx&f=json&offset=25&count=10&is_ok=1&scene=124&uin=MTU0MTQzNj&key=f57423,还有很多有用的参数__biz是用户公众号和公众号之间的唯一id,uin是用户的id,这个不变,key是请求的秘钥,一段时间后失效,offset是偏移量,count是每次请求数,返回值可以看到返回的数据包括文章标题,摘要,文章地址content_url,阅读源地址source_url,封面,作者作者,抓这些有用的数据就好了。

  python 抢公众号文章

  上面分析了接口参数和返回数据,直接开始用Python请求微信接口。

  

  这里只抓取原创文章,我的公众号有160多个原创,生成HTML文件需要2分钟。

  

  用谷歌浏览器打开看看。

  

  生成的HTML文件也可以转成chm格式,需要先安装Easy CHM软件,是快速创建CHM电子书或CHM帮助文件的强大工具

  

  左边是文章的标题,右边是文章的内容,看起来很方便。

  

  还有一个收录文章标题和链接的markdown文件,在文章之前介绍过关于markdown的内容。

  

  Excel 文件格式也可用。

  

  生成HTML、markdown和Excel都比较快,因为都是文本,下面开始导出PDF。

  导出 PDF

  导出PDF的工具是wkhtmltopdf。首先到官网下载安装wkhtmltopdf。安装完成后,设置环境变量。 文章之前写过这个,然后就可以直接从命令行生成PDF了。

  λ wkhtmltopdf http://www.baidu.com baidu.pdfLoading pages (1/6)Counting pages (2/6)Resolving links (4/6)Loading headers and footers (5/6)Printing pages (6/6)Done

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线