解决微信公众号文章打印pdf图片无法显示的问题!
优采云 发布时间: 2021-06-20 21:20解决微信公众号文章打印pdf图片无法显示的问题!
python第三方库pdfkit非常好用。基本上,您可以使用它打印出pdf文件。是采集干货和灰尘的绝配。这渣还写了很多爬行,印了很多干货。 pdf的文章,包括微信公众号文章,前段时间我继续折腾公众号文章打印pdf,发现如果有图我就对比下,别做饭了!
SO,于是就有了文章这样的文章来解决微信公众号文章打印pdf图片时无法显示的问题。不明白的可以直接搜索大佬的参考方案,试试看! !
让我们回顾一下下面的解决方案!
以这个人渣的公众号文章链接为例:
抓取打印pdf的效果:
要点
解决pdfkit直接将url转为pdf时图片无法显示的问题,参考博客园xuzifan提供的思路,使用微信中的get_article_content函数提取url中的代码,转换成html字符串,然后将html字符转换为pdf,完美解决。
pip install wechatsogou --upgrade
微信公众号是一个基于搜狗微信搜索的微信公众号爬虫接口,没错,还是调用接口! !
使用Python抓取微信公众号文章并保存为PDF文件(解决不显示图片的问题)
但是这个人渣人渣测试了代码,总是发出验证码,还是不行!
这里是最新的代码参考,大哥的源码:
你可以自己参考!
附上完整的源代码参考:
#采集微信公众号文章内容转pdf文件
#by 微信:huguo00289
# -*- coding: UTF-8 -*-
import wechatsogou
import pdfkit
#pdfkit本地路径
config = pdfkit.configuration(
wkhtmltopdf=r'D:\wkhtmltox-0.12.5-1.mxe-cross-win64\wkhtmltox\bin\wkhtmltopdf.exe')
# 初始化API
ws_api = wechatsogou.WechatSogouAPI(captcha_break_time=3)
def dypdf(h1, data):
# 处理后的html
datas = f'''
{h1}
{h1}
{data}
'''
print("开始打印内容!")
pdfkit.from_string(datas, f'{h1}.pdf', configuration=config)
print("打印保存成功!")
def wx(h1,url):
# 该方法根据文章url对html进行处理,使图片显示
content_info = ws_api.get_article_content(url)
# 得到html代码(代码不完整,需要加入head、body等标签)
html_code = content_info['content_html']
dypdf(h1, html_code)
if __name__=='__main__':
url="https://mp.weixin.qq.com/s?src=11×tamp=1621327798&ver=3075&signature=jmB-1M7nuTd-tKOj-8WmSLcmLK7fWIfIeWsZvtIKw5AkYd4U0R5cOz*QSjaVDfg38UkPtUqfxL2Lut0jrWNuTAtQMiyWd*tJHqLlPnWH-ewQ46cpjjp-Pyke0ab57WdM&new=1"
h1="【微信采集助手】Python Tkinter 微信公众号文章批量采集工具"
wx(h1,url)
调用接口什么的比较简单,做黄牛还是很厉害的!
上期精彩
01
02
03
04
05
··················END···················
你好,我是二叔,
从革命老区外进城的农民工,
互联网非早期非专业站长,
我喜欢python,写作,阅读,英语
非入门项目,自媒体,seo.. .
公众号不赚钱,就做个网友吧。
读者交流群已经建立,找到我的笔记“交流”,可以加入我们~
听说“看”的人变漂亮了~
关注二高手~我会和大家分享python的内容,写读~