用Python爬取文章,并转PDF格式电子书
优采云 发布时间: 2022-04-28 10:02用Python爬取文章,并转PDF格式电子书
前言
前段时间,我在某个姓B的发了个视频,就是采集了自己的文章,转制成PDF格式的教程,CSDN居然给我举报了!!!
现在我来写一篇获取自己的文章,然后转制成PDF格式的电子式,看看能不能发出去
wkhtmltopdf [软件],这个是必学准备好的,不然这个案例是实现不出来的获取文章内容代码
发送请求, 对于url地址发送请求
解析数据, 提取内容
保存数据, 先保存成html文件
再把html文件转成PDF
有疑问的同学,或者想要Python相关资料的可以加群:195242658 找管理员领取资料和*敏*感*词*解答代码实现
请求数据
import requests # 数据请求模块<br /><br />url = f'https://blog.csdn.net/fei347795790/article/list/1' # 确定请求网址<br /># headers 请求头, 主要用于伪装python, 防止程序被服务器识别出来<br />headers = {<br /> 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.88 Safari/537.36'<br />}<br /># 用requests模块里面get方式发送请求<br />response = requests.get(url=url, headers=headers)<br />print(response.text)<br />
响应对象 200 表示请求成功
解析数据, 提取内容
for index in href:<br /> html_data = requests.get(url=index, headers=headers).text<br /> selector_1 = parsel.Selector(html_data)<br /> title = selector_1.css('#articleContentId::text').get()<br /> content = selector_1.css('#content_views').get()<br /> article_content = html_str.format(article=content)<br /> print(title)<br /> print(article_content)<br /> break<br />
保存数据
html_path = 'html\\' + title +'.html'<br />with open(html_path, mode='w', encoding=' utf-8') as f:<br /> f.write(article_content)<br />print(title,'保存成功')<br />
转制为pdf文件
html_path = 'html\\ + title + '.html'<br /> pdf_path = 'pdf\\' + title + '.pdf'<br /> with open(html_path, mode='w', encoding='utf-8') as f:<br /> f.write(article_content)<br /> config = pdfkit.configuration(wkhtmltopdf=r'C:\01-Software-installation\wkhtmltopdf\bin\wkhtmltopdf.exe')<br /> ppdfkit.from_file(html_path,pdf_path,configuration=config)<br /> print(title,'保存成功')<br />