用Python爬取文章,并转PDF格式电子书

优采云 发布时间: 2022-04-28 10:02

  用Python爬取文章,并转PDF格式电子书

  前言

  前段时间,我在某个姓B的发了个视频,就是采集了自己的文章,转制成PDF格式的教程,CSDN居然给我举报了!!!

  现在我来写一篇获取自己的文章,然后转制成PDF格式的电子式,看看能不能发出去

  wkhtmltopdf [软件],这个是必学准备好的,不然这个案例是实现不出来的获取文章内容代码

  发送请求, 对于url地址发送请求

  解析数据, 提取内容

  保存数据, 先保存成html文件

  再把html文件转成PDF

  有疑问的同学,或者想要Python相关资料的可以加群:195242658 找管理员领取资料和*敏*感*词*解答代码实现

  请求数据

  import requests # 数据请求模块<br /><br />url = f'https://blog.csdn.net/fei347795790/article/list/1' # 确定请求网址<br /># headers 请求头, 主要用于伪装python, 防止程序被服务器识别出来<br />headers = {<br /> 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.88 Safari/537.36'<br />}<br /># 用requests模块里面get方式发送请求<br />response = requests.get(url=url, headers=headers)<br />print(response.text)<br />

  响应对象 200 表示请求成功

  解析数据, 提取内容

  for index in href:<br /> html_data = requests.get(url=index, headers=headers).text<br /> selector_1 = parsel.Selector(html_data)<br /> title = selector_1.css('#articleContentId::text').get()<br /> content = selector_1.css('#content_views').get()<br /> article_content = html_str.format(article=content)<br /> print(title)<br /> print(article_content)<br /> break<br />

  保存数据

  html_path = 'html\\' + title +'.html'<br />with open(html_path, mode='w', encoding=' utf-8') as f:<br /> f.write(article_content)<br />print(title,'保存成功')<br />

  

  

  转制为pdf文件

   html_path = 'html\\ + title + '.html'<br /> pdf_path = 'pdf\\' + title + '.pdf'<br /> with open(html_path, mode='w', encoding='utf-8') as f:<br /> f.write(article_content)<br /> config = pdfkit.configuration(wkhtmltopdf=r'C:\01-Software-installation\wkhtmltopdf\bin\wkhtmltopdf.exe')<br /> ppdfkit.from_file(html_path,pdf_path,configuration=config)<br /> print(title,'保存成功')<br />

  

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线