抓取网页生成电子书(2019独角兽企业重金招聘Python工程师标准(图)标准)

优采云 发布时间: 2021-10-04 17:15

  抓取网页生成电子书(2019独角兽企业重金招聘Python工程师标准(图)标准)

  2019独角兽企业重磅Python工程师招聘标准>>>

  

  总有同学问,学了Python基础之后,不知道自己可以做些什么来提高。今天我就用一个小例子来告诉大家通过Python和爬虫可以完成什么样的小工具。

  在知乎上,你一定关注过一些不错的专栏(比如Crossin的编程课堂)。但如果有一天,你最喜欢的受访者在网上被喷,你一怒之下删帖停止更新,你就看不到好内容了。虽然这是小概率事件(没有发生过),但你可以通过将关注的专栏导出到电子书来准备下雨天,这样你就可以离线阅读,而不必担心不小心删除帖子。

  只需要工具和源码的可以拉到文章底部获取代码。

  【最终效果】

  运行程序,输入列的id,即网页地址上的路径:

  

  

  之后程序会自动抓取列中的文章,并根据发布时间合并导出为pdf文件。

  

  【实现思路】

  本方案主要分为三部分:

  抓取栏目文章地址列表抓取每篇文章的详细内容文章导出PDF1.抓取列表

  在之前的文章爬虫必备工具中,掌握它就解决了一半的问题,介绍了如何分析网页上的请求。根据方法,我们可以使用开发者工具的Network功能,找出栏目页面的请求,获取明细列表:

  https://www.zhihu.com/api/v4/columns/crossin/articles

  

  观察返回的结果,我们发现通过next和is_end的值,可以得到下一个列表请求的地址(相当于页面向下滚动的触发效果),判断是否得到了所有的文章。

  data中的id、title、url就是我们需要的数据。因为url可以用id拼出来,所以没有保存在我们的代码中。

  

  使用 while 循环直到 文章 的所有 id 和 title 被捕获并保存在文件中。

  while True:

resp = requests.get(url, headers=headers)

j = resp.json()

data = j['data']

for article in data:

# 保存id和title(略)

if j['paging']['is_end']:

break

url = j['paging']['next']

# 按 id 排序(略)

# 导入文件(略)

  

  2. 抢 文章

  有了文章的所有id/url,后面的爬取就很简单了。文章 主要内容在 Post-RichText 标签中。

  处理一些文字需要花点功夫,比如原页面的图片效果,会添加noscript标签和,highlight">

  url = 'https://zhuanlan.zhihu.com/p/' + id

html = requests.get(url, headers=headers).text

soup = BeautifulSoup(html, 'lxml')

content = soup.find(class_='Post-RichText').prettify()

# 对content做处理(略)

with open(file_name, 'w') as f:

f.write(content)

  

  至此,所有的内容都已经抓取完毕,可以在本地读取了。

  3. 导出 PDF

  为了方便阅读,我们使用 wkhtmltopdf + pdfkit 将这些 HTML 文件打包成 PDF。

  wkhtmltopdf是一个将HTML转PDF的工具,需要单独安装。详情请参阅其官方网站。

  pdfkit 是为此工具打包的 Python 库,可以从 pip 安装:

  pip install pdfkit

  使用非常简单:

  # 获取htmls文件名列表(略)

pdfkit.from_file(sorted(htmls), 'zhihu.pdf')

  

  这样就完成了整列的导出。

  不仅是知乎的栏目,几乎大部分的信息类型都是网站,通过1.抓取列表2.抓取详细内容采集数据两步。所以这段代码只要稍加修改就可以用于许多其他的网站。只是有些网站需要登录才能访问,所以需要在headers中设置cookie信息。另外,不同网站的请求接口、参数、限制都不一样,具体问题还是要具体问题具体分析。

  这些爬虫的开发技巧可以在我们的爬虫实战课中学习。需要的请回复公众号中的实际爬虫

  【源码获取】

  获取知乎的专栏下载器源码,请在公众号(Crossin的编程课堂)回复关键字知乎

  除了代码,还有本专栏打包好的PDF,欢迎阅读分享。

  ====

  其他 文章 和回答:

  欢迎搜索关注:Crossin的编程课堂

  

  转载于:

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线