网页视频抓取脚本( 老鱼的故事:,文中通过示例代码介绍的详细介绍)

优采云 发布时间: 2021-10-11 02:25

  网页视频抓取脚本(

老鱼的故事:,文中通过示例代码介绍的详细介绍)

  Python爬虫爬取笔趣小说网站过程图解

  更新时间:2019年11月18日08:25:44 作者:老鱼的故事

  本文文章主要介绍python爬虫爬取笔趣网小说网站的过程。文章通过示例代码对其进行了详细介绍。对大家的学习或工作有一定的参考学习价值,是需要的。朋友可以参考

  第一:文章 使用的解析库介绍

  美汤:

  Beautiful Soup 提供了一些简单的、python 风格的函数来处理导航、搜索、修改分析树和其他功能。

  它是一个工具箱,为用户提供需要通过解析文档来捕获的数据。由于其简单性,无需太多代码即可编写完整的应用程序。

  Beautiful Soup 自动将输入文档转换为 Unicode 编码,输出文档为 utf-8 编码。

  不需要考虑编码方式,除非文档没有指定编码方式,此时Beautiful Soup无法自动识别编码方式。然后,您只需要解释原创编码方法。

  Beautiful Soup 已成为与 lxml 和 html6lib 一样优秀的 Python 解释器,灵活地为用户提供不同的解析策略或强大的速度。

  爬小说缘由的背景:

  我以前喜欢在网上看小说,但很多都是花钱的。穷学生没多少钱,于是找了笔趣。

  笔趣是小说网站,起点中文网站有很多免费小说,而这个网站只能在线浏览,不支持小说包下载。

  所以这次爬取就是从这个网站爬取并保存一本名为《一念永恒》的小说。

  另外,本次爬取只是示例演示,请支持正版资源!!!!!!!!!!!

  这么简单的爬行就开始了:

  ①打开url链接,按F12或右键-check进入开发者工具

  

  ② 在开发者工具中,捕获我们要查找的请求入口信息

  选择主文章的一部分,选择复制粘贴部分,

  然后打开开发者工具栏:

  “网络——选择放大镜图标sreach——然后将我们要搜索的内容粘贴到搜索栏中”

  

  然后你会得到下面的item信息,点击它,页面就会跳转到加载body的请求响应item。

  我们可以看到:

  正文部分位于 id 为 content 和 class 为 showtxt 的 div 中。

  ③构造URL请求

  上面的信息还不够,因为现在网站有反爬虫能力,我们需要的是模拟一个浏览器正常发送的url请求链接。

  这里我们会用到:User-Agent(浏览器识别)

  也是一个开发者工具,点击Headers,可以看到Request-Response项的详细信息。

  

  ④ 提出要求:

  有了字段的详细内容,我们就可以编写代码来请求页面了

  

  ⑤ 获取对应的内容,然后运行,内容如下:

  

  解析响应数据

  接下来我们使用BeautifulSoup来分析运行... 代码结果如图:

  

  至此,小说完成。

  以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持脚本之家。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线