网页视频抓取脚本( 老鱼的故事:,文中通过示例代码介绍的详细介绍)
优采云 发布时间: 2021-10-11 02:25网页视频抓取脚本(
老鱼的故事:,文中通过示例代码介绍的详细介绍)
Python爬虫爬取笔趣小说网站过程图解
更新时间:2019年11月18日08:25:44 作者:老鱼的故事
本文文章主要介绍python爬虫爬取笔趣网小说网站的过程。文章通过示例代码对其进行了详细介绍。对大家的学习或工作有一定的参考学习价值,是需要的。朋友可以参考
第一:文章 使用的解析库介绍
美汤:
Beautiful Soup 提供了一些简单的、python 风格的函数来处理导航、搜索、修改分析树和其他功能。
它是一个工具箱,为用户提供需要通过解析文档来捕获的数据。由于其简单性,无需太多代码即可编写完整的应用程序。
Beautiful Soup 自动将输入文档转换为 Unicode 编码,输出文档为 utf-8 编码。
不需要考虑编码方式,除非文档没有指定编码方式,此时Beautiful Soup无法自动识别编码方式。然后,您只需要解释原创编码方法。
Beautiful Soup 已成为与 lxml 和 html6lib 一样优秀的 Python 解释器,灵活地为用户提供不同的解析策略或强大的速度。
爬小说缘由的背景:
我以前喜欢在网上看小说,但很多都是花钱的。穷学生没多少钱,于是找了笔趣。
笔趣是小说网站,起点中文网站有很多免费小说,而这个网站只能在线浏览,不支持小说包下载。
所以这次爬取就是从这个网站爬取并保存一本名为《一念永恒》的小说。
另外,本次爬取只是示例演示,请支持正版资源!!!!!!!!!!!
这么简单的爬行就开始了:
①打开url链接,按F12或右键-check进入开发者工具
② 在开发者工具中,捕获我们要查找的请求入口信息
选择主文章的一部分,选择复制粘贴部分,
然后打开开发者工具栏:
“网络——选择放大镜图标sreach——然后将我们要搜索的内容粘贴到搜索栏中”
然后你会得到下面的item信息,点击它,页面就会跳转到加载body的请求响应item。
我们可以看到:
正文部分位于 id 为 content 和 class 为 showtxt 的 div 中。
③构造URL请求
上面的信息还不够,因为现在网站有反爬虫能力,我们需要的是模拟一个浏览器正常发送的url请求链接。
这里我们会用到:User-Agent(浏览器识别)
也是一个开发者工具,点击Headers,可以看到Request-Response项的详细信息。
④ 提出要求:
有了字段的详细内容,我们就可以编写代码来请求页面了
⑤ 获取对应的内容,然后运行,内容如下:
解析响应数据
接下来我们使用BeautifulSoup来分析运行... 代码结果如图:
至此,小说完成。
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持脚本之家。