网页视频抓取工具知乎(Python爬虫快速获取数据最重要的方式，相比其它语言，更简单、高效)

优采云发布时间: 2022-03-17 12:17

　　越来越多的工作会基于数据来完成，爬虫是快速获取数据的最重要方式。与其他语言相比，Python爬虫更简单、更高效。

　　第 1 章课程介绍尝试 1 节 | 8 分钟

　　介绍课程目标，通过课程可以学到的内容，系统开发前需要掌握的知识

　　视频：

　　1-1 python分布式爬虫创建搜索引擎介绍(07:23)

　　尝试

　　第2章在Windows下搭建开发环境4小节| 64 分钟

　　介绍项目开发需要安装的开发软件，python virtual virtualenv和virtualenvwrapper的安装和使用，最后介绍pycharm和navicat的简单使用

　　视频：

　　2-1 pycharm的安装及简单使用(09:07)

　　视频：

　　2-2 mysql和navicat的安装和使用(16:20)

　　视频：

　　2-3 windows和linux下安装python2和python3(06:49)

　　视频：

　　2-4 虚拟环境的安装与配置(30:53)

　　第 3 章爬虫基础复习 7 节 | 120 分钟

　　介绍爬虫开发需要的基础知识，包括爬虫能做什么、正则表达式、深度优先和广度优先算法及实现、爬虫URL去重策略，透彻理解unicode和utf8编码的区别和应用。

　　视频：

　　3-1 技术选型爬虫能做什么（09:50)

　　视频：

　　3-2 正则表达式-1 (18:31)

　　视频：

　　3-3 正则表达式-2 (19:04)

　　视频：

　　3-4 正则表达式-3 (20:16)

　　视频：

　　3-5 深度优先和广度优先原则 (25:15)

　　视频：

　　3-6 URL去重方法(07:44)

　　视频：

　　3-7 彻底理解unicode和utf8编码（18:31)

　　第4章新增：scrapy爬取知名技术文章网站25节 | 402 分钟

　　搭建scrapy的开发环境。本章介绍scrapy常用命令及项目目录结构分析。本章还将详细解释 xpath 和 css 选择器的使用。然后通过scrapy提供的spider完成所有文章的爬取。然后详细讲解item和item loader方法，完成具体字段的提取，使用scrapy提供的pipeline将数据分别保存到json文件和mysql数据库中。...

　　视频：

　　4-1 重新录制说明（重要！！！）（04:47)

　　视频：

　　4-2 scrapy安装配置(30:30)

　　视频：

　　4-3 需求分析（13:53)

　　视频：

　　4-4 在pycharm中调试scrapy源码(10:13)

　　视频：

　　4-5 xpath 基本语法（19:02)

　　视频：

　　4-6 xpath 提取元素 (28:48)

　　视频：

　　4-7 个 CSS 选择器 (17:54)

　　视频：

　　4-8。cnblogs模拟登录（新内容）(22:23)

　　视频：

　　4-9 编写蜘蛛完成抓取过程 - 1 (19:38)

　　视频：

　　4-10 编写spider完成抓取过程 - 2(20:47)

　　视频：

　　4-11 为什么在scrapy中使用yield(09:49)

　　视频：

　　4-12 提取详情页信息(23:16)

　　视频：

　　4-13 提取详情页信息(18:13)

　　视频：

　　4-14 项目的定义和使用 - 1 (16:21)

　　视频：

　　4-15 项目的定义和使用 - 2 (13:30)

　　视频：

　　4-16scrapy配置图片下载(18:20)

　　视频：

　　4-17 it*敏*感*词*写入json文件(09:27)

　　视频：

　　4-18 MySQL表结构设计（13:21)

　　视频：

　　4-19 管道数据库保存（20:16)

　　视频：

　　4-20 mysql的异步存储(12:37)

　　视频：

　　4-21 数据插入主键冲突解决办法（04:40)

　　视频：

　　4-22 itemloader提取信息(21:41)

　　视频：

　　4-23 itemloader提取信息(19:06)

　　视频：

　　4-24 大图抓拍下载错误的问题(12:45)

　　*敏*感*词*：

　　4-25 有没有办法准确解析标题和正文内容？

　　第五章网站模拟登录和滑动验证码识别（202年6月更新1.）7小节 | 123 分钟

　　本章我们将解决两个问题：1.防止selenium被网站2.滑动验证码识别，我们将使用opencv识别和机器学习平台识别进行滑动验证码认出。滑动验证码是目前最流行的验证码。识别滑动验证码可以让我们解决大部分网站的模拟登录...

　　视频：

　　5-1 Session和cookie自动登录机制（20:10)

　　视频：

　　5-2 课程如何处理网站反爬变化？(08:03)

　　视频：

　　5-3 使用opencv识别滑动验证码的环境准备(15:59)

　　视频：

　　5-4 Opencv滑动验证码识别原理（26:19)

　　视频：

　　5-5 滑动验证码识别集成到scrapy(10:02)

　　视频：

　　5-6 通过机器学习平台训练滑动验证码模型（15:23)

　　视频：

　　5-7 发布训练模型，远程调用识别（26:53)

　　Chapter 6 Scrapy Crawling 知名问答网站第11 节 | 150 分钟

　　通过上一章的学习，本章我们将针对具体的网站进行需求分析、表结构设计等。本章详细分析网站的网络请求，分析网站的结果@>答题提取数据并保存到mysql的API请求接口

　　视频：

　　6-1 知乎分析及数据表设计1（15:17)

　　视频：

　　6-2 知乎分析与数据表设计——2（13:35)

　　视频：

　　6-3 按项目 loder 提取问题 - 1 (14:57)

　　视频：

　　6-4 按项目 loder 提取问题 - 2 (15:20)

　　视频：

　　6-5 按项目 loder 提取问题 - 3 (06:45)

　　视频：

　　6-6 知乎蜘蛛逻辑和答案提取的实现- 1(15:54)

　　视频：

　　6-7 知乎蜘蛛逻辑和答案提取的实现- 2(17:04)

　　视频：

　　6-8 保存数据到mysql-1(17:27)

　　视频：

　　6-9 保存数据到mysql-2(17:22)

　　视频：

　　6-10 保存数据到mysql-3(16:09)

　　*敏*感*词*：

　　6-11 如何分离数据存储和采集？

　　第 7 章使用 CrawlSpider 进行招聘的全站爬网网站 9 部分 | 167 分钟

　　本章完成招聘网站职位的数据表结构设计，通过链接提取器和规则的形式完成招聘网站中所有职位的爬取并配置CrawlSpider。本章还将从源码的角度分析CrawlSpider。大家对CrawlSpider都有很深的了解。

　　视频：

　　7-1 数据表结构设计（15:33)

　　视频：

　　7-2 CrawlSpider源码解析-新CrawlSpider及设置配置(12:50)

　　视频：

　　7-3 CrawlSpider源码解析(25:29)

　　视频：

　　7-4 Rule 和 LinkExtractor 的使用 (14:28)

　　视频：

　　7-5 网页302后的模拟登录和cookie传递（网站需要登录时学习这个视频教程）（32:11)

　　视频：

　　7-6 项目加载器位置分析 (24:46)

　　视频：

　　7-7 位置数据存储-1 (19:01)

　　视频：

　　7-8 位置信息存储-2(11:19)

　　视频：

　　7-9 网站反爬突破（10:58)

　　第8章Scrapy突破反爬虫限制尝试10节 | 天天要闻 159 分钟

　　本章将从爬虫和反爬虫的斗争开始，然后解释scrapy的原理，然后通过随机切换user-agent和设置scrapy的ip代理来突破反爬虫的各种限制。本章还将详细介绍httpresponse和httprequest，详细分析scrapy的功能，最终通过云编码平台完成在线验证码识别并禁用cookies和访问频率，以减少爬虫被拦截的可能性。...

　　视频：

　　8-1 爬虫与反爬虫的对抗过程及策略（20:17)

　　尝试

　　视频：

　　8-2 Scrapy架构源码分析（10:45)

　　视频：

　　8-3 请求和响应介绍（10:18)

　　视频：

　　8-4 通过下载中间件随机替换user-agent-1(17:00)

　　视频：

　　8-5 通过下载中间件随机替换user-agent - 2 (17:13)

　　视频：

　　8-6 scrapy 实现 ip 代理池 - 1 (16:51)

　　视频：

　　8-7 scrapy 实现 ip 代理池 - 2 (17:39)

　　视频：

　　8-8 scrapy 实现 ip 代理池 - 3 (18:46)

　　视频：

　　8-9 云编码实现验证码识别（22:37)

　　视频：

　　8-10 cookie 禁用、自动限速、自定义蜘蛛设置 (07:22)

　　第9章Scrapy高级开发12小节| 152 分钟

　　本章将讲解scrapy更高级的特性，包括通过selenium和phantomjs爬取动态网站数据并将两者集成到scrapy、scrapy信号、自定义中间件、暂停和启动scrapy爬虫、scrapy的核心api、scrapy的telnet、scrapy的web服务和scrapy的日志配置和邮件发送等。这些特性让我们可以做的不仅仅是scrapy...

　　视频：

　　9-1 Selenium动态网页请求和模拟登录知乎(21:24)

　　视频：

　　9-2 Selenium模拟登录微博，模拟鼠标按下(11:06)

　　视频：

　　9-3 chromedriver不加载图片，phantomjs获取动态网页（09:59)

　　视频：

　　9-4 selenium 集成到scrapy(19:43)

　　视频：

　　9-5 其他动态网页获取技术介绍——chrome running without interface, scrapy-splash, selenium-grid, splinter (07:50)

　　视频：

　　9-6 scrapy的暂停和重启(12:58)

　　视频：

　　9-7 scrapy url去重原理(05:45)

　　视频：

　　9-8 scrapy telnet 服务(07:37)

　　视频：

　　9-9蜘蛛中间件详解(15:25)

　　视频：

　　9-10scrapy数据采集（13:44)

　　视频：

　　9-11scrapy信号详解(13:05)

　　视频：

　　9-12scrapy扩展开发（13:16)

　　第10章scrapy-redis分布式爬虫9节| 125 分钟

　　Scrapy-redis分布式爬虫的使用和scrapy-redis分布式爬虫的源码分析，让大家可以根据自己的需要修改源码，满足自己的需要。最后，我将解释如何将bloomfilter集成到scrapy-redis中。

　　视频：

　　10-1 分布式爬虫点（08:39)

　　视频：

　　10-2 Redis 基础 - 1 (20:31)

　　视频：

　　10-3 Redis 基础 - 2 (15:58)

　　视频：

　　10-4 scrapy-redis编写分布式爬虫代码(21:06)

　　视频：

　　10-5 scrapy源码解析-connection.py,defaults.py-(11:05)

　　视频：

　　10-6 scrapy-redis源码分析-dupefilter.py-(05:29)

　　视频：

　　10-7 scrapy-redis源码解析-pipelines.py,queue.py-(10:41)

　　视频：

　　10-8 scrapy-redis源码分析-scheduler.py,spider.py-(11:52)

　　视频：

　　10-9 将bloomfilter集成到scrapy-redis中（19:30)

　　第11章Cookie池系统设计与实现15小节| 175 分钟

　　为了防止爬取代码和解析代码受到模拟登录的影响，将模拟登录分离成一个独立的服务变得非常重要。cookie池就是为了解决这类问题而诞生的。多账号登录管理，如何让网站轻松访问将是cookie池需要解决的问题。本章重点介绍 cookie 池设计和开发的细节。...

　　视频：

　　11-1 什么是cookie池？(11:27)

　　视频：

　　11-2 Cookie池系统设计（09:23)

　　视频：

　　11-3 实施cookie pool-1 (10:12)

　　视频：

　　11-4 实施 cookie pool-2 (12:39)

　　视频：

　　11-5 修改登录方式 - 1 (09:58)

　　视频：

　　11-6 修改登录方式-2(09:36)

　　视频：

　　11-7 修改登录方式-3(08:43)

　　视频：

　　11-8 修改登录方式-4(10:37)

　　视频：

　　11-9 通过抽象基类实现网站轻松访问（15:00)

　　视频：

　　11-10 实现检测网站cookie是否有效（08:06)

　　视频：

　　11-11 如何选择redis的数据结构保存cookies(10:59)

　　视频：

　　11-12 cookie管理器的实现(22:10)

　　视频：

　　11-13 启动cookie池服务(12:35)

　　视频：

　　11-14 将cookies集成到爬虫项目中（15:34)

　　视频：

　　11-15 cookie架构设计改进建议(07:36)

　　第12章各种Captcha 5部分的识别| 77 分钟

　　滑动验证码越来越流行，如何解决滑动验证码成为模拟登录的重要环节。本章重点解决滑动验证码的各种细节问题。

　　视频：

　　12-1 滑动验证码识别思路(15:17)

　　视频：

　　12-2 验证码-1截图(11:42)

　　视频：

　　12-3 验证码2截图(14:03)

　　视频：

　　12-4 计算滑动距离(17:37)

　　视频：

　　12-5 计算滑动轨迹(18:00)

　　第13章增量爬取4段| 50 分钟

　　增量爬取和数据更新是爬虫运行中经常遇到的问题。比如当前爬虫在运行，但是如何及时发现新数据，如何先爬后面的url，如何发现新数据，都是实际开发。在本章中，我们经常通过修改scrapy-redis的源代码来解决原方式的问题，以最小的成本解决上诉问题。通过本章的学习，我们将更加了解如何控制爬虫的运行。...

　　视频：

　　13-1 增量爬虫要解决的问题(09:36)

　　视频：

　　13-2 修改scrapy-redis-1完成增量抓取(16:11)

　　视频：

　　13-3 通过修改scrapy-redis-2(14:13)完成增量抓取

　　视频：

　　13-4 爬虫数据更新（09:23)

　　第 14 章使用 elasticsearch 搜索引擎 13 小节 | 207 分钟

　　本章将讲解elasticsearch的安装和使用，elasticsearch基本概念的介绍和api的使用。本章还将讲解搜索引擎的原理和elasticsearch-dsl的使用，最后讲解如何通过scrapy的pipeline将数据保存到elasticsearch中。

　　视频：

　　14-1 elasticsearch简介(18:21)

　　视频：

　　14-2 elasticsearch安装(13:24)

　　视频：

　　14-3 Elasticsearch-head插件及kibana安装(24:09)

　　视频：

　　14-4 elasticsearch基本概念（12:15)

　　视频：

　　14-5 倒排索引 (11:24)

　　视频：

　　14-6 Elasticsearch基本索引和文档CRUD操作（18:44)

　　视频：

　　14-7 elasticsearch的mget和bulk操作(12:36)

　　视频：

　　14-8 elasticsearch的映射管理(21:03)

　　视频：

　　14-9 elasticsearch的简单查询 - 1 (14:56)

　　视频：

　　14-10 elasticsearch的简单查询 - 2 (11:12)

　　视频：

　　14-11 Elasticsearch的bool组合查询（22:58)

　　视频：

　　14-12 scrapy写数据到elasticsearch - 1 (14:16)

　　视频：

　　14-13 scrapy写数据到elasticsearch - 2 (11:15)

　　第15章Django建筑搜索网站9节| 131 分钟

　　本章讲解如何通过 django 快速构建搜索网站。本章还讲解了如何完成django和elasticsearch的搜索查询交互。

　　视频：

　　15-1 es 完整的搜索建议 - 搜索建议字段保存 - 1 (13:45)

　　视频：

　　15-2 es 完成搜索建议 - 搜索建议字段保存 - 2 (13:34)

　　视频：

　　15-3 django实现elasticsearch的搜索建议-1(19:57)

　　视频：

　　15-4 django实现elasticsearch的搜索建议-2(18:15)

　　视频：

　　15-5 django实现elasticsearch-1的搜索功能(14:06)

　　视频：

　　15-6 django实现elasticsearch-2的搜索功能(13:14)

　　视频：

　　15-7 Django实现搜索结果分页（09:12)

　　视频：

　　15-8 搜索记录和热门搜索功能的实现- 1 (14:34)

　　视频：

　　15-9 搜索记录和热门搜索功能的实现-2(14:04)

　　第16章用scrapyd部署scrapy爬虫1节| 25 分钟

　　本章主要通过scrapyd完成scrapy爬虫的在线部署。

　　视频：

　　16-1 scrapyd部署scrapy项目(24:39)

　　第 17 章课程总结 4 节 | 6 分钟

　　重新整理系统开发的全过程，让学生对系统和开发过程有更直观的认识

　　视频：

　　17-1 课程总结 (05:55)

　　*敏*感*词*：

　　17-2【讨论题】你觉得JS逆向工程是什么？

　　*敏*感*词*：

　　17-3 如何集成nodejs服务？

　　*敏*感*词*：

　　17-4【讨论题】字体防爬应该如何分析？

　　本课程结束

0

2022-03-17

网页视频抓取工具知乎

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网页视频抓取工具知乎(Python爬虫快速获取数据最重要的方式，相比其它语言，更简单、高效)

0 个评论

发起人

AI时代内容工厂

网页视频抓取工具 知乎(Python爬虫快速获取数据最重要的方式，相比其它语言，更简单、高效)

0 个评论

发起人

网页视频抓取工具知乎(Python爬虫快速获取数据最重要的方式，相比其它语言，更简单、高效)