抓取网页视频(爬虫优雅精美的数据全过程第1章课程介绍(组图))
优采云 发布时间: 2021-10-29 09:05抓取网页视频(爬虫优雅精美的数据全过程第1章课程介绍(组图))
简介: 爬虫技术用于自动从互联网上获取所需数据。课程从爬虫的介绍开始,介绍一个简单的爬虫技术架构,然后通过什么、怎么做、现场演示三个步骤来讲解爬虫技术架构中的三个模块。最后在实战中编写了一套优雅精致的爬虫代码,展示了在实战中抓取百度百科1000页数据的全过程。
第一章课程介绍
本章对课程要学习的内容进行了概述,并明确告诉大家将从课程中学习到开发爬虫所需的相关技术。
第二章爬虫简介及爬虫技术价值
本章介绍了爬虫技术的含义,以及爬虫技术存在的价值和意义
第 3 章 简单的爬虫架构
本章介绍了一个精炼简洁的爬虫技术架构,通过技术架构的动态图介绍了爬虫任务的实现过程,让大家对爬虫的整体构成和运行过程有一个整体的把握。
第 4 章 URL 管理器和实现方法
本章介绍简单爬虫架构的URL管理模块,用于管理待爬取的URL集合和已爬取的URL集合。它还介绍了几种实现 URL 管理器的方法。
第 5 章 Web 下载器和 urllib2 模块
本章介绍简单爬虫架构的网页下载模块。下载网页后,就可以进行后续的数据提取了。本章接着介绍Python自带的用于下载网页的urllib2模块的各种使用语法。
第6章网页解析器和BeautifulSoup第三方模块
本章介绍一个具有简单爬虫架构的网页解析器模块。解析器用于从要抓取的网页和新 URL 中提取有价值的数据。本章接着介绍 BeautifulSoup,一个强大的第三方数据分析和提取模块。
第七章实战练习:百度百科1000页数据爬取
本章是本课程的核心部分。通过一组精心设计和编写的爬虫代码,实现了上一课中描述的简单爬虫架构的各个组件。爬虫代码最终完成百度百科1000页的数据爬取并进行数据抓取。说明修改配置后,该代码可用于抓取任何网站数据。
第八章课程总结
本章回顾了课程中所讲授的知识,对爬虫技术架构有一个整体的回顾和掌握,同时也对爬虫技术在深入发展中遇到的困难进行了简要的展望。
课程笔记
本课程是Python语言开发1、Python编程语法的高级课程;2、HTML语言基础知识;3、正则表达式基础知识;
老师能告诉你要学什么?
1、爬虫技术的意义和存在价值2、爬虫技术架构3、构成爬虫的关键模块:URL管理器、HTML下载器和HTML解析器4、实用爬取百度百科千条页面数据爬取策略设置,实际代码编写,爬虫实例运行5、 一套极其简单且可扩展的爬虫代码,修改此代码,即可爬取任何互联网网页!
扫描微信二维码参加3人团战