python网页数据抓取(爬虫的概念1.什么是互联网爬虫?爬虫分类? )
优采云 发布时间: 2022-04-14 03:15python网页数据抓取(爬虫的概念1.什么是互联网爬虫?爬虫分类?
)
爬行动物的概念
1.什么是网络爬虫?
如果我们把互联网比作一个大蜘蛛网,电脑上的数据就是蜘蛛网上的猎物,而爬虫是沿着蜘蛛网抓取它想要的数据的小蜘蛛
解释1:通过一个程序,根据Url(http://www.baidu.com)
进行爬取网页,获取有用信息
解释2:使用程序模拟浏览器,去向服务器发送请求,获取响应信息
2.爬虫核心?
1.爬取网页:爬取整个网页 包含了网页中所有得内容
2.解析数据:将网页中你得到的数据 进行解析
3.难点:爬虫和反爬虫之间的博弈
3.爬虫的目的是什么?
4.爬虫分类?
通用爬虫:
实例
百度、360、google、sougou等搜索引擎
功能
访问网页‐>抓取数据‐>数据存储‐>数据处理‐>提供检索服务 robots协议
一个约定俗成的协议,添加robots.txt文件,来说明本网站哪些内容不可以被抓取,起不到限制作用 自己写的爬虫无需遵守
网站排名(SEO)
1. 根据pagerank算法值进行排名(参考个网站流量、点击率等指标)
2. 百度竞价排名
缺点
1. 抓取的数据大多是无用的
2.不能根据用户的需求来精准获取数据
因为通用爬虫抓取到的数据大部分是无用的,对于具体的网站爬虫来说,我们现在学习的网络爬虫都是专注爬虫
聚焦爬虫
功能
根据需求,实现爬虫程序,抓取需要的数据
设计思路
1.确定要爬取的url 如何获取Url
2.模拟浏览器通过http协议访问url,获取服务器返回的html代码
如何访问
3.解析html字符串(根据一定规则提取需要的数据) 如何解析
5.反爬是什么意思?
用户代理:
User Agent中文称为User Agent,简称UA。它是一个特殊的字符串头,使服务器能够识别操作系统和版本、CPU 类型、浏览器和版本、浏览器渲染引擎、浏览器语言和客户端使用的浏览器。插件等代理IP验证码访问编码平台云编码平台动态加载网页网站返回的js数据不是网页的真实数据完成此文章,恭喜,你进了吃国餐的大门