python网页数据抓取(爬虫的概念1.什么是互联网爬虫?爬虫分类? )

优采云 发布时间: 2022-04-14 03:15

  python网页数据抓取(爬虫的概念1.什么是互联网爬虫?爬虫分类?

)

  爬行动物的概念

  1.什么是网络爬虫?

  

  如果我们把互联网比作一个大蜘蛛网,电脑上的数据就是蜘蛛网上的猎物,而爬虫是沿着蜘蛛网抓取它想要的数据的小蜘蛛

  解释1:通过一个程序,根据Url(http://www.baidu.com)

进行爬取网页,获取有用信息

解释2:使用程序模拟浏览器,去向服务器发送请求,获取响应信息

  2.爬虫核心?

  1.爬取网页:爬取整个网页 包含了网页中所有得内容

2.解析数据:将网页中你得到的数据 进行解析

3.难点:爬虫和反爬虫之间的博弈

  3.爬虫的目的是什么?

  

  4.爬虫分类?

  通用爬虫:

实例

百度、360、google、sougou等搜索引擎

功能

访问网页‐>抓取数据‐>数据存储‐>数据处理‐>提供检索服务 robots协议

一个约定俗成的协议,添加robots.txt文件,来说明本网站哪些内容不可以被抓取,起不到限制作用 自己写的爬虫无需遵守

网站排名(SEO)

1. 根据pagerank算法值进行排名(参考个网站流量、点击率等指标)

2. 百度竞价排名

缺点

1. 抓取的数据大多是无用的

2.不能根据用户的需求来精准获取数据

  因为通用爬虫抓取到的数据大部分是无用的,对于具体的网站爬虫来说,我们现在学习的网络爬虫都是专注爬虫

  聚焦爬虫

功能

根据需求,实现爬虫程序,抓取需要的数据

设计思路

1.确定要爬取的url 如何获取Url

2.模拟浏览器通过http协议访问url,获取服务器返回的html代码

如何访问

3.解析html字符串(根据一定规则提取需要的数据) 如何解析

  5.反爬是什么意思?

  用户代理:

  User Agent中文称为User Agent,简称UA。它是一个特殊的字符串头,使服务器能够识别操作系统和版本、CPU 类型、浏览器和版本、浏览器渲染引擎、浏览器语言和客户端使用的浏览器。插件等代理IP验证码访问编码平台云编码平台动态加载网页网站返回的js数据不是网页的真实数据完成此文章,恭喜,你进了吃国餐的大门

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线