python网页数据抓取(爬虫的概念1.什么是互联网爬虫？爬虫分类？ )

优采云发布时间: 2022-04-14 03:15

　　python网页数据抓取(爬虫的概念1.什么是互联网爬虫？爬虫分类？

)

　　爬行动物的概念

　　1.什么是网络爬虫？

　　如果我们把互联网比作一个大蜘蛛网，电脑上的数据就是蜘蛛网上的猎物，而爬虫是沿着蜘蛛网抓取它想要的数据的小蜘蛛

　　解释1：通过一个程序，根据Url(http://www.baidu.com)

进行爬取网页，获取有用信息

解释2：使用程序模拟浏览器，去向服务器发送请求，获取响应信息

　　2.爬虫核心？

　　1.爬取网页：爬取整个网页包含了网页中所有得内容

2.解析数据：将网页中你得到的数据进行解析

3.难点：爬虫和反爬虫之间的博弈

　　3.爬虫的目的是什么？

　　4.爬虫分类？

　　通用爬虫：

实例

百度、360、google、sougou等搜索引擎

功能

访问网页‐>抓取数据‐>数据存储‐>数据处理‐>提供检索服务 robots协议

一个约定俗成的协议，添加robots.txt文件，来说明本网站哪些内容不可以被抓取，起不到限制作用自己写的爬虫无需遵守

网站排名(SEO)

1. 根据pagerank算法值进行排名（参考个网站流量、点击率等指标）

2. 百度竞价排名

缺点

1. 抓取的数据大多是无用的

2.不能根据用户的需求来精准获取数据

　　因为通用爬虫抓取到的数据大部分是无用的，对于具体的网站爬虫来说，我们现在学习的网络爬虫都是专注爬虫

　　聚焦爬虫

功能

根据需求，实现爬虫程序，抓取需要的数据

设计思路

1.确定要爬取的url 如何获取Url

2.模拟浏览器通过http协议访问url，获取服务器返回的html代码

如何访问

3.解析html字符串（根据一定规则提取需要的数据）如何解析

　　5.反爬是什么意思？

　　用户代理：

　　User Agent中文称为User Agent，简称UA。它是一个特殊的字符串头，使服务器能够识别操作系统和版本、CPU 类型、浏览器和版本、浏览器渲染引擎、浏览器语言和客户端使用的浏览器。插件等代理IP验证码访问编码平台云编码平台动态加载网页网站返回的js数据不是网页的真实数据完成此文章，恭喜，你进了吃国餐的大门

0

2022-04-14

python网页数据抓取

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

python网页数据抓取(爬虫的概念1.什么是互联网爬虫？爬虫分类？ )

0 个评论

发起人