c爬虫抓取网页数据(网络爬虫最基本的思路和处理方法（一）——1.)

优采云发布时间: 2022-02-05 09:12

　　1. 科普

　　一般搜索引擎处理的对象是互联网的网页。目前，网页数量已达数亿。因此，搜索引擎面临的第一个问题就是如何设计一个高效的下载系统。互联网页面的镜像。网络爬虫负责这个任务。

　　爬取网页的过程其实和读者平时使用IE浏览器浏览网页的方式是一样的。假设您在浏览器的地址栏中输入此地址。打开网页的过程其实就是浏览器作为浏览的“客户端”，向服务器端发出请求，将服务器端的文件“抓取”到本地，然后解释并显示出来。浏览器的作用是解析得到的HTML代码，然后将原来的网页转换成我们看到的网站页面。

　　网络爬虫最基本的思想是：从一个页面开始，分析其中的url，提取出来，然后通过这些链接寻找下一页。如此来回。

　　2. 通用爬虫框架

　　@7）)。@9）和 . 重复刚才的故事。

　　3. 网址

　　爬虫处理的主要对象是URL。简单地说，url就是输入的URL（例如：）。在了解 URL 之前先了解 URI。

　　Web 上可用的每个资源，例如 HTML 文档、图像、视频剪辑、程序等，都由通用资源标识符 (URI) 定位。

　　一个URI通常由三部分组成：

　　访问资源的命名机制存储资源的资源的主机名资源本身的名称，由路径表示

　　比如URI：

　　我们可以这样解释：

　　URL 是 URI 的子集。它是Uniform Resource Locator的缩写，翻译为“统一资源定位器”。

　　通俗的讲，URL是描述Internet上信息资源的字符串，主要用于各种WWW客户端程序和服务器程序中。

　　使用 URL 可以使用统一的格式来描述各种信息资源，包括文件、服务器地址和目录。

　　URL的格式由三部分组成：

　　第一部分是协议（或服务模式）第二部分是存储资源的主机的IP地址（有时还包括端口号）第三部分是主机资源的具体地址，如目录和文件名等

　　第一部分和第二部分用“://”符号分隔

　　第二部分和第三部分用“/”符号隔开

　　第 1 部分和第 2 部分缺一不可，第 3 部分有时可以省略

0

2022-02-05

c爬虫抓取网页数据

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

c爬虫抓取网页数据(网络爬虫最基本的思路和处理方法（一）——1.)

0 个评论

发起人