c爬虫抓取网页数据(网络爬虫最基本的思路和处理方法(一)——1.)

优采云 发布时间: 2022-02-05 09:12

  c爬虫抓取网页数据(网络爬虫最基本的思路和处理方法(一)——1.)

  1. 科普

  一般搜索引擎处理的对象是互联网的网页。目前,网页数量已达数亿。因此,搜索引擎面临的第一个问题就是如何设计一个高效的下载系统。互联网页面的镜像。网络爬虫负责这个任务。

  爬取网页的过程其实和读者平时使用IE浏览器浏览网页的方式是一样的。假设您在浏览器的地址栏中输入此地址。打开网页的过程其实就是浏览器作为浏览的“客户端”,向服务器端发出请求,将服务器端的文件“抓取”到本地,然后解释并显示出来。浏览器的作用是解析得到的HTML代码,然后将原来的网页转换成我们看到的网站页面。

  网络爬虫最基本的思想是:从一个页面开始,分析其中的url,提取出来,然后通过这些链接寻找下一页。如此来回。

  2. 通用爬虫框架

  

  @7))。@9) 和 . 重复刚才的故事。

  3. 网址

  爬虫处理的主要对象是URL。简单地说,url就是输入的URL(例如:)。在了解 URL 之前先了解 URI。

  Web 上可用的每个资源,例如 HTML 文档、图像、视频剪辑、程序等,都由通用资源标识符 (URI) 定位。

  一个URI通常由三部分组成:

  访问资源的命名机制 存储资源的资源的主机名 资源本身的名称,由路径表示

  比如URI:

  我们可以这样解释:

  URL 是 URI 的子集。它是Uniform Resource Locator的缩写,翻译为“统一资源定位器”。

  通俗的讲,URL是描述Internet上信息资源的字符串,主要用于各种WWW客户端程序和服务器程序中。

  使用 URL 可以使用统一的格式来描述各种信息资源,包括文件、服务器地址和目录。

  URL的格式由三部分组成:

  第一部分是协议(或服务模式) 第二部分是存储资源的主机的IP地址(有时还包括端口号) 第三部分是主机资源的具体地址,如目录和文件名等

  第一部分和第二部分用“://”符号分隔

  第二部分和第三部分用“/”符号隔开

  第 1 部分和第 2 部分缺一不可,第 3 部分有时可以省略

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线