c爬虫抓取网页数据(网络爬虫最基本的思路和处理方法(一)——1.)
优采云 发布时间: 2022-02-05 09:12c爬虫抓取网页数据(网络爬虫最基本的思路和处理方法(一)——1.)
1. 科普
一般搜索引擎处理的对象是互联网的网页。目前,网页数量已达数亿。因此,搜索引擎面临的第一个问题就是如何设计一个高效的下载系统。互联网页面的镜像。网络爬虫负责这个任务。
爬取网页的过程其实和读者平时使用IE浏览器浏览网页的方式是一样的。假设您在浏览器的地址栏中输入此地址。打开网页的过程其实就是浏览器作为浏览的“客户端”,向服务器端发出请求,将服务器端的文件“抓取”到本地,然后解释并显示出来。浏览器的作用是解析得到的HTML代码,然后将原来的网页转换成我们看到的网站页面。
网络爬虫最基本的思想是:从一个页面开始,分析其中的url,提取出来,然后通过这些链接寻找下一页。如此来回。
2. 通用爬虫框架
@7))。@9) 和 . 重复刚才的故事。
3. 网址
爬虫处理的主要对象是URL。简单地说,url就是输入的URL(例如:)。在了解 URL 之前先了解 URI。
Web 上可用的每个资源,例如 HTML 文档、图像、视频剪辑、程序等,都由通用资源标识符 (URI) 定位。
一个URI通常由三部分组成:
访问资源的命名机制 存储资源的资源的主机名 资源本身的名称,由路径表示
比如URI:
我们可以这样解释:
URL 是 URI 的子集。它是Uniform Resource Locator的缩写,翻译为“统一资源定位器”。
通俗的讲,URL是描述Internet上信息资源的字符串,主要用于各种WWW客户端程序和服务器程序中。
使用 URL 可以使用统一的格式来描述各种信息资源,包括文件、服务器地址和目录。
URL的格式由三部分组成:
第一部分是协议(或服务模式) 第二部分是存储资源的主机的IP地址(有时还包括端口号) 第三部分是主机资源的具体地址,如目录和文件名等
第一部分和第二部分用“://”符号分隔
第二部分和第三部分用“/”符号隔开
第 1 部分和第 2 部分缺一不可,第 3 部分有时可以省略