抓取网页数据php(互联网上的每一个网页都有自己唯一的统一资源定位器)

优采云发布时间: 2022-04-09 16:32

　　Info采集网页抓取教程。

　　Internet 上的每个网页都有自己唯一的统一资源定位器或 URL。用于描述网页的 URL 由三部分组成：协议方案、主机名和资源名（如图 3-1 所示）。网页存储在 Web 服务器上，并使用超文本传输协议 (HTTP) 与客户端软件交换信息。因此，互联网上使用的绝大多数 URL 都是以 http 开头的，说明该 URL 所代表的资源可以使用 HTTP 协议进行爬取。下一个主机名（主机名）是存储网页的 Web 服务器的计算机名称。图中，计算机的名称是，它是马萨诸塞大学计算机科学系的一台计算机。该 URL 指向此计算机上的页面 /csinfo/people.html。

　　Web 浏览器和 Web 爬虫是两个不同的 Web 客户端，但都以相同的方式获取网页。首先，客户端程序连接到域名系统 (DNS) 服务器。DNS 服务器将主机名转换为 IP（互联网协议）地址。典型的 IP 地址是 32 位二进制数，但现在某些网络使用 128 位 IP 地址。接下来，客户端程序尝试使用该 IP 地址连接到服务器。服务器上可能运行着几个不同的程序，每个程序都在网络上侦听新连接，并且每个程序都侦听不同的端口。端口是一个 16 位数字，用于标识不同的服务。除非在 URL 中指定了另一个端口，否则对网页的请求通常会发送到端口 80。

　　建立连接后，客户端程序向 Web 服务器发送 HTTP 请求以请求页面。最常见的 HTTP 请求是 GET 请求，例如：

　　该命令请求服务器使用 1.0 版本的 HTTP 协议规范将页面 /csinfo/people.html 返回给客户端。服务器在发送一个短头后将文件的内容返回给客户端。如果客户端需要更多的页面，它可以发送额外的请求；否则，客户端关闭连接。

　　客户端程序也可以使用 POST 请求来获取网页。POST 请求类似于 GET 请求，不同之处在于它可以向服务器发送额外的请求信息。传统上，GET 请求用于抓取服务器上已经存在的数据，而 POST 请求用于告诉服务器一些事情。当您单击按钮购买商品或编辑网页时，会使用 POST 请求。如果运行网络爬虫，此约定很有用。由于只发送 GET 请求，因此有助于确保网络爬虫不会无意中购买商品。

　　随机文章小课堂：【成都seo】SEM竞价、SEO优化与社交媒体的关系

　　小课堂：SEO核心技术培训课程

　　小班：熊掌号原创保护范围划定！小心被惩罚~

　　一、搜索引擎和信息检索

　　068 隐形人-延川恶魔游戏

　　第378章挑战二王——延川恶魔游戏

　　DNF优采云成功放大十七圣光之戟，十五天立刻变成弟弟？伤害差4亿

　　大华大话西游2网吧开号跑5环-小学生问这是什么游戏

　　错误教程（）侧重于在线推送培训、SEO培训、抖音培训和网赚培训，微信/电话：

0

2022-04-09

抓取网页数据php

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

抓取网页数据php(互联网上的每一个网页都有自己唯一的统一资源定位器)

0 个评论

发起人