抓取网页数据php(互联网上的每一个网页都有自己唯一的统一资源定位器)
优采云 发布时间: 2022-04-09 16:32抓取网页数据php(互联网上的每一个网页都有自己唯一的统一资源定位器)
Info采集网页抓取教程。
Internet 上的每个网页都有自己唯一的统一资源定位器或 URL。用于描述网页的 URL 由三部分组成:协议方案、主机名和资源名(如图 3-1 所示)。网页存储在 Web 服务器上,并使用超文本传输协议 (HTTP) 与客户端软件交换信息。因此,互联网上使用的绝大多数 URL 都是以 http 开头的,说明该 URL 所代表的资源可以使用 HTTP 协议进行爬取。下一个主机名(主机名)是存储网页的 Web 服务器的计算机名称。图中,计算机的名称是,它是马萨诸塞大学计算机科学系的一台计算机。该 URL 指向此计算机上的页面 /csinfo/people.html。
Web 浏览器和 Web 爬虫是两个不同的 Web 客户端,但都以相同的方式获取网页。首先,客户端程序连接到域名系统 (DNS) 服务器。DNS 服务器将主机名转换为 IP(互联网协议)地址。典型的 IP 地址是 32 位二进制数,但现在某些网络使用 128 位 IP 地址。接下来,客户端程序尝试使用该 IP 地址连接到服务器。服务器上可能运行着几个不同的程序,每个程序都在网络上侦听新连接,并且每个程序都侦听不同的端口。端口是一个 16 位数字,用于标识不同的服务。除非在 URL 中指定了另一个端口,否则对网页的请求通常会发送到端口 80。
建立连接后,客户端程序向 Web 服务器发送 HTTP 请求以请求页面。最常见的 HTTP 请求是 GET 请求,例如:
该命令请求服务器使用 1.0 版本的 HTTP 协议规范将页面 /csinfo/people.html 返回给客户端。服务器在发送一个短头后将文件的内容返回给客户端。如果客户端需要更多的页面,它可以发送额外的请求;否则,客户端关闭连接。
客户端程序也可以使用 POST 请求来获取网页。POST 请求类似于 GET 请求,不同之处在于它可以向服务器发送额外的请求信息。传统上,GET 请求用于抓取服务器上已经存在的数据,而 POST 请求用于告诉服务器一些事情。当您单击按钮购买商品或编辑网页时,会使用 POST 请求。如果运行网络爬虫,此约定很有用。由于只发送 GET 请求,因此有助于确保网络爬虫不会无意中购买商品。
随机文章小课堂:【成都seo】SEM竞价、SEO优化与社交媒体的关系
小课堂:SEO核心技术培训课程
小班:熊掌号原创保护范围划定!小心被惩罚~
一、搜索引擎和信息检索
068 隐形人-延川恶魔游戏
第378章 挑战二王——延川恶魔游戏
DNF优采云成功放大十七圣光之戟,十五天立刻变成弟弟?伤害差4亿
大华大话西游2网吧开号跑5环-小学生问这是什么游戏
错误教程( )侧重于在线推送培训、SEO培训、抖音培训和网赚培训,微信/电话: