php 抓取网页内容(PHP正则表达式表达式的形式及形式教程)

优采云 发布时间: 2021-09-21 06:15

  php 抓取网页内容(PHP正则表达式表达式的形式及形式教程)

  从页面,页面中的所有链接当然,使用PHP正则表达式是最方便的方式。要编写正则表达式,必须总结该模式,然后在页面中有多种形式的链接?让我们看看。

  前言

  链接是超链接,它与另一个元素(文本,图片,视频等)链接到另一个元素(文本,图片,视频等)。网页中有三个链接。一个是一个绝对的URL超链接,这是页面的完整路径;另一个是一个相对URL超链接,通常与相同网站的其他页面链接;有一个页面内部超链接,这个常规链接到同一页面中的其他位置。

  我弄清楚链接的类型,知道你想抓住链接,主要是绝对的URL超链接和相对URL超链接。要编写正确的正则表达式,您必须了解我们查找的对象的模式。

  告诉绝对链接,也称为URL(统一资源定位器),识别Internet上的唯一资源。 URL的结构包括三个部分:协议,服务器名称,路径和文件名。

  协议是告诉浏览器如何处理文件的身份打开,最常见的是HTTP协议。本文还考虑了HTTP协议,如其他HTTP,FTP,Mailto,Telnet协议等,可以根据需要添加。

  服务器名称是如何告诉浏览器如何到达此服务器,通常是域名或IP地址,有时端口号(默认为8 0) .ftp协议,您还可以收录用户名和密码,本文未考虑。

  路径和文件名,通常在/段中,指向此文件的路径的名称和文件本身。如果没有特定的文件名,则访问此文件夹下的默认文件(可以在服务器端设置)。

  如此清楚,可以汇总抓住绝对链路的典型形式,可以概括为

  可以在每个部分中使用的字符范围具有明确的规格,并且可以称为RFC1738。所以可以写出正则表达式。

  /(http|https):\/\/([\w\d\-_]+[\.\w\d\-_]+)[:\d+]?([\/]?[\w\/\.]+)/i

  如下所述:

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线