php正则函数抓取网页连接(php中在函数preg__()如何使用正则表达式匹配多重的html结构?)

优采云 发布时间: 2021-09-19 07:05

  php正则函数抓取网页连接(php中在函数preg__()如何使用正则表达式匹配多重的html结构?)

  问题:

  示例:

  ...

我是标题

<p>这是一行文字

这是一个div

  这是嵌套的一行文字

...</p>

  如上所示,服务器返回一个长DOM结构。需求是获取标记下最大的div,然后解析P标记中的数据,并使用preg_uu-match_uu-All()或preg_u-match(),正则表达式如何匹配最外层的div

  PS:因为页面结构太复杂,我想先匹配H1下的div,然后再匹配div中的p

  附言:再简洁一点。如果div的类是特定的,那么在整个DOM结构中只有一个MyClass。如果与该类匹配的div

  解决方案

  如果您不太关心性能,可以像JS/jQuery的语法一样获取DOM内容,例如:

  $crawler = new Crawler('');

$crawler->filter('body > p')->eq(0);

  当您提到多重嵌套时,您必须:

  (*)

  这通常是困难问题的情况

  先找到这个

  此功能可根据类别或某些属性进行匹配,例如:

  ]*class=“xxx”&gt

  再找到这个

  末端特征,光

  这肯定是不够的。我们必须向下看,比如找到下一个

  特征

  如果特性明显:开始特性(.*)和结束特性可以捕获中间内容

  本文地址:it house»webcrawler-PHP函数preg_uu匹配uu中的all()如何使用正则表达式匹配多个嵌套的HTML结构

  

  打扫房子,注意它

  微信公众号搜索“IT之家”,选择关注

  有数百万的开发者

  Php网络爬虫

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线