php正则函数抓取网页连接(php中在函数preg__()如何使用正则表达式匹配多重的html结构?)
优采云 发布时间: 2021-09-19 07:05php正则函数抓取网页连接(php中在函数preg__()如何使用正则表达式匹配多重的html结构?)
问题:
示例:
...
我是标题
<p>这是一行文字
这是一个div
这是嵌套的一行文字
...</p>
如上所示,服务器返回一个长DOM结构。需求是获取标记下最大的div,然后解析P标记中的数据,并使用preg_uu-match_uu-All()或preg_u-match(),正则表达式如何匹配最外层的div
PS:因为页面结构太复杂,我想先匹配H1下的div,然后再匹配div中的p
附言:再简洁一点。如果div的类是特定的,那么在整个DOM结构中只有一个MyClass。如果与该类匹配的div
解决方案
如果您不太关心性能,可以像JS/jQuery的语法一样获取DOM内容,例如:
$crawler = new Crawler('');
$crawler->filter('body > p')->eq(0);
当您提到多重嵌套时,您必须:
(*)
这通常是困难问题的情况
先找到这个
此功能可根据类别或某些属性进行匹配,例如:
]*class=“xxx”>
再找到这个
末端特征,光
这肯定是不够的。我们必须向下看,比如找到下一个
特征
如果特性明显:开始特性(.*)和结束特性可以捕获中间内容
本文地址:it house»webcrawler-PHP函数preg_uu匹配uu中的all()如何使用正则表达式匹配多个嵌套的HTML结构
打扫房子,注意它
微信公众号搜索“IT之家”,选择关注
有数百万的开发者
Php网络爬虫