php抓取网页匹配url(最佳答案,正则匹配部分新闻内容存入数组,该怎么做呢?)
优采云 发布时间: 2021-11-24 13:10php抓取网页匹配url(最佳答案,正则匹配部分新闻内容存入数组,该怎么做呢?)
最佳答案
我是php新手,现在想用c***l抓取学校网页,把新闻内容的正则匹配部分存放在数组中。我该怎么办?以下为官网部分主要代码。我想在开始时抓取内容。可以通过常规匹配来实现吗?再问一下,PHP的正则匹配是用PCRE实现的还是什么的?网上这部分的知识好乱,求大神
首先c***l不是这样使用的,需要先初始化c***l_init,然后需要使用c***l_setopt来设置你请求的参数和设置。最后通过c***l_exec执行请求。
返回的结果必须是网页的完整源代码。如果要从中提取信息,就得看好目标位置是否有唯一标识,也就是能否准确定位到自己需要的位置。然后使用正则匹配。你上面只给了一个td。如果确实可以保证这个 td(加上它的属性)是你想要的数据,那么它可以是正则的。
这很简单
/
]+>(.*)/
跟进:
非常满意。你能解释一下这个符号的含义吗?另外,我看到已经匹配并存储了一个数组,但我看不到它。请问如何再次输出。
回复:
/ 的左右两边是分隔的,不需要解释。[^>] 是匹配除 > 之外的任何字符。+ 是匹配前面括号的内容一次或多次。(.*) 匹配任意数量的字符。当然,你可能需要改成(.*?)来实现非贪婪匹配,即匹配到最近的时
在时间停止当前匹配以继续下一轮匹配(因为您正在使用 match_all 函数)。括号表示分组,所以这个分组会记录在列表结果中,$list[1]就是这个分组的数据。