php抓取网页匹配url(最佳答案，正则匹配部分新闻内容存入数组，该怎么做呢？)

优采云发布时间: 2021-11-24 13:10

　　最佳答案

　　我是php新手，现在想用c***l抓取学校网页，把新闻内容的正则匹配部分存放在数组中。我该怎么办？以下为官网部分主要代码。我想在开始时抓取内容。可以通过常规匹配来实现吗？再问一下，PHP的正则匹配是用PCRE实现的还是什么的？网上这部分的知识好乱，求大神

　　首先c***l不是这样使用的，需要先初始化c***l_init，然后需要使用c***l_setopt来设置你请求的参数和设置。最后通过c***l_exec执行请求。

　　返回的结果必须是网页的完整源代码。如果要从中提取信息，就得看好目标位置是否有唯一标识，也就是能否准确定位到自己需要的位置。然后使用正则匹配。你上面只给了一个td。如果确实可以保证这个 td（加上它的属性）是你想要的数据，那么它可以是正则的。

　　这很简单

　　/

　　]+>(.*)/

　　跟进：

　　非常满意。你能解释一下这个符号的含义吗？另外，我看到已经匹配并存储了一个数组，但我看不到它。请问如何再次输出。

　　回复：

　　/ 的左右两边是分隔的，不需要解释。[^>] 是匹配除 > 之外的任何字符。+ 是匹配前面括号的内容一次或多次。(.*) 匹配任意数量的字符。当然，你可能需要改成(.*?)来实现非贪婪匹配，即匹配到最近的时

　　在时间停止当前匹配以继续下一轮匹配（因为您正在使用 match_all 函数）。括号表示分组，所以这个分组会记录在列表结果中，$list[1]就是这个分组的数据。

0

2021-11-24

php抓取网页匹配url

0 个评论

要回复文章请先登录或注册