php 抓取网页源码(爬虫_get_contents()*502.根据规则进行循环爬取内容3. )

优采云发布时间: 2021-09-12 14:12

　　php 抓取网页源码(爬虫_get_contents()*502.根据规则进行循环爬取内容3.

)

　　爬虫是按照一定的规则自动抓取万维网上信息的程序或脚本。

　　我们通常使用搜索引擎浏览网页，有很多与预期信息不匹配的结果；并且信息量巨大，得到结果后需要花费大量的精力来过滤信息。爬虫诞生了，我们可以写一个脚本或者程序，让他按照我们的需要按照设定的规则抓取网页信息，过滤出我们需要的结果。

　　首先，PHP中可以获取网页的函数有很多，比如：file_get_contents()或者curl扩展，或者ob_get_contents()获取缓冲区等等，最实用最常用的就是file_get_contents( ）。示例：

　　目标页面

　　代码和效果

　　打开文件后对比

　　所以，我们可以使用 file_get_contents() 来开发爬虫。

　　步骤：

　　1.解析url规则

　　首页：/f?ie=utf-8&kw=php

　　第二页：/f?kw=php&ie=utf-8&pn=50

　　第三页：/f?kw=php&ie=utf-8&pn=100

　　第一页后加&pn=0与第一页内容一样，所以每页pn参数会增加50

　　可以概括为：&pn=(当前页码-1)*50

　　2.按规则循环抓取内容

　　3. 根据需求定期匹配需要的内容（可根据实际需求做）

　　4. 积分结果（写入文件）

<p>//爬取前3页

for($i=1;$i

0

2021-09-12

php 抓取网页源码

0 个评论

要回复文章请先登录或注册