php 抓取网页 源码(爬虫_get_contents()*502.根据规则进行循环爬取内容3. )

优采云 发布时间: 2021-09-12 14:12

  php 抓取网页 源码(爬虫_get_contents()*502.根据规则进行循环爬取内容3.

)

  爬虫是按照一定的规则自动抓取万维网上信息的程序或脚本。

  我们通常使用搜索引擎浏览网页,有很多与预期信息不匹配的结果;并且信息量巨大,得到结果后需要花费大量的精力来过滤信息。爬虫诞生了,我们可以写一个脚本或者程序,让他按照我们的需要按照设定的规则抓取网页信息,过滤出我们需要的结果。

  首先,PHP中可以获取网页的函数有很多,比如:file_get_contents()或者curl扩展,或者ob_get_contents()获取缓冲区等等,最实用最常用的就是file_get_contents( )。示例:

  目标页面

  

  代码和效果

  

  打开文件后对比

  

  所以,我们可以使用 file_get_contents() 来开发爬虫。

  步骤:

  1.解析url规则

  首页:/f?ie=utf-8&kw=php

  第二页:/f?kw=php&ie=utf-8&pn=50

  第三页:/f?kw=php&ie=utf-8&pn=100

  第一页后加&pn=0与第一页内容一样,所以每页pn参数会增加50

  可以概括为:&pn=(当前页码-1)*50

  2.按规则循环抓取内容

  3. 根据需求定期匹配需要的内容(可根据实际需求做)

  4. 积分结果(写入文件)

<p>//爬取前3页

for($i=1;$i

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线