用来做采集器主要用到两个PHP函数:file_get
优采云 发布时间: 2021-08-26 02:10用来做采集器主要用到两个PHP函数:file_get
本文介绍了“如何使用PHP函数实现采集器”的相关知识。在实际案例操作过程中,很多人都会遇到这样的困境。接下来就让小编带领大家学习一下这些情况如何应对吧!希望大家仔细阅读,有所收获!
前几天做了一个小说连载程序,因为怕更新麻烦,写了个采集器,采集八路中文网,功能比较简单,不能自定义规则,不过大概思路都在里面,自定义规则可以自己扩展。使用php做采集器主要使用两个PHP函数:file_get_contents()和preg_match_all()。第一个是远程阅读网页内容,但只能在php5以上版本使用。后者是一个常规函数。提取所需的内容。下面我们一步一步的说一下函数的实现。因为是采集fiction,先提取书名、作者、流派,其他信息可以根据需要提取。
这还不够,我们还需要一个截取的PHP函数:
<p>function cut($string,$start,$end){ $message = explode($start,$string); $message = explode($end,$message[1]); return $message[0];}其中$string为要被切取的内容,$start为开始的地方,$end为结束的地方。取出分类号: $start = "Html/Book/"; $end = "List.shtm"; $typeid = cut($typeid[0][0],$start,$end); $typeid = explode("/",$typeid);[/php] 这样,$typeid[0]就是我们要找的分类号了。方法如下: $ustart = "\""; $uend = "\""; //t表示title的缩写 $tstart = ">"; $tend = "