全自动采集最新行业文章(QueryList构造函数原型:QueryList(图))
优采云 发布时间: 2021-12-26 18:19全自动采集最新行业文章(QueryList构造函数原型:QueryList(图))
QueryList 是一个基于 phpQuery 的通用列表集合类。它是一个简单、灵活且功能强大的采集
工具。采集
任何复杂的页面基本上可以用一句话完成。
查询列表使用
//实例化一个采集对象
$hj = new QueryList('http://www.baidu.com/s?wd=jaekj',array('title'=>array('h3','text')));
//输出结果:二维关联数组
print_r($hj->jsonArr);
//输出结果:JSON数据
echo $hj->getJSON();
上述代码实现的功能是采集
百度搜索结果页面上所有搜索结果的标题,然后分别以数组和JSON格式输出。
QueryList 构造函数原型:
查询列表($page,$regArr,$regRange='',$getHtmlWay="curl",$output_encoding=false)
一共有五个参数,最后三个参数是可选的
QueryList 属性 QueryList 方法 QueryList 依赖库
phpQuery
phpQuery 项目主页:
其他说明
内置的QueryList只是一个简单的源码爬取方法。当您遇到更复杂的爬取情况时,例如:当您需要登录认证时,请配合其他PHP HTTP类使用,并使用辅助HTTP类来爬取网页。源代码可以传递给QueryList。
演示站
微动态:
本演示站点实现的功能相当于一个轻量级的微博站点。内容会自动采集
和更新。任何站点的信息都可以按照自定义的时间间隔采集
并自动更新到该站点。只需要在后台规则库中添加即可。一个规则可以实现自动采集
。可以进入后台自行尝试,体验QueryList的魅力!