php 网页抓取(采集头条先看一实例,现在我要采集新浪网国内新闻的头条)
优采云 发布时间: 2022-02-05 03:01php 网页抓取(采集头条先看一实例,现在我要采集新浪网国内新闻的头条)
phpQuery 是一个基于 PHP 的服务器端开源项目,它可以让 PHP 开发者轻松处理 DOM 文档的内容,例如获取新闻 网站 的标题信息。更有趣的是它采用了jQuery的思想,可以像使用jQuery一样处理页面内容,得到你想要的页面信息。
采集今日头条
我们先看一个例子,现在我要采集新浪网的国内新闻头条,代码如下:
包括'phpQuery/phpQuery.php';phpQuery::newDocumentFile(';
只需三行代码,即可获取标题内容。首先在程序中收录phpQuery.php核心程序,然后调用读取目标网页,最后输出对应标签下的内容。
pq() 是一个强大的方法,就像 jQuery 的 $() 一样,jQuery 的选择器基本上可以用在 phpQuery 中,只要 "."变成“->”。在上面的例子中,pq(".blkTop
h1:eq(0)") 抓取页面类属性为blkTop的DIV元素,找到DIV内部的第一个h1标签,然后使用html()方法获取h1标签中的内容(带html标签),也就是我们要获取的标题信息,如果使用text()方法,只能获取到标题的文本内容。当然,要使用好phpQuery,关键是要找到文档中对应的内容节点。
采集文章列表
我们再举个例子,获取网站的博客列表,请看代码:
包括'phpQuery/phpQuery.php';phpQuery::newDocumentFile('
通过循环遍历列表中的DIV,找到文章标题并输出,就这么简单。
解析 XML 文档
假设现在有一个这样的 test.xml 文档: