php 网页抓取(采集头条先看一实例,现在我要采集新浪网国内新闻的头条)

优采云 发布时间: 2022-02-05 03:01

  php 网页抓取(采集头条先看一实例,现在我要采集新浪网国内新闻的头条)

  phpQuery 是一个基于 PHP 的服务器端开源项目,它可以让 PHP 开发者轻松处理 DOM 文档的内容,例如获取新闻 网站 的标题信​​息。更有趣的是它采用了jQuery的思想,可以像使用jQuery一样处理页面内容,得到你想要的页面信息。

  采集今日头条

  我们先看一个例子,现在我要采集新浪网的国内新闻头条,代码如下:

  包括'phpQuery/phpQuery.php';phpQuery::newDocumentFile(';

  只需三行代码,即可获取标题内容。首先在程序中收录phpQuery.php核心程序,然后调用读取目标网页,最后输出对应标签下的内容。

  pq() 是一个强大的方法,就像 jQuery 的 $() 一样,jQuery 的选择器基本上可以用在 phpQuery 中,只要 "."变成“->”。在上面的例子中,pq(".blkTop

  h1:eq(0)") 抓取页面类属性为blkTop的DIV元素,找到DIV内部的第一个h1标签,然后使用html()方法获取h1标签中的内容(带html标签),也就是我们要获取的标题信息,如果使用text()方法,只能获取到标题的文本内容。当然,要使用好phpQuery,关键是要找到文档中对应的内容节点。

  采集文章列表

  我们再举个例子,获取网站的博客列表,请看代码:

  包括'phpQuery/phpQuery.php';phpQuery::newDocumentFile('

  通过循环遍历列表中的DIV,找到文章标题并输出,就这么简单。

  解析 XML 文档

  假设现在有一个这样的 test.xml 文档:

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线