js提取指定网站内容(1.异步并发的get请求/querylist安装)

优采云 发布时间: 2021-09-16 08:21

  js提取指定网站内容(1.异步并发的get请求/querylist安装)

  编写爬虫程序时,使用guzzle的异步和并发get请求非常容易,可以快速爬虫。在时间上,PHP不是多线程的,但它可以使用协作进程来实现异步并发——用户状态下的多线程。有时,请求地址返回的页面需要执行大量JavaScript代码,并且需要动态呈现数据。这里有一个简单的方法

  即使您使用querylist,您也不能再依赖PHP的DOM解析工具simpledom并拥有自己的远程访问功能

  1.安装

  安装querylist

  作曲家需要jaeger/querylist

  安装phantomjs

  Composer需要Jaeger/querylist phantomjs//PHP版本必须为&gt=7.0

  下载对应于计算机系统的phantomjs二进制文件,并将其放在计算机上的任何路径中。下面将使用此路径。下载页面直接转到:

  2.use

  以下是Linux的一个示例:

  use QL\QueryList;

use QL\Ext\PhantomJs;

$ql = QueryList::getInstance();

// 安装时需要设置PhantomJS二进制文件路径

$ql->use(PhantomJs::class,'/usr/local/bin/phantomjs');

//or Custom function name

$ql->use(PhantomJs::class,'/usr/local/bin/phantomjs','browser');

  下面是windows的示例:

  $ql->use(PhantomJs::class,'C:/phantomjs/bin/phantomjs.exe');

$html = $ql->browser('https://m.toutiao.com')->getHtml();

print_r($html);

  相关文件:

  https://doc.querylist.cc/

  例如:

  在百度搜索图书排行榜,直接发送get请求获取无数据的HTML,因为搜索结果页面是通过异步JavaScript获取的

<p>

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线