js抓取网页内容(总结以上就是这篇文章的全部内容了,你知道吗?)

优采云 发布时间: 2022-01-11 09:00

  js抓取网页内容(总结以上就是这篇文章的全部内容了,你知道吗?)

  我渴望一个更强大,但使用起来不太麻烦的工具。

  幻影

  上述问题可以用 PhantomJs 解决。

  PhantomJs 是一个没有界面的浏览器。

  安装

  使用 cnpm 安装 PhantomJS:

  

cnpm install phantomjs --save-dev

  我这里没有选择全局安装,因为如果是全局安装,别人使用我的源码时,不知道有这样的依赖,项目就跑不起来了。

  如果你也选择本地安装,那么你需要在 package.json 中的脚本中添加一段:

  

"phantomjs":"node_modules/.bin/phantomjs"

  这个后面会用到,到这里,安装就完成了。

  写代码

  我们新建一个文件,名字随意,这里我新建一个 main.js :

  

var webpage = require('webpage');

var page = webpage.create();

page.open('http://www.baidu.com/', function (status) {

var data;

if (status === 'fail') {

console.log('open page fail!');

} else {

console.log(page.content);//打印出HTML内容

}

page.close();//关闭网页

phantom.exit();//退出phantomjs命令行

});

  这里有一个网页模块,我们刚才明明没有这个模块,为什么可以引用这个模块???

  当然,不能引用。如果我们使用 node main.js 来运行这段代码,它就不会运行。我们应该像这样运行这段代码:

  

npm run phantomjs main.js

  这里的 npm run phantomjs 对应我们之前在 package.json 中添加的命令。非常方便,几乎和http模块一样方便。

  page.content是html代码,这个页面对象属性很多,功能更强大。

  此时,您已经开始了。如果想了解更多,可以去phantomjs官网查看文档。

  总结

  以上就是这个文章的全部内容。希望本文的内容能给大家的学习或工作带来一些帮助。有问题可以留言交流。感谢您对第一财经站长站的支持。

  以上就是关于使用 PhantomJs 用 Node.JS 抓取网页的入门教程的详细介绍。欢迎大家对Node.JS使用PhantomJs抓取网页入门教程的内容提出宝贵意见

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线