js抓取网页内容(总结以上就是这篇文章的全部内容了,你知道吗?)
优采云 发布时间: 2022-01-11 09:00js抓取网页内容(总结以上就是这篇文章的全部内容了,你知道吗?)
我渴望一个更强大,但使用起来不太麻烦的工具。
幻影
上述问题可以用 PhantomJs 解决。
PhantomJs 是一个没有界面的浏览器。
安装
使用 cnpm 安装 PhantomJS:
cnpm install phantomjs --save-dev
我这里没有选择全局安装,因为如果是全局安装,别人使用我的源码时,不知道有这样的依赖,项目就跑不起来了。
如果你也选择本地安装,那么你需要在 package.json 中的脚本中添加一段:
"phantomjs":"node_modules/.bin/phantomjs"
这个后面会用到,到这里,安装就完成了。
写代码
我们新建一个文件,名字随意,这里我新建一个 main.js :
var webpage = require('webpage');
var page = webpage.create();
page.open('http://www.baidu.com/', function (status) {
var data;
if (status === 'fail') {
console.log('open page fail!');
} else {
console.log(page.content);//打印出HTML内容
}
page.close();//关闭网页
phantom.exit();//退出phantomjs命令行
});
这里有一个网页模块,我们刚才明明没有这个模块,为什么可以引用这个模块???
当然,不能引用。如果我们使用 node main.js 来运行这段代码,它就不会运行。我们应该像这样运行这段代码:
npm run phantomjs main.js
这里的 npm run phantomjs 对应我们之前在 package.json 中添加的命令。非常方便,几乎和http模块一样方便。
page.content是html代码,这个页面对象属性很多,功能更强大。
此时,您已经开始了。如果想了解更多,可以去phantomjs官网查看文档。
总结
以上就是这个文章的全部内容。希望本文的内容能给大家的学习或工作带来一些帮助。有问题可以留言交流。感谢您对第一财经站长站的支持。
以上就是关于使用 PhantomJs 用 Node.JS 抓取网页的入门教程的详细介绍。欢迎大家对Node.JS使用PhantomJs抓取网页入门教程的内容提出宝贵意见