js抓取网页内容( PHPNodejs获取网页内容绑定data事件,获取到的数据会分几次)
优采云 发布时间: 2021-12-26 14:14js抓取网页内容(
PHPNodejs获取网页内容绑定data事件,获取到的数据会分几次)
Node.js抓取并分析网页内容的js文件,用于特殊内容
更新时间:2015年11月17日10:40:01 作者:普通儿子
Nodejs获取绑定到data事件的web内容,获取到的数据会分多次。如果要匹配全局内容,需要等待请求结束,在end结束事件中操作累积的全局数据。本文介绍节点。js抓取分析网页内容,针对有特殊内容的js文件,有需要的朋友可以参考
Nodejs 获取绑定到数据事件的网页内容,获取到的数据会分几次。如果要匹配全局内容,需要等待请求结束,在end结束事件中对累积的全局数据进行操作!
比如想在页面上查找,就不多说了,直接放代码:
//引入模块
var http = require("http"),
fs = require('fs'),
url = require('url');
//写入文件,把结果写入不同的文件
var writeRes = function(p, r) {
fs.appendFile(p , r, function(err) {
if(err)
console.log(err);
else
console.log(r);
});
},
//发请求,并验证内容,把结果写入文件
postHttp = function(arr, num) {
console.log('第'+num+"条!")
var a = arr[num].split(" - ");
if(!a[0] || !a[1]) {
return;
}
var address = url.parse(a[1]),
options = {
host : address.host,
path: address.path,
hostname : address.hostname,
method: 'GET',
headers: {
'User-Agent' : 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/38.0.2125.122 Safari/537.36'
}
}
var req = http.request(options, function(res) {
if (res.statusCode == 200) {
res.setEncoding('UTF-8');
var data = '';
res.on('data', function (rd) {
data += rd;
});
res.on('end', function(q) {
if(!~data.indexOf("www.baidu.com")) {
return writeRes('./no2.txt', a[0] + '--' + a[1] + '\n');
} else {
return writeRes('./has2.txt', a[0] + '--' + a[1] + "\n");
}
})
} else {
writeRes('./error2.txt', a[0] + '--' + a[1] + '--' + res.statusCode + '\n');
}
});
req.on('error', function(e) {
writeRes('./error2.txt', a[0] + '--' + a[1] + '--' + e + '\n');
})
req.end();
},
//读取文件,获取需要抓取的页面
openFile = function(path, coding) {
fs.readFile(path, coding, function(err, data) {
var res = data.split("\n");
for (var i = 0, rl = res.length; i < rl; i++) {
if(!res[i])
continue;
postHttp(res, i);
};
})
};
openFile('./sites.log', 'utf-8');
你可以理解上面的代码。如果您有任何问题,请给我留言。具体要看大家在实践中的应用。
下面给大家介绍一下Nodejs的网页抓取能力。
首先是PHP。先说优点:网上大量的爬取解析html框架,各种工具都可以直接使用,比较省心。缺点:首先,速度/效率是个问题。有一次下载电影海报的时候,因为crontab定时执行,没有优化,打开的php进程太多,直接导致内存爆了。然后语法也很拖沓。关键词太多,不够简洁。给人一种没有经过精心设计的感觉,写起来很麻烦。
节点.js。优点是效率,效率还是效率。由于网络是异步的,它基本上和并发数百个进程一样强大。内存和CPU使用量非常小。如果对捕获的数据没有进行复杂的计算和处理,那么系统就会成为瓶颈。基本上就是写入 MySQL 和其他数据库的带宽和 I/O 速度。当然,优点的反面也是缺点。异步网络意味着您需要回调。这时候,如果业务需求是线性的,比如必须等待上一页被爬取到数据,下一页才能被爬取,甚至更多。层依赖,会有可怕的多层回调!基本上这个时候代码结构和逻辑就会乱了。当然,
最后,让我们谈谈Python。如果你对效率没有极端的要求,那么推荐Python!首先,Python 的语法非常简洁,同一个句子可以少打很多次。那么,Python非常适合数据处理,比如函数参数的打包和解包,列表分析,矩阵处理,非常方便。