nodejs抓取动态网页(第三方库:cheerio，这个库就是用来处理dom节点的 )

优采云发布时间: 2021-10-30 06:25

　　nodejs抓取动态网页(第三方库:cheerio，这个库就是用来处理dom节点的

)

　　第三方库：cheerio，这个库是用来处理dom节点的，它的用法和jquery几乎一模一样，所以有了这个工具，写爬虫就很简单了

　　准备好工作了：

　　1. npm init --yes 初始化package.json

　　2.安装cheerio：npm installcheerio --save-dev

　　实现的目标是将每个文章需要爬取的部分（捕获文章标题、超链接、文章摘要、发布时间）组织成一个对象，放入一个数组中，例如：

　　[ { title: '[置顶][js高手之路]从零开始打造一个javascript开源框架gdom与插件开发免费视频教程

连载中',

url: 'http://www.cnblogs.com/ghostwu/p/7470038.html',

entry: '摘要: 百度网盘下载地址：https://pan.baidu.com/s/1kULNXOF 优酷土豆观看地址：htt

p://v.youku.com/v_show/id_XMzAwNTY2MTE0MA==.html?spm=a2h0j.8191423.playlist_content.5!3~5~

5~A&&f',

listTime: '2017-09-05 17:08' },

{ title: '[js高手之路]Vue2.0基于vue-cli webpack Vuex用法详解',

url: 'http://www.cnblogs.com/ghostwu/p/7521097.html',

entry: '摘要: 在这之前，我已经分享过组件与组件的通信机制以及父子组件之间的通信机制，而

我们的vuex就是为了解决组件通信问题的 vuex是什么东东呢？组件通信的本质其实就是在组件之间传

递数据或组件的状态（这里将数据和状态统称为状态），但可以看到如果我们通过最基本的方式来进行

通信，一旦需要管理的状态多了，代码就会',

listTime: '2017-09-14 15:51' },

{ title: '[js高手之路]Vue2.0基于vue-cli webpack同级组件之间的通信教程',

url: 'http://www.cnblogs.com/ghostwu/p/7518158.html',

entry: '摘要: 我们接着上文继续，本文我们讲解兄弟组件的通信，项目结构还是跟上文一样. 在

src/assets目录下建立文件EventHandler.js，该文件的作用在于给同级组件之间传递事件 EventHandl

er.js代码: 2，在Components目录下新建一个组件Brother1.vue 。通过Eve',

listTime: '2017-09-13 22:49' },

]

　　思路说明：

　　1.获取目标地址：所有html内容

　　2.提取所有文章html内容

　　3、提取每个文章下对应的文章（文章标题、超链接、文章摘要、发布时间）

　　 1 var http = require('http');

2 var cheerio = require('cheerio');

3

4 var url = 'http://www.cnblogs.com/ghostwu/';

5

6 function filterHtml(html) {

7 var $ = cheerio.load(html);

8 var arcList = [];

9 var aPost = $("#content").find(".post-list-item");

10 aPost.each(function () {

11 var ele = $(this);

12 var title = ele.find("h2 a").text();

13 var url = ele.find("h2 a").attr("href");

14 ele.find(".c_b_p_desc a").remove();

15 var entry = ele.find(".c_b_p_desc").text();

16 ele.find("small a").remove();

17 var listTime = ele.find("small").text();

18 var re = /\d{4}-\d{2}-\d{2}\s*\d{2}[:]\d{2}/;

19 listTime = listTime.match( re )[0];

20 arcList.push({

21 title: title,

22 url: url,

23 entry: entry,

24 listTime: listTime

25 });

26 });

27 return arcList;

28 }

29

30 http.get(url, function (res) {

31 var html = '';

32 var arcList = [];

33 // var arcInfo = {};

34 res.on('data', function (chunk) {

35 html = chunk;

36 });

37 res.on('end', function () {

38 arcList = filterHtml( html );

39 console.log( arcList );

40 });

41 });

　　有几个关键点需要解释：

　　1. res.on('数据', function(){})

　　http模块发送get请求后，会不断的抓取目标网页的源码内容。因此，我在 on 中*敏*感*词* data 事件。块是传输的数据。数据被添加到 html 变量中。当数据传输完毕后，会触发结束事件。你可以在end事件中打印console.log(html)，你会发现它是目标地址的所有html源代码。这就解决了我们的第一个问题：获取目标地址：所有html内容

　　2.有了完整的html内容后，我再封装一个函数filterHTML来过滤我需要的结果（每条文章信息）

　　3. var $ =cheerio.load(html); 通过cheerio的load方法加载html内容，然后就可以使用cheerio的节点进行操作了。为了兼容jquery操作，我用美元符号$保存了这个文档对象

　　4. var aPost = $("#content").find(".post-list-item"); 这就是所有的文章节点信息，拿到后，通过各个方法一一遍历，抓取自己需要的信息，组织成对象，然后放到一个数组中

　　1 arcList.push({

2 21 title: title,

3 22 url: url,

4 23 entry: entry,

5 24 listTime: listTime

6 25 });

　　这样做了，结果如上所示。如果博客风格和我的博客风格一样，应该是可以爬取的。

　　然后改进页面爬取，让整个博客都可以爬下来

<p> 1 var http = require('http');

2 var cheerio = require('cheerio');

3

4 var url = 'http://www.cnblogs.com/ghostwu/';

5

6 function filterHtml(html) {

7 var $ = cheerio.load(html);

8 var arcList = [];

9 var aPost = $("#content").find(".post-list-item");

10 aPost.each(function () {

11 var ele = $(this);

12 var title = ele.find("h2 a").text();

13 var url = ele.find("h2 a").attr("href");

14 ele.find(".c_b_p_desc a").remove();

15 var entry = ele.find(".c_b_p_desc").text();

16 ele.find("small a").remove();

17 var listTime = ele.find("small").text();

18 var re = /\d{4}-\d{2}-\d{2}\s*\d{2}[:]\d{2}/;

19 listTime = listTime.match(re)[0];

20 arcList.push({

21 title: title,

22 url: url,

23 entry: entry,

24 listTime: listTime

25 });

26 });

27 return arcList;

28 }

29

30 function nextPage( html ){

31 var $ = cheerio.load(html);

32 var nextUrl = $("#pager a:last-child").attr('href');

33 if ( !nextUrl ) return ;

34 var curPage = $("#pager .current").text();

35 if( !curPage ) curPage = 1;

36 var nextPage = nextUrl.substring( nextUrl.indexOf( '=' ) 1 );

37 if ( curPage

0

2021-10-30

nodejs抓取动态网页

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

nodejs抓取动态网页(第三方库:cheerio，这个库就是用来处理dom节点的 )

0 个评论

发起人