js 抓取网页内容( index.js后浏览器访问:5080/)

优采云 发布时间: 2021-11-03 14:21

  js 抓取网页内容(

index.js后浏览器访问:5080/)

  /*

* @Description: 使用cheerio抓取网页数据

* @Version: 1.0

* @Autor: Nanke_南柯

* @Date: 2021-11-02 18:59:35

* @LastEditors: Nanke_南柯

* @LastEditTime: 2021-11-02 19:31:44

*/

// npm i cheerio -S 安装html 解析html非常方便,就像在浏览器中使用jquery一样

const http = require("http")

const https = require("https")

const cheerio =require("cheerio")

let filterData = (data)=>{

// console.log('整个页面',data);

const $ = cheerio.load(data)

$('.typography-body-reduced').each((index,el)=>{

console.log('通过cheerio插件获取我们想要的dom的索引:',index);

console.log('通过cheerio插件获取我们想要的dom:',$(el).text());

})

}

const server = http.createServer((req,res)=>{

let data = ''

https.get('https://www.apple.com.cn/iphone/',(result)=>{

result.on('data',(chunk)=>{

data+=chunk

})

result.on('end',()=>{

filterData(data)

})

})

})

server.listen(5080,()=>{

console.log('localhost:5080 Listen...');

})

  hotnode index.js 后浏览器访问:5080/

  可以看到,使用cheerio插件,我们可以直接将我们抓取到的内容过滤到整个网页进行过滤,得到我们想要的内容,如图

  Cheerio 第二个中文翻译,大家可以看一下

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线