【抓包分析】采集豆瓣排名数据的脚本源码

优采云发布时间: 2022-05-10 03:09

　　【抓包分析】采集豆瓣排名数据的脚本源码

　　大家好，我是公众号3分钟学堂的郭立员，今天给大家带来的是数据采集源码的分享。

　　本期以采集豆瓣排名数据为例：

　　分析

　　一、采集内容：%E5%96%9C%E5%89%A7&type=24&interval_id=100:90&action=

　　随便选一个类型影片的排行榜。

　　二、尝试获取网页源码。

　　TracePrint url.get("https://movie.douban.com/typerank?type_name=%E5%96%9C%E5%89%A7&type=24&interval_id=100:90&action=")

　　三、分析返回值

　　发现返回值并没有排行榜的内容，这说明这个排行榜内容是动态加载的，不能通过直接读取这个网址的网页源码获取到。

　　四、抓包分析，打开浏览器以后按一下f12键，刷新网页，用浏览器自带的抓包功能分析一下网页。

　　按照上图点选network，headers，之后因为数据很多，我们用ctrl+f搜索一下，搜索内容是排行榜第一的影片名称“美丽人生”，有两个搜索结果：

　　我们随便选其中一个分析一下，先把网址复制出来。

　　%3A90&action=&start=0&limit=20

　　我们直接分析问号后面参数的部分：

　　type=24=> 影片类型：24

　　interval_id=100%3A90=>影片被喜爱程度：100%-90%（%3A是冒号）

　　action==>没有值暂时无法判断，字面翻译动作，可省略

　　start=0=> 起始位置，第一位开始

　　limit=20=>显示多少条，限制最多20条

　　这些参数中，影片类型需要在原网址中提取：（下面红色部分）

　　%E5%96%9C%E5%89%A7&type=24&interval_id=100:90&action=

　　每一个类型对应一个数字，比如喜剧是24，动作是5，其他的可以点开更多类型去一一点开看网址。

　　五、获取网页源码

　　TracePrint url.get("https://movie.douban.com/j/chart/top_list?type=24&interval_id=100%3A90&action=&start=0&limit=20")

　　六、网页返回值：

　　返回值是一个json，这里提取是先转table，然后用键值对提取，如果不会在我公众号（3分钟学堂）中搜索json，有多篇关于json提取的文章教程。

　　脚本源码

　　dim json= url.get("https://movie.douban.com/j/chart/top_list?type=13&interval_id=100%3A90")Dim table=encode.jsontotable(json)For i = 1 To Len(table)TracePrint table[i]["title"],table[i]["rating"][1]Next

　　彩蛋

　　先点在看，再取教程哦，关注『3分钟学堂』，回复关键词【教程】即可下载我的基础教程。

　　新建了QQ交流群11群：936858410，感兴趣的话可以加入！

　　vip群①群：242971687（已满）

　　vip群②群：242971687（群费48.8，提供基础教程问题解答，已经有2118个小伙伴加入付费群）

0

2022-05-10

关键词文章采集源码

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

【抓包分析】采集豆瓣排名数据的脚本源码

0 个评论

发起人

AI时代内容工厂

【抓包分析】采集豆瓣排名数据的脚本源码

0 个评论

发起人

相关问题