【抓包分析】采集豆瓣排名数据的脚本源码

优采云 发布时间: 2022-05-10 03:09

  【抓包分析】采集豆瓣排名数据的脚本源码

  大家好,我是公众号3分钟学堂的郭立员,今天给大家带来的是数据采集源码的分享。

  本期以采集豆瓣排名数据为例:

  分析

  一、采集内容:%E5%96%9C%E5%89%A7&type=24&interval_id=100:90&action=

  

  随便选一个类型影片的排行榜。

  二、尝试获取网页源码。

  TracePrint url.get("https://movie.douban.com/typerank?type_name=%E5%96%9C%E5%89%A7&type=24&interval_id=100:90&action=")

  三、分析返回值

  

  发现返回值并没有排行榜的内容,这说明这个排行榜内容是动态加载的,不能通过直接读取这个网址的网页源码获取到。

  四、抓包分析,打开浏览器以后按一下f12键,刷新网页,用浏览器自带的抓包功能分析一下网页。

  

  按照上图点选network,headers,之后因为数据很多,我们用ctrl+f搜索一下,搜索内容是排行榜第一的影片名称“美丽人生”,有两个搜索结果:

  

  我们随便选其中一个分析一下,先把网址复制出来。

  %3A90&action=&start=0&limit=20

  我们直接分析问号后面参数的部分:

  type=24=> 影片类型:24

  interval_id=100%3A90=>影片被喜爱程度:100%-90%(%3A是冒号)

  action==>没有值暂时无法判断,字面翻译动作,可省略

  start=0=> 起始位置,第一位开始

  limit=20=>显示多少条 ,限制最多20条

  这些参数中,影片类型需要在原网址中提取:(下面红色部分)

  %E5%96%9C%E5%89%A7&type=24&interval_id=100:90&action=

  每一个类型对应一个数字,比如喜剧是24,动作是5,其他的可以点开更多类型去一一点开看网址。

  

  五、获取网页源码

  TracePrint url.get("https://movie.douban.com/j/chart/top_list?type=24&interval_id=100%3A90&action=&start=0&limit=20")

  六、网页返回值:

  

  返回值是一个json,这里提取是先转table,然后用键值对提取,如果不会在我公众号(3分钟学堂)中搜索json,有多篇关于json提取的文章教程。

  脚本源码

  dim json= url.get("https://movie.douban.com/j/chart/top_list?type=13&interval_id=100%3A90")Dim table=encode.jsontotable(json)For i = 1 To Len(table)TracePrint table[i]["title"],table[i]["rating"][1]Next

  

  彩蛋

  先点在看,再取教程哦,关注『3分钟学堂』,回复关键词【教程】即可下载 我的基础教程。

  新建了QQ交流群11群:936858410,感兴趣的话可以加入!

  vip群①群:242971687(已满)

  vip群②群:242971687(群费48.8,提供基础教程问题解答,已经有2118个小伙伴加入付费群)

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线