抓取网页音频(网易云音乐官网通过歌单分类——歌单列表—歌曲列表)

优采云 发布时间: 2022-01-04 10:10

  抓取网页音频(网易云音乐官网通过歌单分类——歌单列表—歌曲列表)

  第一次写java爬虫花了三天时间。来自网易云音乐官网,通过播放列表分类-播放列表列表-歌曲列表,一步一步爬取,最终得到所有歌曲;

  关于ip阻塞的问题:因为没有代理池,网上的免费代理太慢了。因为我用的校园网,想出了个妙招,通过cmd命令自动更改注册表mac地址并重新连接,校园网ip就会改变。所以你可以高速爬行。想要使用的同学需要通过cmd命令查看如何更改自己电脑系统的mac地址。

  多线程爬行,一开始速度是2000-3000/分钟,后来估计每个播放列表里重复的歌曲很多,速度降到400左右。爬的时候懒得爬了到大约 40W 的数据。

  在这个过程中遇到了一个让我傻眼的问题:网易云页面的源代码不是浏览器url(#/discover/playlist),而是因为这个小问题重新请求了(),我一头雾水. 需很长时间

  另外,在获取歌曲评论数的时候,它的请求参数是加密的,但是这个参数在评论列表的第一页是通用的,所以如果你只需要捕获评论数而不是所有评论,你可以直接添加 this 取参数并使用;

  代码没有层次结构,基本可以用也可以不用(可怕);

  暂停和保存爬取进度功能;

  ConcurrentHashMap 运行时去重

  最后放上github地址:GuoYankai1996/NetEase-Cloud-Music

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线