c#抓取网页数据(网易云音乐歌词爬取的总体思路及方法分享)
优采云 发布时间: 2022-02-01 10:08c#抓取网页数据(网易云音乐歌词爬取的总体思路及方法分享)
2021-04-19
前几天小编给大家分享了数据可视化分析。文末提到了网易云音乐歌词爬虫。今天给大家分享一下网易云音乐的歌词抓取方法。
本文的大致思路如下:
找到正确的网址并获取源代码;
使用bs4解析源码得到歌曲名和歌曲ID;
调用网易云歌API获取歌词;
将歌词写入文件并保存在本地。
本文的目的是获取网易云音乐的歌词,并将歌词保存到本地文件。整体效果图如下:
赵磊的歌
本文以民歌神赵雷为数据采集对象,具体采集他的歌曲歌词,其他歌手的歌词采集方法可以类推。下图为《成都》的歌词。
赵磊的歌——《成都》
一般来说,网页上显示的URL可以写在程序中,运行程序后,可以采集到我们想要的网页的源代码。但是在网易云音乐网站中,这种方式是行不通的,因为网页中的网址是假网址,真实网址中没有#号。废话不多说,直接上代码吧。
获取网页源代码
本文对采集网易云音乐歌词使用requests、bs4、json和re模块,记得在程序中添加headers和防盗链referer来模拟浏览器,防止被网站@拒绝访问> 。这里的get_html方法是专门用来获取源代码的。通常,我们还需要进行异常处理并采取预防措施。
拿到网页源代码后,我分析了源代码,发现这首歌的名字和ID被隐藏得很深。我千百度找她,发现她在源码的第294行,隐藏在