背后的故事:快收藏,一小时教你装逼采集网易云音乐5亿首歌

优采云 发布时间: 2022-11-04 18:28

  背后的故事:快收藏,一小时教你装逼采集网易云音乐5亿首歌

  本期为极客系列的第三期。第二期由于客户论文重复的问题,暂时不开放源码。第二期比第三期有点长,最近有很多事情发生。本期使用的语言是java,创建多线程,支持断点采集,URL去重,广度优先+深度组合,如何使用已经搭建好的轮子快速开发发力。好了,吹完了,现在我们进入教程阶段。

  爬虫

  本期目标: 本期工具:采集结果:

  采集结果写入excel

  WebCollector 简介

  WebCollector是一个无需配置,方便二次开发的JAVA爬虫框架。它提供了精简的API,只需少量代码即可实现强大的爬虫。WebCollector-Hadoop 是支持分布式爬取的 WebCollector 的 Hadoop 版本。并且在2.x版本中提供了selenium,可以处理javascript生成的数据。我们先来看WebCollector的核心架构图:

  爬虫架构图

  

  不过,我们不用那么麻烦使用WebCollector来写爬虫。我们只需要在爬虫框架中集成BreadthCrawler类,重写访问方法即可。我们来看看官网上的例子:

  官网示例

  节目说明:

  访问()方法

  在整个爬取过程中,只要抓到一个复合页面,wc就会回调这个方法,传入一个收录所有页面信息的页面对象。

  添加*敏*感*词*()

  添加*敏*感*词*,在爬虫启动前,*敏*感*词*链接会添加到上述爬取信息中,并标记为未爬取。这个过程称为注入。

  添加正则表达式

  对于url正则表达式,过滤掉.js .jpg .css等不必要的链接,或者指定抓取链接的规则。比如我在使用的时候,有一个正则模式:[0-9]+.html,那么我的爬虫只会爬取域名下2015-01-16日期以.html结尾的链接。

  

  开始()

  表示启动爬虫,传入参数5表示抓取5层(深度为5)。如何理解5的深度?当只添加一个*敏*感*词*时,抓取这个*敏*感*词*链接作为第一层,根据规则解析*敏*感*词*链接页面,过滤出想要的链接,保存到待爬取的记录中。然后第二层就是抓取第一层保存的记录,解析并保存新的记录,以此类推。

  Web云音乐页面分析:

  我们先看下网易云音乐的歌曲页面链接:#/album?id=2884361,观察这个url,发现是查询平台。通过查询id可以得到不同的歌曲,这样就可以遍历整个网易云音乐,通过提取与上面url类似的网页就可以得到网易云音乐的所有歌曲。

  这时,我们遇到了第二个问题。得到歌曲的页面后,如何才能得到音乐的真实地址呢?我们通过抓包分析发现网易云音乐有一个api接口,可以得到歌曲的真实地址,api地址:,这个接口有几个参数:

  然后访问api得到一段json,里面收录了歌曲几个版本的音源地址。至于如何捕获和分析地址,下一篇教程将为您提供。

  不多说,在代码上,所有的核心代码都进行了注释,整个爬虫思路是这样的:

  网络爬虫源代码

  附上 Github 地址:. 欢迎关注极客科学,学习遵循有趣的技巧。

  分享的内容:外链平台有哪些,外链发展情况介绍

  众所周知,网站的外链是网站的SEO优化的重要组成部分。当然,分析竞争对手的外部链接也很重要。所谓“知己知彼”,就是千方百计的战斗,只要你知道对手的外链是怎么做的。,那么你就可以在外链上超越竞争对手。当然,在这种情况下,网站的综合排名也可以随意超越竞争对手。那么如何使用SEO工具准确查询竞争对手的反向链接呢?

  1. 站长工具

  站长工具是每个人都经常使用的软件。输入自己的网址,会有网站权重、页面收录、网站外链等数字。点击外链数量会跳转到百度网盘页面,可以看到自己的网站外链。

  优点:查询速度快

  缺点:查询质量差,假外链多。仅查询文本链接

  

  2.百度站长平台

  百度站长平台在过去两年一直是百度的主要站长工具。百度站长平台优化维护页面有外链分析。点击外链分析可以看到你的网站的外链主域和总链接数。

  优点:可靠

  缺点:时效性差,数据往往是一个月前的(这个主要看百度站长平台的数据更新时间)

  3. Majesticseo 外链查询工具

  一个国外的SEO查询工具网站,直接看图:

  

  图1

  图1准确显示了SEO的外部链接是否知道网站,并给出了对应的参考域名、参考IP等。

  图二

  图 2 反向链接的分割 区分网站的图片链接或文本链接,图表清晰地展示了链接到该域/子域/URL的不同类型的反向链接;在锚文本部分,您可以清楚地看到 网站 占主要外部链接中锚文本的分配量。在这里,您可以深入分析每个 关键词 以找出使用此 关键词 反向链接的引用域和外部链接。

  一般情况下,使用百度站长平台和majesticseo查询可以充分分析竞争对手的外链,然后我们可以通过观察竞争对手发布的外链数量来预测我们需要发布的外链数量。,让我们的SEO工作更有针对性,可以通过观察竞争对手的外链来寻找一些优质的外链资源。

  做SEO是关于毅力的。网站 的外部链接对于网站 来说是一个非常重要的因素。因此,作为站长,我们必须积累优质有效的外链。几乎每个优秀的站长手头都会有大量的资源。这些资源就是站长财富和排名的秘密。所以,大部分站长都不会随便透露。因此,外链资源的积累任重而道远!

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线