干货教程:ò浅论youtube浏览量算法
优采云 发布时间: 2020-08-30 00:13ò浅谈youtube浏览量算法
也就是说,即使我们默认那个方式(后面我们会解读那个方式基本不可行或则油管认可度太低)可行,也难以刷出评论。
现在来看下各团最多的访问 TT 16000W访问 下面22 W评论 血汗泪 14000W访问 16W评论 boombayah 12000W访问 16W 评论
再看下高手GD 的fantastic baby 2.8E 15W评论 GEE1.86E 51W评论 call me baby 1.2E 15W评论
好了好了,下面开始步入正文,
前方高能,我们用一个可以挺入门的比喻来讲解这个事情,那就是油管的服务器如同是饭店,我们如同是老饕。
经过我一天的研究,我并没有发觉youtube用的哪些算法。(好吧,我承认我就是个渣渣TT) 油管爹并没有向外公布具体算法的论文。但是我们从15年油管算法的更新可以管中窥豹,由我这个外行人,给你们先讲解一下这种规则。
首先在油管官方公布算法前,我们无从得悉具体的算法程序,却可以晓得影响算法的变量。感谢ResysChina的youtube推荐算法译文,我们晓得了youtube15年改版后,油管将访问逗留,会话开始会话结束这个概念引入了估算方式。在这个规则下,只是单纯的点开页面仍然刷新其实是行不通的,所以我们之前熟悉的Chrome插件应运而生。简单来说,youtube这个饭店算你去没去喝过饭,不看你下没下单,而是看你喝了多久,你要喝到一定时间才算喝一次。
其次是ID和IP的问题,除了要看完整个MV才会算一次成功访问外,同一个ID短时间内多次访问一个视频肯定也肯定是无效的,我看见一些帖吧里的讲解说可以删掉浏览记录,我对这个做法的科学性是太怀疑的,这如同你去饭店喝水,写了一份订单,点了三个菜,然后这个订单是一式两份,你一份面点师一份,删除自己浏览器的cookies记录就好似在自己的订单上划去一个菜一样。
油管的历史记录,其实是从服务器日志上再生成的反馈信息,类似于你从饭店领到的支票,认为更改油管的历史记录才能反向更改服务器日志,就像把*敏*感*词*撕了,就可以喝霸王餐一样的理论,那肯定是不可能的。
有朋友肯定想问:那旅客的流量或则我自己再申请新ID如何算,这里要讲一下旅客的流量,油管也是记录的,不过油管的旅客ID,是由IP生成的,从而跟IP相关的。
总之总算提到了故事的关键,访问者的IP地址
IP地址是哪些,其实是互联网分配给你笔记本的虚拟地址,这样当你要接入以太网时,是有一个具体的地址可以收发快件的。油管的服务器(server)必须按照你惟一确定的地址来讲包裹发送到的你的笔记本。
所以假如你要从理论上刷出50W的浏览量,你必须在完整浏览视频后进行IP地址切换,如果你会比较简单的程序编撰,你能写出一个手动填写代理IP的代理服务器,但是问题是去那里找现成的免费IP地址呢,现在比较可行的办法是搜索即时的代理IP。但是为了避免大量采集,现在的代理IP都用图片。。。所以,总而言之就是很麻烦。我暂时还没摸索出可行的办法,另外不仅切换IP还要定时处理cookies.
所以IP切换是件很麻烦的事情,个人认为现今摸索下来比较可行的反而是用VPN,因为他会随机给你分配新的IP地址,只要设计好定点重连就行了。另外一个是手机刷,因为蜂窝4G网每次用数据联接就会重新分配IP地址。但是这些技巧。。自己人工测一台笔记本三天顶多刷120-150次,因为时间不匹配,我个人通常设置一个timeslot为10分钟。
然后讲完基础以后,我们当然不难发觉,youtube在浏览量方面的算法指标虽然是一个综合了了 账户 cookie和 IP地址的综合算法,我个人使用了四个视频做了实验,一个是0浏览量的,一个是20+浏览量,一个是上百浏览量,最后一个是两千浏览量的视频
然而实验结果相当不稳定,同样量级内的标准热阻显著随着时间的不同而在发生变化。即象我这些水平的玩家永远搞不清楚某个量级内究竟是哪几个热阻在作为标准,更搞不清楚热阻间的权重关系。
更重要的是,即使我们能在几千以内的样本中破解算法,几千的浏览量跟几千万的浏览量相比仍然是小样本,在更大的样本中,更复杂的浏览量审查制度因为变量不可控,我根本无法控制什么浏览量是估算在内,而什么没有。
所以这篇文章的推论是,我实名反对,电脑天才三天可以刷50W浏览量的说法。但是,不得不承认,如果粉丝每晚都开着笔记本把歌曲放进播放列表里重复播放,这些浏览量是不可能被算作一次的,那么肯定都会有重复记入浏览量的有效播放次数。
随着信息时代的不断进步,防弹跟twice的油管记录被新团打破是一个必然的趋势。五年前,我想要看我喜欢的mv我只能回去打开笔记本,而现在,无论我是下班还是念书,只要我想,我可以从手机移动端,和平板笔记本端任意的联接到youtube。这种技术带来的变化决定了从未来的趋势来看,销量的存在感会继续增加,数字音源和youtube等旧式媒体的数据会是对人气更加重要的彰显。
但不得不提的是,油管官方作为一家互联网视频公司对于浏览量算法的悉心设置,对于算法的不断更新,保证了其数据在一定层面上的公效度。但若果要作为更重要的指标,油管公司首先须要公布一部分的算法程序因而使公众晓得并信服审查的指标有什么,二是在以下两方面1.如何甄别粉丝和路人2.如何避免粉丝使用IP切换刷浏览量,youtube还需继续努力。
下面五图分别是2016自然年全年 bigbang, girl‘s generation,twice,blackpink和bts在油管上官方公布的相关数据,有兴趣的朋友可以自己转/
最后是分享一下我作死的project,从twitter上扒数据,因为没有切换IP,被twitter把我们整个宿舍的IP都给封了。。。(我在台湾念书)这是当初年少无知从twitter下载流数据写的一小部份,后来发觉twitter数据集是公开的,求多少只草泥马奔过。。。def on_data(self, data):try:with open(‘python.json’, ‘a’) as f:f.write(data)return Trueexcept BaseException as e:print(“Error on_data: %s” % str(e))return Truedef on_error(self, status):print(status)return True twitter_stream = Stream(auth, MyListener())twitter_stream.filter(track=[‘#python’])