免规则采集器列表算法(从一个学生角度浅谈我对现在youtube浏览量算法的意见)
优采云 发布时间: 2021-11-15 04:09免规则采集器列表算法(从一个学生角度浅谈我对现在youtube浏览量算法的意见)
说到Kpop指标,大家肯定会想到音源的销量和油管的表现。油管的性能一直是路人和海外影响力的指标。虽然目前知乎凤翔觉得这是粉丝可以操纵的鸡肋指标。但我个人觉得这种说法并不完全正确。如果是球迷指标,那么男队在这个数据上应该是有绝对优势的。BP和TWICE应该无法达到这么好的油管效果,所以笔者做了一些简单的实验。, 站在一个学生的角度,谈谈我对目前youtube浏览量算法的看法。
一些粉丝指责youtube的结果发生了变化,或者youtube的记录完全没有意义。这种指责是由于对这家世界级互联网媒体的不信任和粉丝对浏览算法的不理解造成的。
作为kpop文化输出最直接的量化指标,YouTube的表现不仅反映了k-pop占领地球的趋势,也成为PC人的骄傲。说到2016油管,就不得不谈BTS、Blackpink、Twice这三种组合。
16年,输油管道记录似乎意外被打破。没有别的原因,就是短时间被大棒统治的输油管道名单从1000刷新到了1亿。头寸全丢,只剩下2亿大关。还用棍子守着。
如果说TT在血汗泪水时期的1000万分可以称为玩兔子的全盛期,那么KK NT时期只能称为血洗榜。剩下的黑粉虽然没有前两个那么抢眼,但是却显示出很强的后劲,甚至还有逆行向上的气势。
所以今年大家难免达成共识,油管越来越好。
但事实真的如此吗?
让我们从一个非常业余的角度来看,
市面上很便宜的方法是chrome上的自动刷新插件。这是 Chrome 商店中提供的免费插件。可以自动设置为定期刷新页面。一般的方法是根据歌曲的时间设置自动刷新周期。设置相同的长度,可以无限刷新浏览量,但是即使有这个插件,也无法刷新评论数。
换句话说,即使我们默认那个方法(后面会详细说明这个方法基本不可行或者油管认可度很低)是可行的,我们也无法评论。
现在来看看各组访问量最高的TT 16000W访问以下22W评论血汗泪14000W访问16W评论boombayah 12000W访问16W评论
来看看GD前辈的神奇宝贝2.8E 15W评论GEE1.86E 51W评论叫我宝贝1.2E 15W评论
好的,让我们输入下面的文字,
前面高能,我们用一个可以很基本的比喻来解释这件事,那就是油管的服务器就像餐厅,而我们就像食客。
经过三天的研究,我没有找到youtube使用的任何算法。(好吧,我承认我是人渣TT)段爸爸没有发表具体算法的论文。但我们可以从石油管道算法的15年更新中窥见一斑。我是门外汉,先给大家讲解一下这些规则。
首先,在Tubing官方公布算法之前,我们无法知道具体的算法程序,但是可以知道影响算法的变量。感谢ResysChina对youtube推荐算法的翻译,我们知道youtube经过15年的改版后,YouTube会停留在访问量上,对话开始和对话结束的概念引入了计算方法。在这个规则下,单纯点击打开页面并一直刷新显然是行不通的,于是我们之前熟悉的Chrome插件就应运而生了。简单的说,youtube就是你没吃过的餐厅,不看你有没有下单,而是看你吃了多久。一定时间后,您将只吃一次。
二是ID和IP的问题。除了看完整个MV才算访问成功,短时间内多次访问同一个ID的视频肯定是无效的。看了一些贴吧的说明,可以删除浏览记录。我怀疑这种方法的科学性。就像你去餐厅吃饭,写一个订单,点了三道菜,然后这个订单做了两份,你就有了一个。对于厨师来说,删除浏览器的 cookie 记录就像检查您订单上的一道菜。
油管的历史实际上是从服务器日志中重新生成的反馈信息,类似于您从餐厅获得的收据。如果你认为修改油管历史可以逆向修改服务器日志,那就等于撕了收据。吃国王餐的理论,绝对是不可能的。
肯定有同学想问:怎么算游客流量或者自己申请新*敏*感*词*?在这里,我将谈谈游客的流量。油管也会被记录下来,但是油管的ID是由IP生成的,与IP相关。.
总之,我终于来到了故事的关键,访问者的IP地址
什么是 IP 地址?它实际上是互联网分配给您的计算机的虚拟地址,以便当您要连接到以太网时,有一个特定的地址可以发送和接收快递。油管服务器(服务器)必须根据您在计算机上唯一确定的包裹被发送到的地址。
所以理论上想要刷出50W的观看次数,必须在完整观看视频后切换IP地址。如果能写一个比较简单的程序,就可以写一个自动填代理IP的代理服务器,但是有个问题,哪里可以找到现成的免费IP地址?现在比较可行的方法是搜索即时代理IP。但是为了防止大量采集,当前代理IP使用图片。. . 所以,总而言之,非常麻烦。暂时没有想出可行的办法。除了切换IP,我还需要定期处理cookies。
所以IP切换是一件很麻烦的事情。我个人认为现在用VPN比较可行,因为它会随机给你分配一个新的IP地址,只要你设计一个定点重连。另一种是手机刷卡,因为蜂窝4G网络每次使用数据连接时都会重新分配IP地址。但是这个方法。. 我每天最多手动测试计算机 120-150 次。因为时间不匹配,我个人设置了一个时间段为10分钟。
那么,说完基础,我们不难发现,youtube算法索引在页面浏览量方面其实是一个综合了账户cookies和IP地址的综合算法。我个人用了四个视频进行实验,一个是0次观看。音量,一个是20+浏览量,一个是数百浏览量,最后一个是2000个浏览量的视频
然而,实验结果相当不稳定,同一量级内的标准参数随时间变化明显。也就是说,我这个级别的玩家永远不会知道在某个量级以哪些参数为标准,更不用说参数之间的权重关系了。
更重要的是,即使我们可以在几千个样本中破解算法,但与数千万个页面访问量相比,数千个页面访问量始终是一个小样本。在较大的样本中,审查更复杂的页面视图。因为系统是不可控的,我无法控制哪些浏览量被计算在内,哪些不计算。
所以这个文章的结论是我的真名反对计算机天才一天可以刷50W浏览量的说法。不过不得不承认,如果粉丝每天打开电脑,把歌曲放入播放列表重复播放,这些观看次数不能算作一次,所以必须有有效的播放次数,重复计算为观看次数。
随着信息时代的不断推进,BTS和Twice的油管记录被新团打破是必然趋势。五年前,我想看我最喜欢的mv。我只能回家打开电脑。现在,无论是上班还是上学,只要我愿意,我都可以从手机和平板电脑连接到 YouTube。. 这项技术带来的变化决定了,从未来的趋势来看,销售额的存在将继续减少,而数字音源和YouTube等新媒体的数据将成为越来越重要的流行表现形式。
不过不得不提的是,作为一家互联网视频公司,YouTube对浏览量算法的细致设置以及算法的不断更新,在一定程度上保证了其数据的可信度。但如果要将其作为更重要的指标,输油管道公司首先需要公布一部分算法程序,让公众了解并确信指标进行审核。二是在以下两个方面:1.如何区分粉丝和路人2.如何防止粉丝利用IP切换刷浏览量,youtube还需要继续努力。
以下五张图是bigbang、少女时代、二次元、blackpink和bts在油管上发布的2016年全年官方数据,有兴趣的可以自行转/
最后,我想分享一下我所做的项目,并从 Twitter 上获取数据。因为我们没有切换IP,推特屏蔽了我们整个宿舍的IP。. . (我在香港上学)这是我年轻时写的一小部分,不知道从Twitter下载流数据。后来我发现推特数据集是公开的。跑过多少奔马。. . def on_data(self, data):try:with open('python.json','a') as f:f.write(data)return Trueexcept BaseException as e:print(“Error on_data: %s”% str( e))return Truedef on_error(self, status):print(status)return True twitter_stream = Stream(auth, MyListener())twitter_stream.filter(track=['#python'])