网站转载内容太多(此处介绍的只是计算原理,并非实际发生的计算过程)
优采云 发布时间: 2021-10-28 07:03网站转载内容太多(此处介绍的只是计算原理,并非实际发生的计算过程)
注意:这里介绍的计算原理并不是实际的计算过程。
信息的“*敏*感*词*”,更常见的名称是“信息指纹”,是计算机应用领域常用的一种判断信息重复性的方法。“信息指纹”的计算方法有很多种,但原理都差不多:
大家可能知道,无论是中文、外文还是数字,在计算机系统中,它们实际上都是以0或1的编码形式存储的。比如大写字母A的ASCII码是01000001,而ASCII码小写字母z为01111010(其实编码标准有很多,ASCII是常见的英文编码标准,采用8位二进制数字编码)。这实际上相当于每个字符都有自己唯一的信息指纹。
简单来说,计算就是对文本中出现的不同字符的信息指纹进行算术运算,结合它们在内容中出现的次数,最终得到一段内容的信息指纹。从理论上讲,如果操作执行足够次数,它将产生足够唯一的数值结果。
信息指纹重复的概率有多低?假设我们通过上面的计算得到一串128位的二进制数,在计算机系统中只占很小的空间,但根据“抽屉原理”,这样的数可以重复1800亿次!这对于一般的重复信息删除就足够了。
总而言之,同一个文章拥有不同的信息指纹或者不同的文章拥有相同的信息指纹的概率几乎为零。对于“去重”机制,无需担心误判或侥幸!
原则上,内容不同的*敏*感*词*是不同的,内容相同的*敏*感*词*是相同的。并且,相似的内容会有相似的*敏*感*词*。这是今日头条系统去重内容的基础。
每篇文章文章都有自己的“*敏*感*词*”,用来与平台上其他文章进行对比。通常有以下几种不同的重复数据删除机制:
1. 内容消除和“关键项目”
计算出一条内容的“*敏*感*词*”后,基本上有两种情况。
首先,这是系统中唯一的*敏*感*词*。换句话说,系统中只有一个相同的内容。对于内容发布商来说,这可能是最理想的情况。在这种情况下,当向读者推荐相同的内容时,系统只好推荐这篇文章。
第二种情况要复杂得多,也是很常见的一种情况:
系统中有多个不同的内容,都具有相同的*敏*感*词*。这时,系统需要从这些相同的内容中选择一个“重点项目”推荐给用户。评选的最终目的是保证推荐给用户的内容来自原创的更权威、更有可能的来源。
如何判断哪个头条号更权威,更有可能是原创?相同内容的两篇文章之间可能会有很多差异。这些差异是判断的关键。具体的计算标准有很多,其中最重要的包括:
例如,《央视新闻》5月19日上午通过今日头条平台发布了一条内容,5月20日上午“门头沟新闻”的头条号转发了同一内容,则两者均未标记。原创,然后:
那么,如果同样的内容首先出现在5月19日的《门头沟新闻》头条,然后又出现在5月20日的《央视新闻》头条,系统将如何判断呢?这个比较复杂,但总体来说,系统很可能会选择最好的内容源。
今日头条使用“原创”功能将某条内容标记为“原创”的情况除外。在这种情况下,无论其他因素的比较结果如何,系统都会有很高的概率将内容选为“关键项目”(不过,“原创”标题编号应谨慎使用此功能一经举报滥用原创,将永久取消声明原创的资格)。
一旦系统发现可能对某个内容感兴趣的用户正在刷新今日头条客户端,系统会自动将具有相同“信息指纹”的内容中最好的推荐给用户的信息流。剩下的内容具有相同的“信息指纹”,几乎不可能得到推荐。
这就是基于内容的去重规则,这就解释了为什么今天很多非原创内容不能在今日头条推荐。
2.其他一些“重复数据删除”规则
除了内容去重规则,今日头条号平台上的内容之外的内容其实还有一些去重规则。
在所有的重复数据删除规则中,内容的重复数据删除是最严格的,其他类型的重复数据删除更加灵活,因为在信息流中看到重复的内容对用户来说是最差的体验。
四.如何避免被重复?
不管是你原创,还是在网上转载优质内容,一旦出现系统被系统缩小无法推荐的情况,总是令人遗憾的。那么我们怎样才能避免这种情况呢?