伪原创相似度查询(搜索引擎识别伪原创的算法技术有很多,你知道吗?)
优采云 发布时间: 2021-12-29 11:03伪原创相似度查询(搜索引擎识别伪原创的算法技术有很多,你知道吗?)
搜索引擎识别假货的算法技术有很多。在此,启迈网络简单介绍几款:
1、信息指纹技术是指搜索引擎截取一段文本信息,然后根据这组词调用特殊算法,如MD5,将其转换成一组代码,而这组代码成为识别信息指纹。如果两篇文章的信息指纹相同,则搜索引擎认为这两篇文章是重复的。这个信息可能是标点符号,可能是一个词,可能是一个句子,一个段落。通常一篇文章会对应多个信息指纹,因此网络营销认为,简单的换词(同义/反义)、倒序等伪原创技术无法欺骗搜索引擎。
2、TF/IDF 算法 这是计算相似度的常用算法。TF是Term Frequency的缩写,翻译成中文就是词频,指的是一个词在文章中出现的次数;IDF是Inverse Document Frequency的缩写,中文翻译成逆文档频率,IDF越大,说明该词在其他文章中出现次数少,说明该词具有较好的分类能力。两篇文章使用TF/IDF算法计算后,生成内容特征向量。如果两篇文章的特征向量相似,则搜索引擎认为两篇文章的内容相似。如果两个特征向量相同,则认为这两篇文章是重复的。
3、 文章与站点主题的相关性,百度等搜索引擎收录站点时,已经划定了每个站点的主题范围。如果一篇文章的话题与整个网站的话题相关度很低,比如你的网站是一个美容测评网站,但是有一篇关于挖掘机性能的文章,那么不相关的文章整个网站的主题也很容易被搜索引擎认为是重复的内容。搜索引擎喜欢独特的原创内容。也提醒站长在部署关键词时要注意主题。如果网站上不相关的文章或网页占据一定范围,则可能会触发搜索引擎。反作弊机制被降级甚至K站。
4、伪原创文章的阅读体验,尤其是程序生成的伪原创文章,阅读体验很差。可以想象,如果用户在搜索时点击这样的文章,他肯定会快速跳出页面,点击其他搜索结果,或者搜索另一个关键词。搜索引擎使用数据来监控用户的这种行为,也可能会判定这篇文章是伪原创文章。
看了上面的分析,站长朋友应该明白了,简单的换词等伪原创方法对网站弊大于利。就算是做伪原创,也要对伪原创进行深度加工,在借鉴他人意见的基础上自己做。总结分析,让这样写的文章对用户有价值,被搜索引擎认可。