伪原创在线监测工具(Java开发中常见的几种计算相似度的算法算法)
优采云 发布时间: 2021-09-24 15:32伪原创在线监测工具(Java开发中常见的几种计算相似度的算法算法)
1、tf/idf 算法 这是一种常用的计算相似度的算法。tf是term frequency的缩写,翻译成中文就是词频,指的是一个词在文章中出现的次数;idf是inverse document frequency的缩写,中文翻译成逆文档频率,idf越大,表示这个词在其他文章中出现的次数很少,说明这个词有很好的分类能力。分别使用tf/idf算法计算出两个文章后,生成一个内容特征向量。如果两个文章的特征向量相似,则搜索引擎认为这两个文章的内容相似。如果两个特征向量相同,则认为两个文章是重复的。2、 信息指纹技术是指搜索引擎截取一段文本信息,然后根据这组词调用特殊的算法,如md5,将其转换成一组代码,而这组代码成为识别信息指纹。如果两个文章的信息指纹相同,则搜索引擎认为这两个文章是重复的。该信息可以是标点符号、单词或句子或段落。通常一张文章会对应多个信息指纹,所以网络营销认为简单的换词(同义/反义)、打倒段落顺序等,伪原创是骗不了搜索引擎的。3、文章 与网站主题的相关性百度等搜索引擎在收录网站时已经划定了每个网站的主题范围。如果一个文章的话题和整个网站的话题关联度很低,比如你的网站是化妆品评测网站,但是有一篇文章的文章讲挖掘机的性能. 与整个网站主题无关的文章也很容易被搜索引擎视为重复内容。搜索引擎喜欢原创的独特内容。也提醒站长注意关键词部署相关的话题,与网站无关文章 或者如果网页占据一定范围,可能会触发搜索引擎的反作弊机制,而且功率会降低甚至k个站。< @4、参考秒搜索率、跳出时间等数据确定伪原创文章,特别是程序生成的伪原创文章,其阅读体验很穷的。可以想象,如果用户在搜索时点击了这种文章,他肯定会快速跳出页面,点击其他搜索结果,或者搜索其他关键字。搜索引擎使用数据来监控用户的这种行为,也可能判断这个文章是伪原创文章。他肯定会快速跳出页面,点击其他搜索结果,或者搜索其他关键字。搜索引擎使用数据来监控用户的这种行为,也可能判断这个文章是伪原创文章。他肯定会快速跳出页面,点击其他搜索结果,或者搜索其他关键字。搜索引擎使用数据来监控用户的这种行为,也可能判断这个文章是伪原创文章。