从文本匹配、词库扩充以及文本处理三个方面解决

优采云 发布时间: 2021-08-08 01:05

  从文本匹配、词库扩充以及文本处理三个方面解决

  网站内容维护时间长了就会发现内容的重复率越来越高,这是为什么呢?所以我们一定要在有限的条件下尽可能的避免内容的重复。个人认为可以从文本匹配、词库扩充以及文本处理三个方面来解决这个问题。不要一开始设置一个密码可以给网站添加两个秘钥,其中一个秘钥用来缓存加密,当用户在访问同一条新闻消息的时候,另一个秘钥会为他提供参数,让他输入密码。

  这样就避免了重复文本的发生。设置两个秘钥可以让每个用户使用其中一个秘钥来验证,也可以让他在输入密码时注意不要加入新的文本。再来就是词库的扩充,加入很多不同领域的词汇,只要他们的领域不一样,那么网站上产生的新词就会有很多。词库的扩充可以以瀑布流来做示例,搜索一个热点词汇,点击瀑布流进入篇首词,这里暂时考虑的就是我的直接技术的思想,如果以后不想说的这么详细,我后续再对前面的解释进行补充。

  在登录或者你上了新闻时可以让用户添加新的昵称或者个人域名,这样就能让用户自己记住自己,接下来的页面就再也不会重复。词库的扩充是长期的,每个功能在单个阶段都有很多都可以扩充词库的方法,这样就不需要增加新的秘钥,确保了网站的系统安全。文本处理这里以手机端的文本处理为例,其他阶段应该也类似。用文本去匹配关键词、主题词等内容,通过文本找到相似的页面,文本的内容搜索同行内容进行再次匹配。

  这样就可以排除掉重复的文本。在去除重复词的时候我们可以使用robot抓取其关键词、关键词的主题等资源。获取到第一个匹配的页面以后,在跳转到第二个页面的时候加入一个from...to...关键词,这样再对第二个页面做同样的设置,循环往复就可以看到所有重复的页面了。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线