搜索引擎进行信息检索的优化策略方法(基于词典的分词算法和基于规则检索的用户浏览行为信息及)

优采云 发布时间: 2021-11-13 15:03

  搜索引擎进行信息检索的优化策略方法(基于词典的分词算法和基于规则检索的用户浏览行为信息及)

  概括

  随着互联网技术的飞速发展,在线信息量急剧增加。

  使用信息变得越来越困难。目前,人们使用搜索引擎来检索互联网上的信息。传统搜索

  国外谷歌、雅虎、国内百度、天网等引擎发展迅速。截至 2010 年

  2008年6月,中国网民规模增至4亿,使用搜索引擎的网民比例超过70%。

  国外搜索引擎使用率较高,搜索引擎市场前景广阔。

  但是,一般搜索引擎的结果是针对大多数用户的。当搜索词相同时,结果返回给用户

  结果是一致的。事实上,随着年龄、性别、教育背景、专业等不同,不同的用户

  单词搜索中的兴趣点不一致。个性化搜索引擎尝试分析文档结构、用户浏览行为信息

  文档信息和用户评价信息,建立用户兴趣模型,引导搜索引擎查询结果

  并对结果进行排序,尽量满足每个用户的需求。

  本文主要在搜索引擎中实现三个功能:1、中文分词技术。2、实现用户

  推荐功能。3、 实现了个性化搜索,更适合根据不同用户兴趣返回同一个查询。

  用户兴趣点的结果。

  中文分词是自然语言处理的一个范畴,是搜索引擎查询和索引的基础。目前

  中文分词算法常用的有基于词典的分词算法、基于统计的分词算法和基于规则的算法。

  分词算法。基于字典的分词算法设计思路简单,被大多数程序员使用。但

  中文分词有两大难点,二义性的消除和未注册词的识别。经过多位学者

  努力还没有能够完美地解决这个问题。本文中的分词算法是原分词算法的一部分

  改进以提高分词的准确性。

  在用户使用搜索引擎检索的过程中,查询词是用户与搜索引擎交互的唯一手。

  部分。查询的准确性直接关系到用户搜索结果的准确性。但是,大多数用户无法

  描述你遇到的问题,所以会影响返回的结果。用户推荐的一个很好的解决方案

  为解决这个问题,当用户输入查询限制时,首先通过中文分词技术将字符串切割成词

  语言,然后根据用户的关联规则推荐给用户返回更多语义相关的查询结果

  选择或参考。

  个性化检索是指通过挖掘用户兴趣信息,建立合理的模型来表示和管理用户

  兴趣,并通过不断的更新和维护,逐步优化模型,使其能够准确反映用户的兴趣和需求,

  为后续的搜索工作提供个性化的分析依据。包括用户搜索到的关键词,以及搜索结果

  点击结果,每个网站浏览行为,书签状态等,搜索引擎已经掌握了这些用户信息

  分析,当用户搜索新的关键词时,可以返回更有针对性的搜索结果,从而提高用户友好度

  用户体验。

  论文的创新点在于:

  1)自己设计了中文分词核心词典,收录了119803个常用中文词。

  1015 机器术语。新词词典是计算机程序的主动学习。未注册的词不断添加。新的

  单词。新词词典用于存储未注册词和分词时出现的歧义词。

  扩充字典。本文实现的中文分词提高了现有分词算法的准确率。

  2) 在通用搜索引擎实现技术的基础上,加入用户兴趣模型,实现个性化

  搜索技术。用户兴趣模型的建立就是通过网络日志挖掘技术挖掘用户的历史

  浏览记录和浏览行为,基于群组环境,查找相似用户,并使用相似用户的搜索结果

  或类似用户的兴趣,以扩大所处理信息的广度和准确性。

  关键词:搜索引擎;用户推荐;中文分词;琉森;阿贾克斯

  抽象的

  随着互联网上可用的信息量呈指数级增长,

  越来越多地检索感兴趣的文件的任务变得困难。目前

  搜索引擎是大多数人获取信息的便捷高效方式

  互联网用户。传统的搜索引擎,比如谷歌,

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线