搜索引擎进行信息检索的优化策略方法(基于词典的分词算法和基于规则检索的用户浏览行为信息及)
优采云 发布时间: 2021-11-13 15:03搜索引擎进行信息检索的优化策略方法(基于词典的分词算法和基于规则检索的用户浏览行为信息及)
概括
随着互联网技术的飞速发展,在线信息量急剧增加。
使用信息变得越来越困难。目前,人们使用搜索引擎来检索互联网上的信息。传统搜索
国外谷歌、雅虎、国内百度、天网等引擎发展迅速。截至 2010 年
2008年6月,中国网民规模增至4亿,使用搜索引擎的网民比例超过70%。
国外搜索引擎使用率较高,搜索引擎市场前景广阔。
但是,一般搜索引擎的结果是针对大多数用户的。当搜索词相同时,结果返回给用户
结果是一致的。事实上,随着年龄、性别、教育背景、专业等不同,不同的用户
单词搜索中的兴趣点不一致。个性化搜索引擎尝试分析文档结构、用户浏览行为信息
文档信息和用户评价信息,建立用户兴趣模型,引导搜索引擎查询结果
并对结果进行排序,尽量满足每个用户的需求。
本文主要在搜索引擎中实现三个功能:1、中文分词技术。2、实现用户
推荐功能。3、 实现了个性化搜索,更适合根据不同用户兴趣返回同一个查询。
用户兴趣点的结果。
中文分词是自然语言处理的一个范畴,是搜索引擎查询和索引的基础。目前
中文分词算法常用的有基于词典的分词算法、基于统计的分词算法和基于规则的算法。
分词算法。基于字典的分词算法设计思路简单,被大多数程序员使用。但
中文分词有两大难点,二义性的消除和未注册词的识别。经过多位学者
努力还没有能够完美地解决这个问题。本文中的分词算法是原分词算法的一部分
改进以提高分词的准确性。
在用户使用搜索引擎检索的过程中,查询词是用户与搜索引擎交互的唯一手。
部分。查询的准确性直接关系到用户搜索结果的准确性。但是,大多数用户无法
描述你遇到的问题,所以会影响返回的结果。用户推荐的一个很好的解决方案
为解决这个问题,当用户输入查询限制时,首先通过中文分词技术将字符串切割成词
语言,然后根据用户的关联规则推荐给用户返回更多语义相关的查询结果
选择或参考。
个性化检索是指通过挖掘用户兴趣信息,建立合理的模型来表示和管理用户
兴趣,并通过不断的更新和维护,逐步优化模型,使其能够准确反映用户的兴趣和需求,
为后续的搜索工作提供个性化的分析依据。包括用户搜索到的关键词,以及搜索结果
点击结果,每个网站浏览行为,书签状态等,搜索引擎已经掌握了这些用户信息
分析,当用户搜索新的关键词时,可以返回更有针对性的搜索结果,从而提高用户友好度
用户体验。
论文的创新点在于:
1)自己设计了中文分词核心词典,收录了119803个常用中文词。
1015 机器术语。新词词典是计算机程序的主动学习。未注册的词不断添加。新的
单词。新词词典用于存储未注册词和分词时出现的歧义词。
扩充字典。本文实现的中文分词提高了现有分词算法的准确率。
2) 在通用搜索引擎实现技术的基础上,加入用户兴趣模型,实现个性化
搜索技术。用户兴趣模型的建立就是通过网络日志挖掘技术挖掘用户的历史
浏览记录和浏览行为,基于群组环境,查找相似用户,并使用相似用户的搜索结果
或类似用户的兴趣,以扩大所处理信息的广度和准确性。
关键词:搜索引擎;用户推荐;中文分词;琉森;阿贾克斯
抽象的
随着互联网上可用的信息量呈指数级增长,
越来越多地检索感兴趣的文件的任务变得困难。目前
搜索引擎是大多数人获取信息的便捷高效方式
互联网用户。传统的搜索引擎,比如谷歌,