搜索引擎优化论文([关键词]信息检索中文搜索引擎存在的问题和发展的方向)
优采云 发布时间: 2021-11-09 20:20搜索引擎优化论文([关键词]信息检索中文搜索引擎存在的问题和发展的方向)
[摘要] 搜索引擎是人们利用互联网信息资源的重要工具。本文对当前的中文搜索引擎进行简要分析,指出其存在的缺陷和发展方向。
[关键词] 中文搜索引擎信息检索问题的发展方向
随着互联网信息资源的快速增长,如何在海量的信息海洋中准确、方便、快捷地找到自己需要的信息,成为亟待解决的问题。1995年出现的信息检索工具——搜索引擎,很好的解决了这个问题。但是,各种搜索引擎,尤其是还处于发展初期的中文搜索引擎,还有很多不足需要改进。本文旨在分析中文搜索引擎存在的主要问题,并提出一些解决这些问题的建议和方法。
一、搜索引擎的概念和类型
搜索引擎又称搜索引擎,是指运行在互联网上,以信息资源为对象,以信息检索的形式为用户提供所需数据的服务系统。它主要包括信息访问、信息管理和信息检索三部分。
目前,中文搜索引擎主要分为三大类:目录搜索引擎、机器人搜索引擎(也称为全文搜索引擎)和元搜索引擎。
1. 目录搜索引擎。目录搜索引擎手动或半手动采集信息,并建立数据库。编辑访问一个网站后,对网站进行描述,并根据网站的内容和性质将网站划分为一个预先划分的Category。由于目录搜索引擎的信息分类和信息采集有人的参与,其搜索准确度高,导航质量也好。但由于其人工干预、维护量大、信息量小、信息更新不及时,人们只能有限地使用它。国内著名的新浪、搜狐、中国雅虎都属于这一类型。
2.机器人搜索引擎。这是目前广泛使用的搜索引擎。国内以百度、谷歌、天网为代表。它使用自动采集软件Robot来采集和发现信息,并将其下载到本地文档库中,然后对文档内容进行自动分析和索引。对于用户提出的检索请求,通过检索模块检索索引,找到匹配的文档返回给用户。
机器人搜索引擎拥有庞大的全文索引数据库。其优点是信息量大、范围广,更适合搜索难以查找的信息或一些模糊的主题。缺点是缺乏清晰的层次结构,搜索结果重复,需要用户自行过滤。
3.元搜索引擎。元搜索引擎是调用其他搜索引擎的引擎。它使用统一的用户界面来帮助用户在多个搜索引擎中选择和使用合适的搜索引擎来实现检索。中国元搜索引擎还不够发达,也不够成熟。万维搜索是目前具有一定影响力的中文元搜索引擎。
二、现阶段中文搜索引擎存在的主要问题
1. 信息覆盖范围有限。现阶段,搜索引擎覆盖的数据库规模非常有限。据美国科学杂志《自然》报道,世界上最大的搜索引擎只能覆盖现有网页的 16%。中文搜索引擎在这方面尤其突出,因为它们起步较慢,而且中文信息在所有互联网信息中的比例很小(仅占所有在线信息的 5%)。
2. 搜索率不高。召回率是指检索到的相关信息量占检索系统中存储的所有相关信息量的百分比,是判断检索系统质量的指标之一。
中国绝大多数网站组织的信息大多是通过浏览获得的。即使网站精心组织,排列非常合理,70%到80%的网页也无法被搜索引擎检索到。中文目录搜索引擎由于人工干预和大量维护,在这方面有显着的表现。
3.准确率低。准确率是判断检索系统好坏的重要尺度。它是指系统检索到的与查询内容实际相关的文档占检索到的文档总数的百分比。
准确率低的原因是部分搜索引擎的分类体系与科学知识体系缺乏内在联系;类别之间的模糊逻辑关系导致搜索路径与搜索引擎类别错位;信息处理深度不够;搜索功能单;搜索词的特异性差;搜索结果大多是书目而非全文,内容简单等。机器人搜索引擎的分类索引缺乏人为参与,准确性不及目录搜索引擎,搜索结果中也收录大量重复和虚假信息。
4.专业搜索引擎发展缓慢。专业搜索引擎是专门针对收录某个行业、某个话题的信息,可以提供专门的信息查询服务的搜索引擎。目前大部分中文搜索引擎都是综合性的,能够同时收录多个行业和学科的多种信息,但很难全面准确地反映某个行业或某个主题的信息。用户提供特定的信息服务。这使得专业人士,尤其是某一领域的学者和专家,不愿意使用中文搜索引擎来查询信息。
5. 搜索功能有缺陷。一是搜索引擎中满足布尔逻辑运算符的搜索极其有限;二是关键词的搜索输出结果相关度排序比较杂乱,无法根据用户需求选择信息输出方式;第三是大多数搜索引擎都是面向主题的搜索而不是面向用户的搜索。您无法重复使用检索到的结果,更不用说跟踪特定用户了。四、搜索首页网站不规范,有的太简单有的太复杂,广告太多,无法有效检索。三、中文搜索引擎的发展方向
1.提高召回率。首先是开发分布式系统的需要。这种系统可以将每一个联系人作为一个新的信息资源,扩展数据库的规模。新兴的元搜索引擎就属于这种系统。接收到用户的查询命令后,可以同时使用多个搜索引擎进行查询。; 二是将专业数据库资源纳入搜索范围。除了Web信息资源,互联网上还有大量的非Web信息资源,如在线检索系统、CD检索系统、专业数据库系统等。例如,中文搜索引擎可以将这些 Web 和非 Web 资源结合起来。即使有些只能找到参考书目、摘要等,
2.提高准确率。需要解决以下难点:一是要完善搜索引擎的信息过滤功能。网络信息集中采集后,搜索引擎需要对这些信息进行识别和过滤,即去除大量无用信息,提取和聚合有效信息;二是对专家信息进行过滤检索和索引,给出相关标识符号,如关键词、分类号、主题词等。关键是利用智能搜索技术提高准确率;将搜索结果存储在相应的数据库中,在URL与互联网之间建立链接,供用户使用;
3.建立垂直专业领域的搜索引擎。网络用户从事的职业千差万别,不同的用户往往对信息搜索有不同的要求。综合搜索引擎收录的范围太广太大,无法满足特定需求。垂直专业搜索引擎可以解决这个问题。它只面向特定领域,专注于自己的专长和核心技术,可以保证收录在该领域的信息完整、快速更新。在提供专业信息方面,拥有大型综合搜索引擎无法比拟的优势,使用的技术也更为成熟。
中国垂直专业搜索引擎的发展取得了一定的成功,如新浪的新闻搜索、博客搜索、雅虎的个性化旅游路线搜索、百度的MP3搜索、谷歌的学术搜索、航班搜索等。更好的搜索功能为以后的进一步发展奠定了基础。
4. 搜索引擎的智能化发展。智能搜索引擎是未来搜索引擎的发展趋势。您可以通过自然语言与用户进行交互,最大程度地了解用户的需求。智能检索体现在搜索引擎技术的智能化,研究重点是自然语言处理技术和人工智能技术;另一个体现在搜索引擎对搜索者的智能,它致力于通过分析搜索搜索者的搜索和浏览行为了解搜索者的需求,利用搜索引擎现有的服务有选择地为搜索者提供提供个性化服务。
5.加强搜索引擎的搜索功能。一是要加强全文搜索功能。使用Robot实现对网站页面文字内容的全面检索技术。与目录搜索相比,全文搜索提供了全新的搜索功能,可以直接根据文档内容进行搜索,支持多角度、多方面的信息资源综合利用。全面、准确、快速是衡量全文搜索系统的关键指标;同时,完善用户搜索界面,设计简洁明了的界面,引导用户进入搜索状态;为了使用更方便实用的搜索技巧,中文搜索引擎需要简化和统一语法规则,如使用布尔逻辑搜索符号:空格或“*”代替“and”,“+”代替“or”,“-”代替“not”,规范语法符号,节省用户搜索时间;还需要开发图像、声音、图片和电影的搜索引擎。
6. 改进元搜索引擎。元搜索引擎弥补了独立搜索引擎不完整的特点,提高了检索的综合性。已经开发的中文元搜索引擎数量很少,还存在很多不足,需要各方面进一步完善。
元搜索引擎应该对每个独立的信息特征进行更详细的调查,以确定收录的范围;在目标搜索引擎的组织上突出独立搜索引擎的检索特征,设计各个搜索引擎检索方式之间的转换算法,提高用户检索行为的针对性;建立更加灵活和面向用户的信息检索服务。搜索界面要统一友好,搜索方式设置要为用户提供更多的自由空间,让用户可以根据自己的意愿组织搜索公式;在显示搜索结果时,应开发出有效的搜索结果,去除重复项。,选择,排序和优化算法,
参考:
[1]孙建军成英:信息检索技术[M].北京:科学出版社,2004
[2]王峰:国内中文搜索引擎研究[J].网络通信与安全,2007,(8)