搜索引擎进行信息检索的优化策略方法(计算机文献检索的基本方法与策略(计算机信息检索)(图))
优采云 发布时间: 2021-09-03 19:16搜索引擎进行信息检索的优化策略方法(计算机文献检索的基本方法与策略(计算机信息检索)(图))
计算机文献检索的基本方法和策略
计算机信息检索本质上是计算机将输入的检索策略与系统中存储的文档特征标识符及其逻辑组合关系进行比较匹配的过程。由于信息需求的不确定性,无法充分了解数据库中文档的特性,以及系统功能的某些限制,搜索结果都会受到不同程度的影响。但是,只要遵循一定的搜索步骤,制定好的搜索策略,就可以减少各种不利因素的影响,尽量使搜索问号与信息需求和搜索系统保持良好的一致性,使搜索可以满足系统中的要求。用户需求信。
1.检索步骤
(1)明确信息需求,明确检索目的
信息需求是人们对各种情报信息的客观或主观需求。这种需求是人们获取信息的出发点,也是在线信息检索中选择数据库、确定检索策略和评价检索效果的依据。不同类型的主题有不同的范围和程度的信息需求。例如,发明申请、成果奖励申请、评审、项目创作等,往往需要对某一学科范围的文献信息进行综合采集。此类主体具有普查性和可追溯性,应重点调查;而对于科学研究,为了解决生产中的某个具体问题,往往只要求检测到的信息对自己的研究有帮助,检索的文献范围不需要很广。因此,这类题目要求准确。
如何正确分析信息需求?不妨从信息需求的形式和内容两个方面来分析。需要明确信息形式的问题有:
①明确检索目的。搜索是申报结果,还是了解学科的最新动态等,以此为基础制定符合检索或准确度要求的检索策略。
②明确所需文献数量。指定所需文档数量的上限是确定搜索策略和控制未来搜索成本的一个非常重要的参数;同时,还需要估计搜索主题可能可用的相关文档数量。
③明确所需文件的语言、年龄范围、类型、作者或其他*敏*感*词*也很重要。
信息内容要求需要明确的主要问题有:
①明确检索学科内容涉及的主要学科范围,这对今后选择合适的数据库非常重要。
②分析搜索主题的主要内容,用自然语言表达这些内容需求,这是在线搜索中比较重要的环节。
(2)选择数据库并确定搜索路径
分析信息需求后,可以根据已知条件选择合适的数据库。这一步意味着检索系统的选择。如果要检索国外专利文献,可以检索国内BDSIRS系统的GWZL库。但是,其最新专利文献的检索渠道和报告不如美国DIALOG系统的WPI数据库。当搜索要求较高时,常使用美国DIALOG系统。
选择数据库时,首先要了解:
①数据库收录信息涉及的主题字段;
②收录文档类型,最好详细了解文档的主要来源;
③收录时间范围;
④数据库的基本索引和辅助索引,它们提供的检索路径以及检索标识的特点;
⑤数据库的检索费,包括计算机时间费和每条记录的打印费。
选择数据库后,它提供的搜索路径也确定了,可以根据已知条件确定一个或几个搜索路径。由于计算机存储容量大,计算速度快,索引的领域较多,不仅可以从手查中经常使用的主题词、分类号和作者进行搜索,还可以从论文的空闲词中搜索。标题和摘要、文献类型、期刊名称等多种检索方式,还可以通过多种方式组合进行交叉检索,是人工检索无法实现的。
(3)确定主题的概念构成和搜索标识
明确信息需求,了解搜索主题的主要内容后,确定其概念构成和搜索标识是重要的一步。当一个搜索主题收录比较复杂的主题内容时,需要明确构成该主题内容的几个概念组,通过一定的逻辑组合形成一定的复合概念或概念关系,来表达用户的信息需求。
主题的概念构成确定,必须将概念构成转化为系统识别的相应搜索标记。检索标记的表述应满足两方面的要求。一个是相关的,即搜索标记反映信息需求;二是匹配,即搜索标记与搜索系统的存储特征标记一致。
一般来说,检索标识有以下三种形式:
①常规词:从待查数据库的词库或主题词库中选取规范的词或词组,因为词汇是数据库索引和检索必须使用的搜索语言。为了使搜索问号与文档特征标记一致,获得最佳搜索结果,应先选择标准词。
②标准化代码:索引代码是数据库系统为某些学科类别或学科概念规定的索引单位。这种单元具有较好的特异性,是一种检索效果较好的文档特征标记。例如国际专利分类号IC=、PTS数据库的产品代码PC=、标准工业代码SC=等。
③自由词:使用自由词搜索可以充分利用系统的全文搜索功能。标准词或代码的选择需要使用词汇表或分类表将自然语言转换为标准语言,当索引者和搜索者的想法不一致时,搜索效果也会受到影响。这时,在标题、摘要甚至全文检索中使用自由词就显示出一定的优势。直接简洁的自由词易于被科技人员接受和常用。
④拟定检索问题表,确定具体检索程序
搜索问题类型是指计算机信息检索中用于表达用户搜索问题的逻辑表达式。它由搜索词、各种布尔逻辑运算符、位置运算符以及系统指定的其他组合和连接符号组成。从某种意义上说,检索风格是检索策略的具体体现,其质量将关系到检索策略的成败。
搜索标记确定后,下一步就是将搜索标记以一定的组合关系连接起来,形成搜索问题式,表达各种复杂的概念关系,准确表达信息需求。注意各种逻辑运算符、位置运算符、截断运算符等的使用,例如位置运算符的紧密程度和顺序,还要考虑每个搜索项的限制要求和输入顺序,以及反馈信息。要调整搜索公式,请参阅搜索策略部分。
2.搜索策略
(1)搜索策略的概念
所谓搜索策略,就是在对主题内容的概念单元进行分析的基础上,确定搜索系统、搜索文档、搜索方法和搜索词,并科学安排搜索词之间的位置关系和逻辑关系和搜索步骤等等。搜索策略是否综合考虑直接影响文献的查全率和查准率。
(2)制定搜索策略的步骤
制定搜索策略的前提是明确数据库和整个搜索系统的基本性能。不同数据库的收录内容、索引方式和检索方式不同,不同的检索系统配备的技术性能和操作人员也不同。在制定搜索策略之前,有几种方法可以搜索数据库,而这些方法的索引规则必须对规则有清楚的了解。如果问题格式中列出了系统没有的接入点,则无法查阅文献。
(3)制定搜索策略的基础是明确搜索主题的内容要求和目的。在此基础上可以进行搜索主题的概念分析。如果主题是单一的概念,会用单个检索词来表达。如果主题的概念比较复杂,把复杂的概念分解成几个概念单元,然后用逻辑运算符匹配表达概念单元的检索词。当把概念单元转换成搜索词,尽量使用规范词。搜索新话题、边缘主题或模糊概念时要特别小心,因为这些词往往没有收入系统。这里,我们应该选择关键词即免费词在专业类别中具有搜索意义的主题,否则会导致误检或漏检。
(4)搜索策略的关键是正确选词,配备逻辑符号。
(5)调整搜索策略。在电脑搜索中,经常出现文档太少或零,或文档太多。作为搜索者,应该和用户一起分析,及时调整搜索策略,以便使检索达到满意的结果。文献资源过多或过少,可通过增加检索项,结合布尔逻辑来增加或减少检索范围,达到减少或增加数量的目的命中。通常。换句话说,逻辑总是缩小检索范围以达到准确检索的目的;逻辑或总是扩大检索范围以达到检索的目的。但逻辑并不总是排他检索,缩小范围检索,达到准确检索的目的。
3.搜索效率
检索效率是使用检索系统(或工具)进行检索服务时产生的有效结果。它直接反映检索系统的性能,影响系统在信息市场上的竞争力和用户的利益。检索效率包括两个方面:社会经济的技术效果和经济效果3233363533e59b9ee7ad94337。技术效果主要是指系统的性能和服务质量,以及系统满足用户信息需求的程度。社会经济效应是指系统如何经济有效地满足用户的需求,从而使用户或系统本身获得一定的社会效益和经济效益。下面主要讨论系统技术效果的评价。
在搜索中,理想的情况是recall和precision都达到100%,即数据库中收录的所有相关文档都被搜索过,检索到的文档都是相关文档。但实际上,搜索中的因素很多,导致这个指标难以实现,而且总是存在一定的错误。那么评价误差有两个指标:漏检率和误检率。
在评价工作中,查全率和查准率是最常用的,应该同时使用,否则难以体现检索系统的功能和检索结果的效率。查准率和查全率的结合描述了系统的检索成功率、查全率和查准率之间的倒数关系,即查全率提高,查准率下降,反之亦然。在计算机检索中,一般认为准确率为60-70%,召回率为40-60%。
系统的收录范围、索引语言、索引和检索都是影响召回率和准确率的因素,这里不再赘述。
4.提高检索效率的措施
(1)提高图书馆的编辑质量,使其收录更全面,更符合相应学科或专业的需求,描述更详细准确。
(2)提高索引质量,索引前后要一致,用词要得体,组合要合理,力求:正确揭示主题,好标准;充分体现主题,不达标;使用简明扼要 不滥用商标。
(3)提高索引语言的专一性和词汇质量。加强索引词汇的把控,改善词汇的结构及其引用关系,使索引语言不仅有利于家族索引,也有利于特征检索。词汇结构要完善,词之间的关系要正确,同义词和多义词要正确控制,新学科和新技术的术语要及时反映.
(4)提高搜索者的工作水平和能力,了解数据库内容并加深对词汇结构的理解,做出正确的主题分析,选择合适的搜索文档,选择合适的搜索词条来表达搜索主题内容,进行适当的逻辑组合,找到最佳搜索方法,进而制定最佳搜索策略。
(5)调整召回率和准确率。
在实际搜索中,可以合理调整召回率和准确率,根据不同的搜索需求,搜索结果最大程度满足搜索需求。在实际检索中,有时召回率很高,希望不要漏掉任何相关文档,但准确率低一点;而且有时候只需要检查一些新的重要的文章,并不是全部都需要,这里需要较高的准确率,较低的召回率就可以了。总之,检索时应合理调整查全率和查准率,以达到最佳检索效果。