信息检索系统期末考试问题库简介

优采云 发布时间: 2020-08-07 15:00

  一个多项选择题

  1. 以下哪项不是信息检索的关键技术? (B)

  A. 信息提取

  B. 文字挖掘

  C. 自动摘要

  D. 链接分析

  2. TREC测试仪主要包括3个部分. 以下选项不属于TREC测试集: (C)

  A. 主题

  B. 文件采集

  C. 关键字

  D. 相关性判断

  3. 向量空间模型,布尔模型和概率模型的错误表达式是: (D)

  A. 向量空间模型比布尔模型具有更大的优势

  B. 向量空间模型无法揭示索引项之间的关系,因此向量空间模型在理论上仍然不够完善

  C. 布尔模型是最早提出的信息检索模型

  D. 概率模型也称为二进制独立检索模型. 为解决基于向量空间模型的检索中的一些不确定性而引入.

  4使用文档所附参考文献进行搜索的方法称为(A)

  A. 追溯法

  B. 直接法

  C. 抽查方法

  D. 综合方法

  5. 逻辑“和”运算符用于将()分组在一起

  A. 不同的检索概念,用于扩大检索范围

  B. 类似的搜索概念可扩展搜索范围

  C. 不同的搜索概念,用于缩小搜索范围

  D. 相似的搜索概念,缩小了搜索范围

  6. 在“中国学术期刊全文数据库”中,不允许()搜索

  A. 逻辑与

  B. 逻辑或

  C. 逻辑非

  D. 位置

  7. 如果要提高“中国学术期刊全文数据库”中搜索结果的准确性,可以使用()

  A. 搜索结果

  B. 优先运算符

  C. 或

  D. 位置搜索

  9. 下列哪个搜索公式是逻辑“与”? (B)

  A. 室内装修+户外装修B.音乐﹡教学

  C. 神雕侠侣电视连续剧D.火星金星

  10. 以下不是查询构造方法的一部分: ()

  类别查询

  B单词查询

  C布尔查询

  D上下文查询

  11. PageRank算法的理论基础是随机冲浪模型,该模型描述了Web用户在网页上的行为. 以下不是用户访问行为的特征: ()

  用户A选择的起始页面是固定的

  B用户将从起始网页中收录的超链接中随机选择一个页面,以继续浏览

  C当用户使用超链接访问一定数量的网页时,他们可能会对此主题感到厌烦. 此时,用户将随机选择一个网页以再次浏览

  D用户将重复上述过程几次

  12. 信息过滤系统是将信息过滤技术应用于处理信息的应用系统. 以下有关其特征的陈述是错误的: ()

  信息过滤系统是为非结构化或半结构化数据设计的信息系统,与传统的数据库应用程序本质上有所不同

  B信息过滤系统仅处理文本信息

  C信息过滤系统通常处理的数据是输入信息流

  D信息过滤系统应包括一组用户过滤要求的描述

  13. “中国学术期刊全文数据库”提供了文献内容特征的检索方法()

  A. 机构

  B. 标题/关键字/摘要

  C. 中文期刊标题

  D. 作者

  14. 维护反向文件通常需要执行的操作包括(D)文档或文档集合.

  A. 插入B.插入和删除C.删除D.插入,删除,更新

  15. 单个查询是指由()组成的查询. ()

  单词B.单词或短语C.单词D.单词或句子

  16. 以下哪项不是863信息检索评估中使用的评估指标(D)?

  A: MAP B: R精度C: P @ 10 D: MRP

  16. 以下哪个不是歧义符号(D)

  A: 句号

  B: 使徒

  C: 连字符

  D: 分号

  17. 以下哪个符号可用于形成复合词()

  一个时期

  B撇号

  C连字符

  D其他符号

  18. 以下哪个不是基于理论基础(D)的不同划分的信息检索模型

  A: 布尔模型B: 向量空间模型C: 概率模型D: 统计语言模型

  19. 下列哪种算法是众所周知的集合选择算法? (B)

  A. KMP

  B. CORI

  C. BM

  D. 高炉

  20. 以下哪个语句是正确的()

  A. 形态恢复正在发生,即去除屈折语言的结尾的形态变化并将其减少为

  单词的原创形式

  B. 系统检索到的相关文档的位置越高(等级值越小),可以使用MRR

  能量越高

  C. 概率模型可以采用相关的反馈原理,从理论上可以开发出更可靠的方法

  D. 向量空间模型是最早提出的信息检索模型

  21. 以下哪个公式计算平均排名倒数(MRR)是正确的()

  n n k q M R R A n q ∑ == 11 ..

  ∑ == r i i r M R R B 1i 1 ..相对文档位置编号)(1111

  .. L r MRR Cβ-=

  )(1)(1

  1..11L R M MRR Dββ-

  = 22.在信息检索模型中,()是最早提出的信息检索模型()

  向量空间模型

  B概率模型

  C扩展模糊集模型

  D布尔模型

  47. 知网是基于(A)的以英文和汉字为抽象对象的概念

  在本单元中,这是一个常识知识库,其基本内容是显示概念之间以及概念属性之间的关系

  A字节,B字段,C字,D位

  23. 关于向量空间模型的优势,错误的陈述是: (D)

  搜索结果的相关性排名

  B可以控制输出结果的数量

  C可以提供相关反馈

  D揭示了索引项之间的关系

  24. (D)以下哪个选项不属于信息检索模型?

  A: 布尔模型B: 向量空间模型

  C: 概率模型D: 实数类型

  25. 准确率和召回率分别表示为(A)

  A. 相关文档数与已签出文档数之比,系统已签出相关文档数与实际相关文档数之比

  B. 系统签出的相关文档数与实际相关文档数之比,以及相关文档数与已签出文档数之比

  C. 签出单据数与相关单据数之比,关联单据数与签出单据数之比

  D. 相关文档数与已签出文档数之比,已签出文档数与相关文档数之比

  26. 以下内容不是查询构造方法(C)的一部分

  A. 单个单词查询B上下文查询C相邻单词查询D布尔查询

  27. 查询处理技术中有三种查询扩展方法: 单个查询,跟随查询和D

  A,词​​组查询

  B,相邻单词查询

  C,反馈查询

  D,布尔查询

  28. TREC测试集主要包括文档采集②主题③相关性判断④企业检索任务()A①②B①③C①②③D①②③④

  29. 按顺序检索文档的五个常用步骤是(D)

  A. 明确要求并分析主题,选择检索系统,获取原文,确定检索路径和检索策略,实施检索并调整检索策略

  B. 明确要求并分析主题,获取原创文本,确定搜索方法和搜索策略,实施搜索并调整搜索策略以选择搜索系统

  C. 明确要求和分析主题,实施搜索和调整搜索策略,选择搜索系统,获取原创文本,确定搜索路径和搜索策略

  D. 明确要求并分析主题,选择搜索系统,确定搜索渠道和搜索策略,实施搜索,调整搜索策略并获取原创文本

  30. 万方数据库使用布尔逻辑运算符和/或/不使用. 其中,A和B表示(A)A: 查找收录A和B,B的文档;查找A和B文档之一,C: 查找带有A而没有B的文档.

  31. (C)应该在具有概念交叉限定关系的两个搜索词之间使用

  A. 逻辑或

  B. 逻辑否定

  C. 逻辑与

  D. 优先级

  32. 形成搜索策略时,应使用(A)运算符组合具有相同含义的同一个家族的同义词或单词.

  A. 逻辑与

  B. 逻辑或

  C. 逻辑非

  D. 位置

  33. 关于万方数据资源,正确的是(A)

  A: 关注科技信息,涵盖经济,金融和文化信息

  B: 主要是经济信息,涵盖技术,金融和人文信息

  C: 关注金融信息,涵盖人文,经济和技术信息

  D: 主要是人文信息,涵盖财务,经济和技术信息

  34. 在Lucene中建立索引的主要步骤不包括()

  文件分析

  B内容分析

  C得出结论

  D生成索引

  35. 以下哪项是典型的基于分区的聚类方法()

  k均值算法

  B朴素贝叶斯算法

  C决策树算法

  D统计方法

  36. 以下哪项不属于应用于信息过滤的统计模型()

  向量空间模型

  B布尔模型

  C语言模型

  D相关模型

  37. 以下是信息检索中的关键技术()

  信息融合

  B信息提取

  C处理多源信息

  D主题检测和跟踪

  38. 信息检索的以下基础研究主题是()

  文本挖掘

  B对抗性信息检索

  B数字图书馆D基因信息检索

  39是向量空间模型()的缺点

  测试结果的相关性排名

  B可以控制产量和数量

  C可以提供相关反馈

  D认为索引项彼此独立,无法建立词与词之间的关系

  40. 以下内容不是文本操作技术中的分词操作技术的一部分()

  一个时期

  B撇号

  C连字符

  D未注册的单词识别

  41. 信息检索系统需要事先做一些准备工作,这两项准备工作是(B)

  信息的采集和分类

  B信息采集和处理

  信息的C分类和索引D信息的分类和摘要

  42. 信息检索的处理对象是(C)

  A结构化信息B信息采集C非结构化信息D相关信息

  43. 以下不是基于语言模型的检索模型(D)

  A. 查询相似性模型

  B. 统计翻译模型

  C. 风险最小化模型

  D,隐式语义索引模型

  44. 尝试通过统计和概率论对自然语言进行建模,以获得自然语言的规律和特征,以解决语言信息处理中的特定问题. 请问以下哪个型号(A)

  A. 统计语言模型

  B. 扩展布尔模型

  C,概率模型

  D,向量空间模型

  45. 在以下选项中,不是文本操纵技术的中文词法分析是(A)

  A,连字

  B. 最大匹配方法

  C,歧义词的切分

  D. 未注册的单词识别

  46. 使用选定的搜索工具逐年从远近进行搜索,直到找到所需的文档为止. 搜索方法是(A)

  A,反向搜索方法

  B. 顺差法

  C,追溯法

  D. 抽查方法

  47. 以下哪一项不是衡量语料库(A)的指标

  A准确率B标签一致性C错误率D标签规范

  48. 您只知道某本书的ISBN,应该选择哪种搜索方式(D)

  A分类搜索B主题搜索C作者搜索D信息代码方法

  49. Google(C)是什么样的搜索引擎

  关键字类型B目录类型C集合类型D特殊类型

  50. 以下哪个不是Web搜索引擎系统(D)的子系统

  A: Web数据采集系统B: 网页预处理系统

  C: 搜索结果排名系统D: 阅读理解系统

  51. TREC测试仪主要包括几个部分(B)

  一个1个

  B 3个

  C 4个

  D 5个

  52. 信息检索的概念是(B)

  A是指用于实现信息检索功能的计算机软件系统.

  B是指从非结构化信息集合中查找与用户需求有关的信息.

  C信息检索是一门跨学科的交叉应用技术学科.

  D信息检索是使用各种媒体处理技术来处理信息并找到特定的组织.

  53. 一般来说,出现在文档不同字段中的关键字具有不同的相关性,并且表达的相关性从强到弱依次为: ()

  A. 关键字>标题>摘要>文本

  B. 关键字>摘要>文本>标题

  C. 标题>关键字>摘要>文本

  D. 正文>摘要>关键字>标题

  54. 信息检索模型可以根据不同的理论基础分为布尔模型,(),概率模型和基础知识.

  模型. (B)

  A. 统计模型

  B. 向量空间模型

  C,全文本模型

  D,数据模型

  55. 统计语言模型尝试使用统计数据和对自然语言进行建模以获得自然语言的规律和特征. (A)

  A,概率论B,布尔模型C,高级数学D,向量

  56. 面向用户的度量方法包括覆盖率,新颖性,相对召回率(C).

  A. 时间效率

  B. 空间效率

  C,召回负担

  D,错误率

  57. 中文检索系统主要有两种检索方案: 基于单词的检索和(C).

  A. 基于句子的检索

  B. 基于文章的检索

  C,基于单词的搜索

  D. 基于符号的搜索

  58. 信息检索的对象包括文本,(A),音频,视频等.

  A,图片

  B,文档

  C,网页

  D,数据

  59. 以下不是基于语言模型的检索模型(D)

  A. 查询相似性模型

  B. 统计翻译模型

  C. 风险最小化模型

  D,隐式语义索引模型

  60. 关于召回率和准确性(A),以下哪一项是正确的

  A. 准确度是检索到的相关文档数与检测到的文档数之比.

  B. 准确率与召回率无关.

  C. 准确性越高,召回率越高.

  D,准确性和召回率成比例负相关.

  第二,填写空白问题

  1. 使用倒排文件进行检索通常分为三个步骤: 词汇搜索,记录搜索和记录操作.

  2. 评估相关反馈的方法有很多,但是主要的评估方法是: 准确性和查全率,压缩文档采集和拆分文档采集.

  3. 通常,根据应用场景,分布式信息检索可分为: 协作环境中的分布式信息检索和非协作环境中的分布式信息检索.

  4. 自动查询扩展技术包括全局分析和局部分析方法.

  5. 查询构造的基本方法包括单字查询,上下文查询和布尔查询.

  6. 常用的索引技术包括反向文件,后缀数组和签名文件.

  7. 倒排的文件通常由词汇表和记录表组成.

  8. 国内信息检索和评估会议包括: 863信息检索评估和SWEM中文Web评估. 英语拼写检查包括形态恢复技术和词汇相似度计算技术.

  9. 信息检索技术包括全文检索,数据检索和知识检索

  10. TREC测试集主要包括文档集,主题和相关性判断.

  11. 信息检索模型可以根据不同的理论基础分为布尔模型,向量空间模型,概率模型和基于知识的模型.

  12. 为了能够客观,准确地评估分词系统的效果,需要开发一些指标来评估分词结果. 常用的评估指标包括准确性P,召回率R和F值. [第四章]

  13. 单模式字符串匹配技术主要包括三种常用的精确匹配算法: BF,KMP和BM.

  14. 反向文件创建方法: 基于内存,基于排序和基于合并的反向文件创建方法

  15. 维护反向文件通常需要执行的操作是: 插入操作,删除操作和更新文档.

  16. TREC(文本检索会议)是由信息检索社区举办的一项活动,用于进行检索系统和用户评估. 它是由美国国家标准技术研究院和美国高级研究计划局共同资助的. 它始于1992年.

  17. TREC的评估是根据检索到的相关文档的数量来评估系统的有效性,主要是评估召回率和准确性.

  18. 向量空间模型存在缺陷,即索引词被认为是相互独立的.

  19. 本体是描述概念和概念之间关系的概念模型. 通过概念之间的关系来描述概念的语义.

  20. 形态恢复是去除曲折语言的词尾形态变化并将其恢复为单词的原型.

  21. TREC NTCIR CLEF代表的信息检索评估在信息检索领域具有深远的影响.

  22. 如果用户可以将他对返回结果中每个网页的相关性的判断反馈给检索系统,则检索系统将能够更准确地理解用户需求,并重现一批更可能满足用户需求的文档. 此过程称为相关性反馈.

  23. 信息检索系统要解决的核心问题是: 当用户进行查询时,要判断文档集中每个文档与用户查询的相关程度.

  24. 在协作分布式信息检索环境中,可以使用两种方法来划分文档集合: 文档集合的随机划分和文档集合的语义分段.

  25. 目前,在*敏*感*词*专家的努力下,已经建立了具有一定规模和实用性的本体库. 三个最著名的本体库是HowNet,Wordnet和SUMO

  26. 中文检索系统主要有两种检索方案: 基于词的检索和基于词的检索

  27. TREC测试集主要包括: 文档,主题和相关判断的集合.

  28. 在Internet上采集信息的软件称为网络机器人.

  29. 本体包括四种含义: 概率模型,清晰度,形式化和共享.

  30. 四个世界著名的索引是SCI(科学引文索引),SSCI(社会科学引文索引),

  AHCI(艺术与人文引文索引)和EI(工程索引).

  31. 代表主题的搜索词包括标题词,单位词,同义词库和关键字.

  32. 信息检索工具中常用的排序方法包括词序和类序.

  33. 搜索引擎根据信息采集方法进行分类: 有目录搜索引擎和机器人搜索引擎

  34. 信息(文档)检索方式: 时间序列,顺序,分类,主题,标题检索和负责人.

  35. 使用文档所附参考文献进行搜索的方法称为追溯方法

  36. 在大多数情况下,搜索的目的是查找相关文档,而不是“答案”.

  37. 期刊文献检索体现了二八法则: 20%的期刊发表了80%的重要文献,而反映这一特征的期刊是核心期刊.

  38. 当查询关键字具有多种含义时,容易引起误检并降低准确率.

  39. 文档检索语言是索引编制和检索使用的约定语言

  40. 使用爬虫在WAN上采集信息,提取关键字以建立索引,并主要按关键字进行搜索. 上述搜索引擎是索引搜索引擎.

  41. 在文档获取和使用过程中,存在三种语言障碍: 自然语言障碍,专业语言障碍和检索语言障碍.

  42. 基于内部特征的两种最重要的搜索方式是: 主题方式和分类方式.

  43. 文本分类算法包括朴素贝叶斯算法,K近邻算法,决策树方法,支持向量机,基于投票的方法等.

  44. 信息过滤系统大致可分为四个主要组件,即信息提供模块,用户需求描述模块,过滤模块和学习模块.

  45信息检索中常用的一些词典资源: 停用词,词库和词库.

  46在文本操作技术中,英语操作中有段落技术,词干处理技术和拼写检查技术.

  47. 单模式字符串匹配技术,包括三种常用的精确匹配算法: BF,KMP和BM

  48. WEB检索系统可以分为四个主要部分: Web数据采集系统,Web页面预处理系统,索引检索系统,检索结果排名系统.

  49. 签名文件是基于哈希技术的面向单词的索引结构,索引空间与原创文档有关.

  30%〜40%

  50. 使用倒排文件进行检索通常分为三个步骤: 词汇搜索,记录搜索和记录操作.

  51. 反向文件也称为反向索引. 索引对象是文档或文档集合等中的单词,用于将这些单词的存储位置存储在文档或一组文档中,并且用于文档或文档集合. 倒排文件是最常用的索引机制之一,通常由两部分组成: 词汇表和记录表.

  52. 信息检索的关键技术: 信息提取,文本分类和聚类,自动摘要,链接分析,分布式信息检索,Web信息检索.

  53. 为了提高检索效率,人们已经基于领域知识或常识建立了一些词典资源来辅助信息检索. 常用的词典资源是词库和词库

  三个是非题

  1. 使用文档所附参考文献进行搜索的方法称为追溯方法(√)

  2,CNKI数据库具有两种全文阅读格式,其中一种是(CAJ)(√)

  3. 在进行信息检索研究时,各种算法的实验都需要使用大量的训练和评估数据,而同一算法在不同的数据条件下可以得到截然不同的结果. 因此,如果没有使用相同的测试方法和相同的数据集,则几乎不可能比较不同的算法. (√)

  4. 最著名的常用本体库是HowNet,WordNet和SUMO. (√)

  5. 认识论是描述概念和概念之间关系的概念模型. 概念的语义是通过概念之间的关系来描述的. (×)

  6. TREC的评估是根据检索到的相关文档的数量评估系统的有效性,主要是衡量召回率和准确率. (√)

  7. 令A,X和B分别为中文字符串. 如果由它们形成的中文字符串AXB同时满足AX和AB为单词,则中文字符串AXB是交集类型的歧义字段. (√)

  8. 文档检索是一种相关性检索,检索结果与检索者的检索技巧(√)有关

  9. Google尚未采取删除停用词的策略. (×)

  10. VIP信息检索系统可以搜索论文. (×)

  11. 核心期刊是指常用期刊(×)

  12. 网页预处理系统的主要功能是删除重复的网页(√)

  13. 信息提取是指从文本数据中提取有价值的信息和知识的计算机技术. 它是数据挖掘的一个分支,是一个边际主题. (×)

  14. 词干也称为词干和词干. 它在信息检索中具有两个功能: 提高检索的准确性和减小索引文件的大​​小. (×)

  答案: 词干提取的功能是提高检索的查全率,而不是准确率.

  15. 根据不同的处理深度,可以将文档分为零文档,一文档和三文档(√). 文档检索的本质是使用户的文档需求与文档集中存储的文档内容(√)相匹配的过程

  16. 文档检索是一种相关性检索,检索结果与检索人员的检索技巧(√)有关

  17. 通过在图书馆的阅览室中浏览当前的期刊,可以获得过去一两个月的新出版文档. (√)

  18. 直接搜索方法是一种通过各种搜索工具或数据库(×)查找文档的方法

  19. 作者方法是根据文献信息(√)中收录的作者信息使用作者姓名进行搜索的方法.

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线