搜索引擎进行信息检索的优化策略方法(计算机应用与软件.27()技术研究)
优采云 发布时间: 2021-12-26 00:12搜索引擎进行信息检索的优化策略方法(计算机应用与软件.27()技术研究)
计算机应用和软件卷。27 计算机应用软件二月。2010 个人信息检索综述 张世勇(复旦大学计算机科学与技术学院,复旦大学网络与信息工程中心,上海 200433) 收稿日期:2008-09 23.季向文,硕士*敏*感*词*,主要研究方向领域:网页信息抽取、Web挖掘、基于数据挖掘的互联网舆情话题识别与演化跟踪用户行为分析个人数字信息检索技术随着搜索技术的发展而蓬勃发展,满足了人们对数据检索和检索的需求。存储在个人计算机中的信息。讨论个人信息检索技术的历史和现状,对比现有桌面搜索产品,总结个人信息技术面临的主要问题。参考其他个人信息检索研究,在此基础上提出个人信息检索模型的改进,用于未开封格式文件的检索。关键词 个人信息检索桌面搜索统一数据接口 PERSONALINFORMATION RETRIEVAL 纪祥文 张世勇(复旦大学网络信息工程中心计算机科学学院,上海 200433) 摘要检索技术,个人信息检索热潮兴起,这与人们要求检索存储在个人计算机上的数据信息。论文我们给出了shortsurvey个人信息检索技术当前的桌面搜索产品,并总结了个人信息技术存在的主要问题。在借鉴他人研究的基础上,提出了检索未公开格式的文档的个人信息检索模型。关键词 个人信息检索 桌面搜索 统一数据接口 随着计算机和信息技术的发展,个人计算机中存储的信息量越来越大,即使是有良好整理习惯的人,也无法整理成百上千千兆字节数据,并且可能会忘记一些数据和信息的存储位置。
越来越多的人发现自己整理了大量的工作学习资料,却很少去查阅资料中的具体内容。在需要的时候,他希望从这些材料中找到合适的信息和数据。但是,由于信息量太大,他无法直接观察筛选出需要的信息。个人数字信息检索技术应运而生。人们可以通过个人信息搜索,找到所需信息以及所需信息文件在个人电脑上的确切位置。本文回顾了个人信息检索技术的历史发展、主要特点和存在的问题,讨论了相关个人信息技术的研究,并研究了个人检索技术的主要产品——桌面搜索工具。并对统一检索模型提出优化方案。历史与背景 个人计算机中存储的信息包括数据文件、文本文档、电子邮件、多媒体文件等。随着计算机存储技术的发展,个人计算机的存储容量越来越大,人们需要知道关于个人数据和信息。进行有效的搜索,从大量的个人数据中找到所需的信息。早期的文件系统提供了文件搜索功能。可以通过文件名查找文件和文件夹,也可以通过在文档中搜索关键词来查找文件。这样的搜索功能运行缓慢,只能搜索少量文件。之后,多媒体信息文件和提供元数据的类似文件出现,需要文件搜索来提供元数据搜索。这进一步增加了文件搜索的负担。
文档索引的建立提高了文档搜索的速度。文件索引,包括文件内容和元数据。搜索文件时,是对索引的搜索,而不是对文件系统的搜索。数据信息量的不断增加也促使人们使用数据挖掘方法从大量无组织的数据中寻找相关信息。个人信息管理系统的出现使用数据库和索引为人们提供管理个人信息的工具。信息检索经历了从文件搜索到网络搜索的过程,到桌面搜索使用索引 [10] 个人信息检索的特点个人信息检索的最大特点是用户更熟悉他们存储的数据和信息的细节和特点,因此,它可以提供记忆的信息,用途广泛和多变上下文和线索来检索 Web 搜索,并使用关键字来简化和加快大量 Web 信息的检索。这也是网络搜索和个人信息检索最大的区别。用户可以通过关键字检索个人信息,更多时候可以通过信息的属性值来过滤和查找有用的信息。这种属性值称为元数据。用于检索的上下文联系和线索可能与检索到的信息没有直接关系,而人类记忆的特点是它使 138 个计算机应用程序和软件 2010 能够使用与记忆没有直接关系的信息,例如人们记得电话。记忆的号码可能不是连续的数字,而是所拨号码的位置顺序。
个人信息检索和网络搜索的另一个区别是个人信息包括许多不同类型的文件、文档和信息,如Email、文档、多媒体信息(mp3、 视频文件等),以及许多其他发布的文件格式的数据,例如超星阅读文件。个人信息的检索需要整合这些信息。目前,许多桌面搜索工具提供扩展接口或接受插件来搜索未公开格式的文件。利用上下文关联等线索进行搜索,搜索中收录
了许多不同类型的文件和信息,使得个人信息检索的发展趋势是将搜索和浏览整合到一个通用的用户界面中。搜索工具为用户提供了灵活的搜索和过滤界面,还提供了灵活的搜索结果视图,可以对任意属性进行排序,可以对检索到的信息进行打开、复制、删除等操作,和媒体数据 您可以使用搜索工具来构建播放列表和媒体库。与个人信息管理系统(PIM)相比,桌面搜索应用更广泛,发展也非常迅速。桌面搜索主要搜索用户个人电脑上的信息内容,而不是在互联网上搜索。桌面搜索的内容包括文本文档、音视频等多媒体文件、邮件文档、网页浏览记录等信息。同时,桌面搜索工具往往集成了互联网搜索功能。
这通常是由于桌面搜索使用的索引技术。桌面搜索吸引用户的注意力有两个原因:非结构化和无标签的数据产品需要用户通过搜索工具找到他们需要的信息;另一个原因是安全问题。IT 行业还没有桌面搜索标准。桌面搜索软件搜索用户的个人信息,建立索引,有的甚至在防火墙外建立索引共享,带来信息安全问题。桌面搜索的关键技术是实现索引数据库。索引的过程往往是在个人计算机空闲或处理任务负担不重的时候。在使用电池的状态下,计算机的很多任务都会暂停,索引过程也会停止。
另外,文件删除后,索引更新时间过短,会导致文件搜索结果错误。同样,如果索引没有及时更新,则无法查询到新添加的文件。指数的快速建立部分取决于指数模型的有效和快速组织。(3) 一种集检索、浏览、操作于一体的用户界面的搜索工具,是未来个人信息检索的发展方向。用户界面提供灵活、交互、可重复、筛选检索,充分利用用户为了信息的记忆和熟悉度,搜索结果可以按属性排序,用户可以过滤和交互查询得到结果。(4) 安全和隐私问题 个人信息检索涉及个人数据。规范个人信息安全和隐私的措施,确保搜索过程、索引信息和检索工具的安全。相关研究 SIS(Stuff Ive Seen)是微软公司开发的一款工具,用于分析浏览过的信息。检索,达到重用之前看到的信息的目的,图1所示为SIS用户界面。它描述了SIS 框架和SIS 的实验评估,并提出了未来的发展。SIS系统架构可以简单分为:(1)Gatherer,通过统一的接口访问不同的数据文件;(2)过滤,将不同格式的数据解码成文本流;(3)分词器,文本流分解处理;( 4)Indexer, 索引数据; (5)Retriever, 提供查询功能来搜索数据。
从这个SIS用户界面,我们可以将个人数据检索过程概括为三个部分:获取和处理源信息、索引过程、用户交互设置和检索。文献[3]提出了统一数据接口对数据进行分类的问题。他们使用 RDF(资源描述框架)-XML 模型来描述数据的内容和关系,并在 Haystack 6] 中使用。信息检索需要在用户界面上将搜索和浏览相结合,利用人们对个人信息熟悉的特点,利用上下文联系和线索,不仅检索数据文件的名称和内容,还检索文件元数据等。相关信息。针对用户自我记忆的特点,标签、提供了由用户创建的分层元数据,并且还为标签编制了索引。这些概念在 Phlat 项目中实现。Phlat是使用C#开发的基于Windows桌面搜索的个人信息检索系统。它实现了上述标签和友好的用户检索界面。它使用多层联系人和线索进行过滤和检索。Phlat的用户界面如图2所示。Phlat的用户界面吉向文等:Personal Information Retrieval Overview 139 在文献[8]中,我们通过实验找出人们在查询过程中关注的文档的相关信息和属性,用于优化搜索。Phlat是使用C#开发的基于Windows桌面搜索的个人信息检索系统。它实现了上述标签和友好的用户检索界面。它使用多层联系人和线索进行过滤和检索。Phlat的用户界面如图2所示。Phlat的用户界面吉向文等:Personal Information Retrieval Overview 139 在文献[8]中,我们通过实验找出人们在查询过程中关注的文档的相关信息和属性,用于优化搜索。Phlat是使用C#开发的基于Windows桌面搜索的个人信息检索系统。它实现了上述标签和友好的用户检索界面。它使用多层联系人和线索进行过滤和检索。Phlat的用户界面如图2所示。Phlat的用户界面吉向文等:Personal Information Retrieval Overview 139 在文献[8]中,我们通过实验找出人们在查询过程中关注的文档的相关信息和属性,用于优化搜索。Phlat的用户界面如图2所示。Phlat的用户界面吉向文等:Personal Information Retrieval Overview 139 在文献[8]中,我们通过实验找出人们在查询过程中关注的文档的相关信息和属性,用于优化搜索。Phlat的用户界面如图2所示。Phlat的用户界面吉向文等:Personal Information Retrieval Overview 139 在文献[8]中,我们通过实验找出人们在查询过程中关注的文档的相关信息和属性,用于优化搜索。
和几个资源视图构建图形以建立索引结构。该模型可以表达非结构化、半结构化和结构化文档格式。本文在第3节中,提出了基于SIS框架和iDM的吸收标签方法,以及从未公开格式数据文件内容的标准检索和索引的组织模型优化的建议。桌面搜索软件现状对比 作为用户,他们往往关心桌面搜索有以下几个功能:(1)管理,产品是否易于操作和维护;(2)安全,搜索到的信息不会被攻击和泄露;(3)隐私政策,软件本身不运行泄露个人隐私;(4)支持的文档类型;(5) 支持外部存储介质,如网络硬盘、邮件服务器;(6)用户界面界面;(7)@) >纵向或横向搜索能力,横向搜索能力是广度搜索能力,可以搜索到的文件和信息的类型;纵向搜索能力是能够搜索特定文件类型;(8)支持的最大搜索容量。
目前比较流行的桌面搜索产品是 Google 桌面和 Windows 桌面搜索。加上其他桌面搜索产品:Copernic Desktop Search、Yahoo! 桌面搜索、ISYS:桌面,以及集成在 Windows XP 中的搜索功能:Windows Search Companion。使用CACM,包括3204篇文章和64个查询,对各种桌面搜索产品进行了实验。图3是索引时间的比较,图4是搜索时间的比较和召回率的比较。图 6 显示了查询时间和样本大小之间的关系。使用CACM,包括3204篇文章和64个查询,对各种桌面搜索产品进行了实验。图3是索引时间的比较,图4是搜索时间的比较和召回率的比较。图 6 显示了查询时间和样本大小之间的关系。使用CACM,包括3204篇文章和64个查询,对各种桌面搜索产品进行了实验。图3是索引时间的比较,图4是搜索时间的比较和召回率的比较。图 6 显示了查询时间和样本大小之间的关系。
索引往往是在系统空闲时间进行的,它也包括获取和处理信息的过程。搜索时间和召回率直接影响用户的使用和感知。以上结果表明,GoogleDesktop Search WindowsDesk-top Search在桌面搜索领域占据领先地位,也得益于其在性能上的优势。这些对现有桌面搜索软件性能的评价反映了桌面搜索产品的主要关注点,推动了桌面搜索软件的进一步研发。统一数据接口模型旨在检索未公开的文件格式。本文提出的统一接口模型是:使用iDM四边形结构,在此基础上集成标签、表达个人信息、索引;使用SIS框架进行改进,提供通用的数据访问接口,使个人信息检索系统可以检索各种未公开的数据格式。*敏*感*词*模型借鉴了iDM模型,我们设计的*敏*感*词*模型也是四元组。如图7,个人信息块(PIB)四元组包括:(1)Name,标识块的名称;(2)Metadata,存储元数据信息,即相关属性数据文件,s为元数据模式集合,v为值集合;140 Computer Applications and Software 2010(3)Content,内容集合,具体收录
对数据内容的描述;(4)@ >Group,是引用的PIB集合,可以表示子PIB集合。
标签可以作为元数据信息存储在Metadata中,并将标志设置为Tags。系统框架在SIS系统框架的基础上增加了MetaReader MetaWrit-er,用于元数据的读写。写入功能主要针对标签,以便用户可以将标签信息附加到数据文件中。图8是本文设计的个人信息界面结构。PII 接口 Gatherer、Filter、Tokenizer MetaReader 和 MetaWriter 构成了个人信息接口(PII),可供未开放数据格式的开发者开发作为个人信息检索系统的插件。PII的数据是PIB,Indexer和Retriever处理PIB,使得个人信息检索系统可以检索到各种未开放的数据格式。本文回顾了个人信息检索技术的发展,描述了个人信息检索技术的主要特点和面临的问题,讨论了个人信息检索的相关研究,并对现有的桌面搜索工具进行了调查。针对未公开文件格式的检索提出了统一的接口模型:利用iDM模型和集成标签技术,在SIS系统框架的基础上开发了统一的数据检索接口,使个人信息检索系统可以检索到各种未公开的文件格式。格式化数据。
]维基百科。桌面搜索。 桌面搜索。] SusanDumais、爱德华·卡特雷尔、JJ Cadiz 等。我见过的东西。系统个人信息检索第 26 届国际 ACM SIGIR 会议信息检索。纽约:ACM 出版社,2003 年:72 79. Karger, William Jones。数据统一个人信息管理[J].通讯 ]EdwardCutrell、Susan Dumais、JaimeTeevan。搜索消除个人信息管理[J].通信 ACM,2006(1). ]EdwardCutrell、Daniel Dumais 等。快速、灵活的过滤Phlat-PersonalSearch OrganizationMade Easy] EdwardCutrell, Susan Dumais.探索个人信息[J]. 通讯] MichaelLowe。评估桌面搜索应用程序。] TristanBlanc-Brude,多米尼克·斯卡宾。人们会想起什么桌面搜索工具。国际会议智能用户界面,第 12 届国际会议智能用户界面,2007 年:102 111. ]Jens-PeterDittrich, Marcos Antonio Vaz Salles。iDM:统一的 VersatileData 模型 PersonalDataspace 管理。第 32 届国际会议超大型数据库会议论文集,2006 年:367 378. [10] Mats Malmstn。个人搜索引擎。研讨会 2006.(从 No. 132 KiczalesG、Hi*敏*感*词*ale E、Hugunin J 等人继续。Proc.ECOOP 2001,LNCS 2072,柏林,六月 2001. Spring-er-Verlag,327 35< @3. ]LieberherrK, Orleans D, Ovlinger Aspect-orientedProgramming AdaptiveMethods ]LodewijkBergmans, Mehmet Aksit. 使用组合过滤器组合横切关注点 ]TarrP, Harrison W, Ossher H, et al.