Yahoo的类目体系、分类原理、检索方式、性能评价等作
优采云 发布时间: 2021-08-01 21:41
Yahoo的类目体系、分类原理、检索方式、性能评价等作
雅虎的分类系统和性能评估
目前,许多搜索引擎将手工编制的分层主题目录与计算机搜索软件提供的关键词等搜索方式结合起来,完成组织网络信息资源的任务。雅虎是这种分层主题指南搜索引擎的典型代表。
雅虎的魅力在于其可浏览的分层主题索引。雅虎按照主题建立分类索引,提供全面的分类体系结构,结合优质的检索软件,成功建立了独特的信息管理和组织机制,使网络信息的综合检索成为现实。下面就雅虎的分类体系、分类原则、检索方法、性能评价等进行进一步的讨论。
一、分类系统
雅虎由 14 个基本类别组成,包括艺术与人文、商业与经济、计算机与互联网、教育、娱乐、政府(政府)、健康(健康与医学)、新闻与媒体(新闻与媒体)、娱乐与体育(休闲与体育) )、Reference(参考资料)、Regional(国家和地区)、Science(科学)、Social Science(社会科学)、Society & Culture(社会与文化)。
根据其拥有的信息量或网站的数量以及知识组织的需要,将每个基础类别细分为不同级别的子类别或子类别,而较低的子类别网站其主题更加具体。它建立了一个相当详细的目录层次结构,由类别、子类别等组成,可以浏览。品类设计合理,结构完整全面,品类层次分明,层次分明,广度不同,为互联网上丰富的信息资源分类提供了依据,特别是准确的分类。
二、分类原理
InternetScoutProject 的分类专家 Aimee Glassel 认为,“印度著名分类专家和图书馆专家 Nguyen Gang Nathan 的结肠分类学理论体系与雅虎网络信息资源的主目录之间存在密切联系。”这说明雅虎运用分面分析法对网络信息资源的本质进行分类。具体来说,从以下几点来了解雅虎分面分类的原理或基本流程。
1. 使用广泛的学科领域来构建分类索引
为了使其分类体系既无限包容又相当具体,雅虎采用了比较广泛的学科领域,通过分析和综合方法建立了较为完备的分类索引。这与分面分类的思想不谋而合,因为知识分为大类,即分面,从多方面反映主题的内容,避免了枚举类型列表的线性单向结构。结肠分类学的主要原则在于。
2.根据上下文组合信息内容
从雅虎的分类结构的外观来看,你可能会认为它与词库非常相似,因为雅虎也是使用词汇代替符号来形成相应的概念词串。但是,从组合类别的能力来看,它远比普通的词库复杂。通过分析网页的内容特征,得到雅虎分类体系结构中由某些类别词组成的概念词串或索引词串,并将其放入相应的类别层次。雅虎的概念词串或搜索词串中收录的独立词汇,虽然收录自己的名字,但一旦与其他词结合,就产生了上下文关系,具有深刻的含义。从这一点来看,它与分面分类非常相似。
3.使用冒号标记信息内容
现以《1960年代印度结核病治疗研究》为信息内容进行分类索引,具体考察两者的评分制度:
在Nguyen Gang Nathan的结肠分类中,内容索引为:L,45;第421话6; 253; f.44‘N5
用单词替换相应的符号,然后:
医学,肺;结核病:治疗;X 射线:Research.India'1950
如果facet公式中对应的标点符号用冒号代替,得到的字符串形式就是雅虎中用来描述信息内容的方法,对应表示为:
健康:疾病和病症:结核病
可见两者的信息描述有多么相似!雅虎使用冒号作为统一的分隔符来组织和描述信息内容,既保留了原有分面标记的特点,又在一定程度上简化了标记系统,从而大大提高了信息分类和索引的效率。
4.提供不同的分类路径条目
“虚拟信息采集”是雅虎的一大优势,体现在其概念模型和参考顺序(即刻面排列顺序)的灵活性。在传统图书馆中,一本书只能放置在书架上的某个固定位置。但在数字世界中,电子信息资源不再局限于单一的物理位置。我们可以将某个信息源划分到类别结构中的不同位置。通过将分面分析方法应用于网络信息资源的组织,雅虎可以在其庞大的分类层次结构中为某个信息源提供不同的路径分支条目,从而可以针对同一内容的不同用户从不同路径检索提供服务以完成查询。
例如,如果您要查找美国威斯康星麦迪逊大学的网页,雅虎可以提供以下类别或搜索路径:
(1)如果从Regional:类别开始,对应的分类路径为:Regional:U.S.States:Wisconsin:Cities:Madison:Education:CollegesandUniversities:
威斯康星大学麦迪逊分校。
(2)如果从Education类开始,前几级路径为:Education: HigherEducation: CollegesandUniversities。在采集sandUniversities目录中选择地理区域子类“UnitedStates@”后,可以看到,然后返回到Region目录,然后和上面的路径一样,秘密就在于使用了符号“@”,它提供了一个类似于交叉引用的功能,可以引导用户从一个目录进入雅虎浏览某些子类别在性别等级的其他分支中。
三、搜索方法
Yahoo 可以提供简单检索和详细检索。前者主要在其分类结构中搜索一级目录,后者可以使用关键词形成布尔逻辑类型进行搜索,主要提供其搜索软件。两者的结合堪称完美的结合:一个提供了强大而优质的学科指南目录,另一个提供了高级搜索工具。而且,在搜索时,雅虎不仅会搜索自己的主题目录,还会搜索收录 100 万个 Web 文档的 OpenText 数据库。
雅虎的搜索方式确实存在一些缺陷,例如:只能进行关键词搜索,并且只支持布尔运算符and和or,并且没有提供near,而是通过在at提供其首页的最后是其他引擎的超链接,如ALTAVISTA、LYCOS等,引导用户进入这些地方进行搜索,从而弥补了雅虎的一些不足。因此,总体而言,雅虎仍然是 WWW 上最受欢迎的查询工具之一。
四、性能评测
作为话题指南搜索引擎的典范,雅虎具有以下优势:
1.学科目录与检索软件的完美结合
信息管理专家采用分面分析的方法编制学科目录,体现了人们在选择和组织信息方面的知识和智慧,提高了目录编制质量。同时,根据主题目录对提交的网页进行人工筛选、分类和组织,也可以不断克服搜索软件自动分类的缺点,增强分类的有序性。嵌入并集成相应的检索软件或工具,提供优质高效的检索服务,从而加快系统响应速度,提高检索准确率,使检索结果更贴近用户信息需求。
2.降低信息检索难度
Yahoo 的数据库分为 14 个类别(每个类别收录数量不等的子类别),并且其分类系统非常详细,因此是进行广泛主题搜索的良好起点,特别是对于那些新用户和用户对于模糊的需求,选择浏览可以逐步扩展的主题索引比构建搜索公式要自然得多。并且,在用户所在的类别下,会显示该级别的类别所收录的项目数。如果用户觉得数量太多,可以使用关键词在这个范围内搜索。雅虎的目录特性和上下文服务,使得检索快捷方便,在一定程度上降低了互联网信息检索的难度,提高了系统的用户友好性。
3.搜索结果分类选择
Yahoo 从分类路径开始,最后将搜索结构划分为类别进行输出,这将极大地促进信息的选择。还对结果列表中的相应内容进行必要的处理,并添加一些描述性的短语或句子,以方便用户浏览和选择:例如:[*]或[cool]标记表示结果项在内容和布局设计 其他项目; [new] 表示最近3天内收录的最新内容;而上面提到的“@”表示相关引用,括号中的数字表示收录等的文件数。另外,雅虎增加了结果显示的类型,可以将相应的搜索结果以相关网站、相关网页、新闻等。总而言之,为了更好地达到为用户服务的目的,雅虎正在不断开发新的方式和方法来改进信息检索服务。
在总结雅虎优势的同时,也要注意它的不足。这些缺点往往是话题引导搜索引擎的通病:
1、 由于互联网信息的快速增长,采集信息的速度远不及互联网资源的增长速度,更不用说编写主题目录的速度了。这就造成了所建立的数据库存在的不足,某些类别下采集的文件数量有限,导致用户经常“兴高采烈,失败返回”,无法满足相应的信息需求。
2、simple search table 设置为“.or”。默认在搜索词之间,内置的自动截词功能使搜索中出现很多不相关的文档,导致准确率降低。
3、 为了满足不同用户的查询或检索需要,雅虎往往可以为相同的信息内容提供不同的路径条目,并使用符号“@”建立相应的引用。这一方面增加了分类工作的难度,另一方面也使得难以保证分类的一致性。因此,经常会出现从某条路径找不到雅虎中收录的信息的现象。
4、待收录网页或其他信息内容复杂度的增加,也无形中增加了准确分类的难度。例如,与 ActiveX 技术相关的文档在雅虎中很难准确分类。 .
5、为了编制出高质量的主题目录,跟上网络资源的发展,必须投入大量的人力、物力、财力,而且对从事这项工作的人员的素质要求也很高增加。否则,将无法保证其学科目录的质量,从根本上无法提供高质量的服务。
五、灵感与建议
雅虎最关键和最成功的地方在于,它为搜索引擎的设计和开发,特别是主题指南等搜索引擎,建立了一个“模板”。借鉴雅虎先进的搜索引擎经验,进一步完善网络信息资源特别是中文信息资源的组织管理,是历史赋予我们的责任。现就建立优质高效的在线中文信息资源“导航器”提出以下建议:
1、Yahoo 成功地将分面分析的思想应用到了数字信息的组织中,建立了完整、全面、层次分明的主题目录体系,提高了信息组织的质量。这是值得借鉴的。和学习。
目前国内很多国产发动机因为没有分类路径入口,跟不上未来形势的发展;或者目录系统缺乏分类主题的必要理论基础,导致信息的准确分类和准确检索。一系列的困难。我们不必复制雅虎的分类模型。在具体编纂过程中,应从国人的思维习惯和检索习惯入手,结合国内已有的学科分类理论体系(如《中国图书馆分类》等),建立所需的分类框架。
2、应该逐渐增加数据库的大小,为信息检索成功奠定物质基础。建议可以通过两种方式补充数据库的内容:一种是鼓励用户通过在线表单提交其网页的地址(URL),另一种是使用自己的检查软件不断发现新的Internet 上的文件并将它们收录在数据库中。在补充的过程中,还要注意定期更新数据库内容。在这一点上,目前的一些中文搜索引擎做得还不够。他们往往只是盲目地填写信息,而缺乏对图书馆内容应该做的维护工作。这导致数据库庞大而臃肿,检索效率低,信息内容陈旧,核对不准确。差率。
3、鉴于单纯依靠人工信息分类效率低下,应加强这方面的研究,并考虑是否已实施的自动分类、自动索引和自动分类文本环境和进一步改进 处理信息内容的手段,如摘要,用于组织网络信息资源。人工与机器辅助相结合,必将提高工作效率,提高信息组织管理质量。此外,应继续加强搜索软件的研发。 WWW网页的内容多由图像、*敏*感*词*、声音、视频等多媒体信息构成。我们应该积极探索检索这类信息的方法,而不仅仅是关键词检索方法。目前,多媒体信息的存储、索引和检索越来越受到计算机和信息管理领域人们的关注。应密切跟踪该技术的发展,并将其实际应用到中文引擎检索软件的编写中。
4、Participating Information采集,筛选和组织人员的质量将直接或间接影响编制的学科分类系统的质量。因此,从事网络信息服务业的各部门或企业,特别是开发中文搜索引擎的企业,要切实加强人员培训,特别是信息分类组织和计算机检索能力的培养。网络信息资源的组织和开发是一项艰巨而有前景的任务。广大图书情报人员、信息管理和计算机专家要尽快转变观念,加入发展行列,不断完善队伍。质量。