论文写作指导:主题搜索引擎自动分类特征值空间模型
优采云 发布时间: 2021-05-03 23:22论文写作指导:主题搜索引擎自动分类特征值空间模型
论文写作指导:请添加
论文关键词:用于主题搜索引擎自动分类的特征值矢量空间模型
论文摘要:由于互联网的飞速发展,普通的搜索引擎无法满足人们的需求。早期的搜索引擎采集了Internet中资源服务器的地址,并根据它们提供的资源类型将它们划分为不同的目录,然后进行逐层分类。寻找他们想要的信息的人可以根据他们的分类被逐层输入,他们最终可以到达目的地并找到他们想要的信息。但这仅适用于Internet上没有太多信息的情况,但是如果信息变得更多,则搜索所花费的时间将会更长;因此,在拥有数亿个Web文档的Internet中,如果您需要更快地找到所需的信息,则需要建立一个有效的信息搜索系统。
该主题描述了现有的面向主题的搜索引擎的技术特征,并实现了可以满足基本需求的面向主题的搜索引擎。本主题描述了面向主题的搜索引擎的重要性,实现方法和实现过程; Web文档捕获,特征提取和Web文档分类技术;特征值应具有明显的特征以提高搜索引擎的质量;在实现Web文档自动分类时,使用向量空间模型计算Web文档之间的相似度。
1简介
1. 1个搜索引擎背景
任何搜索引擎的始祖都是1990年由蒙特利尔的麦吉尔大学的Alan Emtage,Peter Deutsch和Bill Wheelan发明的Archie(Archie FAQ)。尽管当时还没有出现万维网,但是网络上的文件传输还是很频繁的。由于大量文档分散在各个分散的FTP主机中,因此查询非常不便。因此,Alan Emtage和其他人想到了开发可以通过文件名搜索的文档。文件系统,所以有Archie。 Archie是第一个在Internet上自动为匿名FTP 网站文档建立索引的程序,但它还不是真正的搜索引擎。 Archie是FTP文档名称的可搜索列表。用户必须输入确切的文档名称进行搜索,然后Archie会告诉用户哪个FTP地址可以下载文档。
由于受Archie的欢迎,内华达大学系统计算服务公司于1993年开发了Gopher(Gopher FAQ)搜索工具Veronica(Veronica FAQ)。Jughead是后来的Gopher搜索工作。
机器人一词对程序员有特殊的含义。计算机机器人是指可以以人类无法达到的速度重复执行某些任务的自动程序。由于专门用于检索信息的机器人程序像蜘蛛(spider)一样在Internet上爬行,因此搜索引擎的机器人程序称为蜘蛛(Spider FAQ)程序。全球第一个Spider程序是MIT Matthew Gray的万维网漫游者程序,用于跟踪Internet开发的规模。最初,他只使用Internet上的服务器数量,但后来发展为能够捕获网址(URL)。
与流浪者相对应,马丁·科斯特(Martijn Koster)于1993年10月创建了ALIWEB(马丁·科斯特(Martijn Koster)宣布了Aliweb的可用性),这等效于HTTP版本的Archie。 ALIWEB不使用Internet搜索机器人。如果网站主管希望他们的Web文档为ALIWEB 收录,则他们需要自己提交每个Web文档的配置文件索引信息,类似于后来的著名Yahoo。
随着Internet的快速发展,检索任何新的Web文档变得越来越困难。因此,一些程序员基于Wanderer,对传统Spider程序的工作原理进行了一些改进。这个想法是,由于任何Web文档都可能具有到其他网站的链接,然后从一个网站开始并跟随任何Web文档上的任何链接,因此有可能检索整个Internet。到1993年底,一些基于此原理的搜索引擎开始出现。三个最负盛名的是:来自苏格兰的JumpStation,来自美国科罗拉多州科罗拉多大学的奥利弗·麦克布莱恩的万维网蠕虫(麦克布赖恩的万维网蠕虫的第一提及)基于存储库的软件工程(RBSE)蜘蛛。 JumpStation和WWW蠕虫仅按照搜索工具在数据库中找到匹配信息的顺序排列搜索结果,因此根本没有信息相关性。 RBSE是第一个为HTML文档正文建立索引的搜索引擎,也是第一个在搜索结果排名中引入关键字字符串匹配度概念的引擎。
1995年,出现了一种新形式的搜索引擎-元搜索引擎综述(Meta Search Engine Roundup)。用户只需要提交一次搜索请求,元搜索引擎负责转换过程,然后提交给多个预选的单个搜索引擎,从单个搜索引擎返回的所有查询结果都将被采集和处理,然后再进行处理。返回给用户。第一个元搜索引擎是华盛顿大学硕士生Eric Selberg和Oren Etzioni的Metacrawler。元搜索引擎在概念上听起来不错,但搜索效果始终不理想,因此没有一个元搜索引擎具有很强的地位。
1996年出现的第二代搜索引擎系统主要使用分布式解决方案(多个微协作工作)来增加数据大小,响应速度和用户数量。他们通常维护大约50,000,000的Web文档。索引数据库每天可以响应10,000个用户搜索请求。 1997年11月,当时几个最先进的搜索引擎声称能够建立范围在2,000,000到100,000之间的网络文档索引。
目前,搜索引擎的研究和开发非常活跃。大型搜索引擎公司在搜索引擎系统的开发上投入了大量资金。同时,具有独特功能的新搜索引擎产品也在不断涌现。搜索引擎已成为信息领域的行业之一。它在信息检索,人工智能,数据库,数据挖掘和自然理解等领域使用理论和技术,这是全面且具有挑战性的。也是由于搜索