姬睿:搜索引擎的概念、分类、工作原理及发展趋势
优采云 发布时间: 2021-06-30 03:03姬睿:搜索引擎的概念、分类、工作原理及发展趋势
纪锐
(西安邮电大学经济管理学院,陕西西安 710061)
[摘要] 随着互联网和信息技术的飞速发展,搜索引擎已经成为人们通过互联网获取信息的主要手段。本文详细阐述了搜索引擎的概念、分类、工作原理和发展趋势。
教育期刊网
关键词搜索引擎;网蜘蛛;人工智能
搜索引擎技术研究
纪锐
(西安邮电大学经济管理学院,陕西西安,710061)
【摘要】随着互联网和信息技术的飞速发展,搜索引擎已经成为人们在互联网上获取信息的主要手段。本文从搜索引擎的概念出发,
分类、工作原理及发展趋势。
【关键词】搜索引擎;网络蜘蛛;人工智能
0 简介
随着计算机网络技术的飞速发展,人们必须使用搜索引擎在互联网的海量信息中寻找自己需要的信息。搜索引擎已经成为人们获取信息的重要手段。广义上的搜索引擎是指网站提供用户搜索界面,在互联网上具有搜索功能。它可以帮助人们在互联网上找到他们需要的信息;从狭义的角度来看,搜索引擎是指按照一定的策略从互联网上采集要查找的信息,并使用特定的计算机程序,对信息进行组织和处理,为用户提供检索服务,并将其呈现给用户的系统。用户检索到的相关信息给用户。
1 搜索引擎的发展历程
搜索引擎是随着互联网的发展而产生和发展的。互联网已经成为人们学习、工作和生活不可或缺的平台。几乎每个人上网时都会使用搜索引擎。搜索引擎大致经历了四代发展。
1.1第一代搜索引擎
1994 年,第一代真正的基于互联网的搜索引擎 Lycos 诞生了。它基于手动分类目录。代表厂商是雅虎。其特点是对网站的各种目录进行手动分类和存储。用户可以通过多种方式找到网站。 k14@,这种方式现在也有。
1.2 二代搜索引擎
随着网络应用技术的发展,用户开始想要搜索内容,出现了第二代搜索引擎,即使用关键字进行查询。最具代表性和最成功的就是谷歌。它基于网页链接分析技术。它使用关键字来搜索网页,可以覆盖互联网上的大量网页内容。该技术可以分析网页的重要性,并将重要的结果呈现给用户。
1.3 第三代搜索引擎
随着网络信息的快速扩张,用户希望能够快速准确地找到自己想要的信息,于是出现了第三代搜索引擎。与前两代相比,第三代搜索引擎更加注重个性化、专业化、智能化。它采用自动聚类、分类等人工智能技术,采用区域智能识别和内容分析技术,采用人工干预,实现技术与人工的完美结合,增强了搜索引擎查询能力。第三代搜索引擎的代表是谷歌,它以信息覆盖面广、搜索性能优异为搜索引擎技术的发展开创了新局面。
1.4 第四代搜索引擎
随着信息多元化的快速发展,在目前的硬件条件下,一般的搜索引擎不可能在互联网上获得更全面的信息。这时候,用户需要全面的数据、及时的更新、细致的分类。面向主题的搜索引擎,这种搜索引擎采用特征提取和文本智能的策略,比前三代搜索引擎更准确、更有效,被称为第四代搜索引擎[1]。
2 搜索引擎分类
搜索引擎根据其工作方式分为三类:目录索引搜索引擎、全文搜索引擎和元搜索引擎[2]。
2.1 目录索引搜索引擎
目录索引搜索引擎的数据库是手动建立的。工作人员访问了某个web网站后,根据一套自定的标准对这个网站进行了描述,并根据网站的性质和内容对其进行了分类。排序到预先排序的类别,然后存放在相应的目录中,用户可以通过教育期刊网
关键词查询,也可以按目录层层搜索。由于目录索引数据库用于人工评估某个网站的内容,因此用户通过目录搜索的结果比Robot搜索引擎搜索的结果具有更大的参考价值。目前,大多数搜索网站不仅提供基于机器人的搜索服务,还提供基于目录的搜索服务,以尽可能为用户提供全面的搜索结果。
2.2全文搜索引擎
目前,全文搜索引擎是主流搜索引擎。人们常说的搜索引擎一般是指全文搜索引擎。典型代表有谷歌、百度、搜狗等。这类搜索引擎使用网络蜘蛛搜索网页,然后抓取原创网页,存储在本地数据库中并处理原创网页,然后构建网页内容指数。在检索阶段,系统对后台数据库进行索引,搜索符合用户查询条件的网页,按照相应的规则对这些网页进行排序,并将结果依次返回给用户。在搜索引擎的界面上,用户可以通过输入要查询的关键词在互联网上找到相关网页。
2.3meta 搜索引擎
元搜索引擎将用户的搜索请求同时提交给多个独立的搜索引擎,然后对搜索结果进行集中处理,并以统一格式返回给用户,因此也称为上层搜索引擎。搜索引擎。这个搜索引擎的特点是不保存网页内容。如果用户输入查询请求,则将请求转换为其他搜索引擎可以接受的命令格式,同时访问多个搜索引擎查询教育期刊网站。
关键词,最后将搜索引擎返回的结果进行处理并提交给用户。
总之,目录索引搜索引擎的缺点是信息覆盖面不大,更新慢。元搜索引擎必须等待所有搜索引擎提交结果并对其进行处理。速度通常很慢。因此,全文搜索引擎是人们研究的重点。 .
3 搜索引擎的工作原理
搜索引擎通常由四部分组成:搜索器、索引器、搜索器和用户界面 [3]。系统首先通过搜索者采集网页内容,然后通过索引器分析采集到的内容并建立索引。然后搜索者响应用户的搜索请求。当用户输入查询关键字时,搜索者使用关键字来匹配索引器。对相关性进行排序后,通过用户界面将结果返回给用户。
搜索引擎的工作流程可以简单地描述为:网络蜘蛛定期在互联网上爬行。当发现新页面时,它将被检索并存储在本地数据库中。用户可以通过查询本地数据库获得结果。大致可以概括为三个阶段:网页抓取、处理和排序、查询服务。
网络爬行阶段:每个独立的搜索引擎都有自己的网络蜘蛛,每隔一定时间自动启动,从数据库中获取URL列表,按照一定的策略爬取列表指定的网站,并保存将捕获的网页存入数据库,然后将新的 URL 保存到数据库中。理论上,从一定范围的网页开始,可以采集到大部分网页。
处理整理阶段:搜索引擎抓取网页后,做大量的预处理工作,建立网页文档的倒排索引,将索引更新到索引库,提取网页的链接信息,保存在链接数据库中,成为准备评分的网页。
查询服务阶段:搜索引擎等待用户进入教育期刊网
关键词,从索引数据库中寻找匹配本教育期刊网
关键词的网页,结果按网页评分排序,最后反馈给用户。
搜索引擎的实现过程包括四个部分:从互联网上抓取网页→建立索引数据库→在数据库中搜索→对搜索结果进行排序。
搜索引擎的网络蜘蛛会定期访问所有网页,更新网络索引数据库,去除死链接,并根据网络链接关系和内容的变化重新排序。最终网页内容的变化会反映在用户的查询结果中[4]。
4 搜索引擎的发展趋势
4.1 提升搜索引擎智能化水平
智能搜索引擎利用人工智能技术对用户的查询意图、兴趣等进行推理,利用所获得的知识过滤采集信息,将用户感兴趣的信息提交给用户。利用智能算法进行人机对话,利用机器翻译技术加强自然语言处理能力,通过语义理解用户的自然语言需求。智能代理技术可以不断适应用户兴趣的变化,提供个性化服务。
4.2 提供优化的搜索结果
<p>利用搜索引擎规则,搜索引擎优化可以提高网站在搜索引擎中的排名。根据被搜索网页的特点,根据搜索引擎的搜索原理,调整网站的基本元素,使其在自然搜索结果中排名靠前,从而达到推广网站的目的。