搜索引擎(英语:searchengine)的扩展资料及方法

优采云 发布时间: 2021-07-24 01:06

  搜索引擎(英语:searchengine)的扩展资料及方法

  搜索引擎(英文:search engine)是一种信息检索系统,旨在协助搜索存储在计算机系统中的信息。搜索结果一般称为“命中”,通常以表格的形式列出。网络搜索引擎是最常见、最公开的搜索引擎,其功能是搜索存储在万维网上的信息。

  搜索引擎为一组项目提供了一个界面,允许用户指定感兴趣的项目的标准并让搜索引擎找到匹配的项目。这些条件称为搜索查询。在文本搜索引擎的情况下,搜索查询通常表示为一组词,用于标识一个或多个文档可能收录的所需概念。

  有多种风格的搜索查询语法,它们的严格程度各不相同。它还可以在以前站点的搜索引擎中搜索名称。一些文本搜索引擎要求用户输入两三个用空格隔开的词,而其他搜索引擎可以让用户指定整个文档、图片、声音和各种形式的自然语言。

  某些搜索引擎改进了搜索查询,以通过称为查询扩展的过程增加提供优质集合的可能性。查询理解方法可用于标准化查询语言。

  扩展信息:

  一个完整的搜索引擎需要有五个部分:网络爬虫和收录、索引、查询分析、搜索排名和推荐系统。

  1、Web 抓取和收录。

  网页抓取技术是网页抓取的核心技术。您可以通过编写某些程序或脚本来捕获 Internet 上的信息。网页抓取完成后,必须构建相应的数据库来存储我们抓取到的网页信息。

  但是,网上的信息是多余的。主要原因是网站大佬会在后台爬行。他们也会用爬虫去检测一些热点内容或者文章,然后爬取他们的信息并重新组织格式,但其实网页的内容几乎是一样的。

  所以在收录爬虫爬取的网页信息之前,我们要添加一个关键链接——网页去重,以保证网页在我们数据库中的唯一性。

  2、创建索引

  抓取网页信息后,需要对网页信息进行分析,提取网页的主题内容和类别信息。涉及的主要技术是文本识别和文本分类技术。

  网页解析的输出往往是一些结构化的信息(每个网页的完整性不同,需要统一结构化数据)。一般结构化信息包括网页的URL、网页编码、页面标题、作者、生成时间、类别信息、摘要等。

  获取网页的结构化信息后,需要构建相应的索引。为了加快对用户查询的响应,网页内容通过一种称为“倒排索引”的高效查询数据结构进行保存,同时也保存了网页之间的链接关系。

  之所以需要保存链接关系,是因为这个关系在网络的相关性排名阶段是可用的。通过“链接分析”,可以判断页面的相对重要性,这对于为用户提供准确的搜索结果非常有帮助。大。

  由于互联网上海量的网页信息,搜索引擎的建设离不开大数据处理平台和云计算技术。目前比较常用的大数据处理平台是Hadoop生态系统。

  3、Query 词分析。

  查询词分析是查询分析或查询聚类。搜索引擎收到用户的查询后,首先需要对查询进行分析,希望能结合查询和用户信息,正确推断出用户的真实搜索意图。

  比如用户输入查询词“养水仙”,除了基本的内容匹配,搜索引擎还需要了解用户。其实,用户的查询词也可以理解为“水仙养的方法”、“水仙好养”等类似查询词。

<p>在此之后,首先查看缓存。搜索引擎的缓存系统存储了不同查询意图对应的搜索结果。如果可以在缓存系统中找到满足用户需求的信息,就可以直接将搜索结果返回给用户,这样既节省了重复计算的资源消耗,又加快了响应速度。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线