搜索引擎进行信息检索的优化策略方法( 搜索引擎架构*敏*感*词*搜索系统的概念与应用场景的角度分析 )

优采云 发布时间: 2022-03-18 04:11

  搜索引擎进行信息检索的优化策略方法(

搜索引擎架构*敏*感*词*搜索系统的概念与应用场景的角度分析

)

  

  01 什么是搜索引擎和搜索系统

  信息检索(Information Retrieval,IR)是从满足用户需求的文档集合中返回相关信息的过程。它是一门研究信息获取(Acquisition)、表示(Representation)、存储(Storage)、组织(Organization)和访问(Access)的学科。

  Retrieval来自Retrieval,有人翻译成get,原意是得到符合输入要求的输出。搜索来自搜索,意思是有目的的寻找。信息检索不仅仅是搜索,IR 系统不仅仅是一个搜索引擎。

  狭义的信息检索是指信息检索;广义上的信息检索包括搜索引擎、问答、信息提取、信息过滤)、信息推荐等。

  搜索引擎是指按照一定的策略,使用特定的计算机程序从互联网上采集信息。对信息进行组织处理后,将用户检索到的相关信息展示给用户,为用户提供检索服务。

  搜索引擎包括4个界面,即搜索器、索引器、爬虫和用户界面。

  具体的搜索引擎架构图如图2-1所示。

  

  ▲图2-1 搜索引擎架构*敏*感*词*

  搜索系统的概念可以从以下两个方面来解释。

  系统角度。从系统的角度来看,搜索系统是一个更广泛的概念,包括搜索引擎。所有具有相关性计算和分析的系统都可以归类为搜索系统。除了我们常说的搜索引擎,搜索系统还应该包括外部支持的业务场景和应用领域等特性。

  用户视角。从用户的角度来看,搜索系统的输出是用户需求的投影。因此,在设计搜索系统时,我们需要观察用户对搜索结果的反应。此外,还要考虑相应的应用场景和搜索项目。

  02 搜索引擎的发展历程

  1990 年代,蒂姆·伯纳斯-李 (Tim Berners-Lee) 迎来了互联网时代,并取得了巨大的发展。1990 年,Tim Berners-Lee 开发了世界上第一个 Web 服务器和第一个 Web 客户端,被命名为万维网 (WWW)。

  次年,世界上第一个WWW网站info.cern.ch成立,网站的成立伴随着HTTP传输协议和相应的HTML等Web服务的诞生技术。1993年,NCSA发明了第一个浏览器Mosaic来显示图片,随后客户端浏览器逐渐成熟。这些技术为互联网的快速发展奠定了基础。

  互联网的飞速发展使得搜索引擎的出现成为必然。1990 年,第一个互联网搜索引擎 Archie 出现,主要用于在 FTP 服务器上搜索文件。在用户准确输入文件名的前提下,Archie 可以准确地告诉用户文件的位置。Archie 搜索的内容虽然不是网页,但工作原理与网页搜索类似:自动搜索信息资源,建立索引,提供检索服务。

  1995年,Excite搜索引擎正式推出,是早期流行的搜索引擎之一。Excite 的出现可以追溯到 1993 年 2 月,当时六名斯坦福大学的学生想通过分析词的关系来高效地检索 Internet 上的大量信息。Excite以概念检索而闻名,是搜索引擎技术——文本检索的代表。文本检索一般包括布尔模型、向量空间模型等,主要用于计算用户查询关键词与网页文本内容的相似度。

  1995年4月,雅虎正式成立。它由斯坦福大学博士 Jerry Yang 和 David Filo 创建。随着访问量和收录链接的增长,雅虎组织了互联网上重要站点的目录以满足用户的需求,因此发展迅速。雅虎也成为“目录导航”搜索引擎技术的代表。这种技术提高了 收录网站 的质量,但可扩展性和 收录网站 更少。

  1998年9月,拉里佩奇和谢尔盖布林共同创立,利用PageRank链接分析等新技术大大提高了搜索质量,成为搜索引擎市场份额最大的公司。Google是PageRank链接分析技术的代表。它充分利用网页之间的链接关系,考虑页面链接的数量和质量,从而计算网页的排名,提高搜索质量。

  2000年1月,中国最大的搜索引擎公司百度成立,成为中国最大的搜索引擎。目前,百度不再只是使用某种搜索引擎技术。它试图通过用户查询、地理位置和历史行为(搜索、点击、浏览)来了解用户当下的真实需求。

  根据STATCOUNTER的统计,在2019年1-12月全球搜索引擎市场份额中,谷歌占比92.63%,微软必应和雅虎分别排名第二和第三,百度排名第四。

  根据STATCOUNTER,在2019年1-12月中国国内搜索引擎市场份额中,百度凭借本地化优势以67.51%排名第一,其次是搜狗和神马。第二和第三。

  在互联网飞速发展的今天,信息呈爆炸式增长,如何在信息过载的环境中快速有效地定位目标信息已成为关键问题。搜索是解决信息过载的一种更有效的方法。搜索引擎对互联网资源进行组织分类并存储在数据库中,为用户提供查询服务,包括信息采集、信息分类、用户查询等。

  因此,作为互联网网站和应用的入口,搜索引擎的地位越来越重要。

  

  03 搜索引擎的分类

  搜索引擎可以分为以下四类:全文搜索引擎、元搜索引擎、垂直搜索引擎和目录搜索引擎。下面详细介绍这四种类型的搜索引擎。

  1. 全文搜索引擎

  计算机扫描文章中的每个单词,为每个单词建立一个索引,并记录该单词出现在文章中的频率和位置信息。当用户进行查询时,计算机根据预先建立的索引进行搜索,并将结果反馈给用户。根据数据结构的不同,全文搜索可以分为结构化数据搜索和非结构化数据搜索。

  对于结构化数据,全文检索一般通过关系型数据库进行存储和检索,也可以建立索引。

  对于非结构化数据,全文搜索主要有两种方法:顺序扫描和全文搜索。

  2. 元搜索引擎

  搜索引擎按功能可分为元搜索引擎(Meta Search Engine)和独立搜索引擎(Independent Search Engine)。

  元搜索引擎是调用其他独立搜索引擎的搜索引擎,可以整合、调用和优化来自多个独立搜索引擎的结果。独立搜索引擎主要由网络爬虫、索引、链接分析和排序组成;元搜索引擎由请求提交代理、检索界面代理和结果展示代理三部分组成。它不需要维护庞大的索引数据库,也不需要爬取网页。

  元搜索引擎的具体实现逻辑如图2-2所示。

  

  ▲图2-2 元搜索引擎实现逻辑

  请求提交代理将请求分发给独立的搜索引擎。元搜索引擎可以根据用户的需求和喜好请求一个真正需要调用的独立搜索引擎,可以有效提高用户查询的准确性和响应效率。

  检索接口代理是将查询内容转换为独立搜索引擎可接受的模式,并保证必要的语义信息不丢失。结果表明,proxy是一个元搜索引擎,根据用户的需求,采用不同的排序方式对结果进行去重和排序。元搜索引擎常用的排序方式有:相关性排序、时间排序、搜索引擎排序等。

  元搜索引擎的整体工作流程如下:

  3. 垂直搜索引擎

  垂直搜索引擎是针对某一行业的专业搜索引擎,是搜索引擎的细分和延伸,为特定人群、特定领域、特殊需求提供服务。它的特点是专业性、精确性和深度。垂直搜索引擎将搜索范围缩小到高度针对性的特定信息。

  垂直搜索引擎的结构类似于一般的搜索系统,主要由爬虫、索引和搜索三部分组成。但垂直搜索在定位、内容、用户等方面的表现与谷歌、百度等搜索引擎不同,并不是一个简单的行业搜索引擎。

  当用户使用通用搜索引擎时,他们通常通过关键字进行搜索。搜索方式一般是语义搜索,返回的结果往往是文章、新闻等,也就是相关知识。垂直搜索的关键词搜索放置在一个行业知识的上下文中,返回的结果是消息和项目。对于购房者来说,他们想要的信息是供求关系,而不是文章和关于房屋的新闻。

  4. 目录搜索引擎

  目录搜索引擎是网站常用的搜索方式,类似于书籍章节目录。这种搜索方式对网站的信息进行整合处理,并分门别类地呈现给用户。集成处理过程一般需要人工维护,更新速度较慢。而且用户需要提前了解网站的基本内容,熟悉主要模块,所以应用场景越来越少。

  作者简介: 刘宇,清华大学硕士,现任某公司技术总监,主要负责公司搜索推荐业务及广告相关技术开发。目前的工作重点是落地算法在搜索系统、推荐系统、对话系统等特定业务场景中的应用。他在机器学习、深度学习、大数据应用与开发方面有很多研究。合着了《聊天机器人:入门、高级和实用》一书。

  赵宏宇,东北大学本科毕业;毕业于RIT,获硕*敏*感*词*,主修AI。目前就职于猎聘网,主要负责猎聘网推荐和排名相关的工作。

  刘树斌,毕业于东北大学,本科,现就职于美团,高级系统开发工程师。曾就职于唯品会,主要负责搜索工程的架构设计和实现,在Elasticsearch有丰富的工程实践经验。

  孙明珠,毕业于南京航空航天大学,硕士,目前在猎聘网担任高级算法工程师,负责查询理解、解析、扩展等NLP相关工作。

  本文节选自《智能搜索与推荐系统:原理、算法与应用》,经出版者许可发表。

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线