静态网页有上百亿,动态及隐藏网页至少是静态的500倍
优采云 发布时间: 2021-07-15 01:16静态网页有上百亿,动态及隐藏网页至少是静态的500倍
指南:我们现在处于信息过载的时代。
世界每年产生 1EB 到 2EB(1EB≈1018B)的信息,相当于地球上每个人每年产生约 250MB 的信息。其中,纸质信息仅占所有信息的0.03%。
静态网页有数百亿个,动态和隐藏网页至少是静态网页的 500 倍。 Tom Landauer 认为,人脑只能存储大约 200MB 的信息,一生只能访问大约 6GB 的信息。
近年来,大数据技术、深度学习的出现和发展,以及神经网络计算能力的提升,加速了我们处理信息的能力,但并没有缓解信息过载对我们的影响。搜索引擎已经成为我们获取信息的主要手段之一
01 什么是搜索引擎和搜索系统
信息检索 (IR) 是从文档集合中返回满足用户需求的相关信息的过程。是一门研究信息获取(Acquisition)、表示(Representation)、存储(Storage)、组织(Organization)和访问(Access)的学科。
检索来自检索。有些人翻译它得到。原意是得到符合输入要求的输出。
搜索来自搜索,意思是有目的的搜索。信息检索不仅仅是搜索,IR System 也不仅仅是搜索引擎。
搜索引擎是指按照一定的策略,使用特定的计算机程序从互联网上采集信息。对信息进行整理和处理后,将用户检索到的相关信息展示给用户,为用户提供搜索服务。
搜索引擎包括 4 个界面,即搜索器、索引器、搜索器和用户界面。
具体搜索引擎架构图如下图
搜索系统的概念可以从以下两个方面来解释。
系统视角。从系统的角度来看,搜索系统是一个更广泛的概念,包括搜索引擎。具有相关性计算和分析的系统可以归类为搜索系统。除了我们常说的搜索引擎,搜索系统还应该包括外部支持的业务场景和应用领域等功能。
用户视角。从用户的角度来看,搜索系统的输出是用户需求的投影。因此,在设计搜索系统时,我们需要观察用户对搜索结果的反应。此外,还要考虑相应的应用场景和搜索工程。
02 搜索引擎发展史
1990 年代,Tim Berners-Lee 开启了互联网时代,并使其得以*敏*感*词*发展。 1990 年,Tim Berners-Lee 开发了世界上第一个 Web 服务器和第一个 Web 客户端,并命名为万维网 (WWW)。
次年,世界上第一个 WWW网站info.cern.ch 成立。伴随着网站的建立,HTTP传输协议以及相应的HTML等Web服务技术诞生了。 1993年,NCSA发明了第一个显示图片的Mosaic浏览器,之后客户端浏览器逐渐成熟。这些技术为互联网的快速发展奠定了基础。
互联网的飞速发展,使得搜索引擎的出现成为必然。 1990年,第一个互联网搜索引擎Archie出现,主要用于搜索FTP服务器上的文件。
只要用户准确输入文件名,Archie 就可以准确地告诉用户文件所在的位置。 Archie搜索的内容虽然不是网页,但其工作原理与网页搜索类似:自动搜索信息资源,建立索引,提供检索服务。
1995 年,Excite 搜索引擎正式推出。它是早期流行的搜索引擎之一。 Excite 的出现可以追溯到 1993 年 2 月,当时斯坦福大学的 6 名学生想通过分析词之间的关系,有效地检索互联网上的大量信息。
Excite 以概念检索着称,是搜索引擎技术的代表——文本检索。文本检索一般包括布尔模型、向量空间模型等,主要用于计算用户查询关键词与网页文本内容的相似度。
1995 年 4 月,雅虎正式成立。它由斯坦福大学的杨致远博士和大卫·菲洛博士创立。随着访问量和收录链接的增加,雅虎对互联网上的重要站点进行了分类整理,迎合了用户的需求,从而实现了快速增长。
雅虎也成为了“目录导航”搜索引擎技术的代表。该技术提高了收录网站的质量,但不易扩展,收录网站的数量较少。
1998 年 9 月,Larry Page 和 Sergey Brin 共同创立,利用 PageRank 链接分析等新技术极大地提高了搜索质量,成为搜索引擎市场份额最大的公司。
Google 是 PageRank 链接分析技术的代表。它充分利用网页之间的链接关系,综合考虑网页链接的数量和质量来计算网页的排名,提高搜索质量。
2000年1月,中国最大的搜索引擎公司百度成立,一举成为国内最大的搜索引擎。目前,百度已不再只是使用某种搜索引擎技术。它试图通过用户查询、地理位置和历史行为(搜索、点击、浏览)来了解用户此刻的真实需求。
根据STATCOUNTER的统计,2019年1月至12月,谷歌占全球搜索引擎市场份额的92.63%。微软的必应和雅虎分别位列第二和第三,百度排名第四。位。
根据STATCOUNTER 2019年1-12月统计,百度凭借本土化优势,2019年1-12月国内搜索引擎市场占有率67.51%位列第一,搜狗、神马位列第一的。在第二个和第三个。
在互联网飞速发展的今天,信息爆炸式增长。如何在信息过载的环境中快速有效地定位目标信息成为关键问题。
搜索是解决信息过载的更有效方法。搜索引擎对互联网资源进行整理、分类并存入数据库,为用户提供信息采集、信息分类、用户查询等查询服务。
因此,作为互联网网站和应用的入口,搜索引擎的地位越来越重要。
03 搜索引擎分类
搜索引擎可以分为以下四类:全文搜索引擎、元搜索引擎、垂直搜索引擎和目录搜索引擎。下*敏*感*词*体介绍一下这四种搜索引擎。
1.全文搜索引擎
计算机扫描文章中的每个词,为每个词建立索引,并记录文章中该词的出现次数和位置信息。当用户进行查询时,计算机根据预先建立的索引进行搜索,并将结果反馈给用户。根据数据结构的不同,全文搜索可分为结构化数据搜索和非结构化数据搜索。
对于结构化数据,全文搜索一般通过关系数据库进行存储和搜索,也可以建立索引。
对于非结构化数据,全文搜索主要有两种方法:顺序扫描和全文搜索。
2.元搜索引擎
按功能划分,搜索引擎可分为元搜索引擎(Meta Search Engine)和独立搜索引擎(Independent Search Engine)。
元搜索引擎是调用其他独立搜索引擎的搜索引擎。它可以整合、调用和优化多个独立搜索引擎的结果。独立搜索引擎主要由网页抓取、索引、链接分析和排序组成;元搜索引擎由请求提交代理、检索界面代理和结果展示代理组成。它不需要维护庞大的索引数据库或爬行。网页。
元搜索引擎的具体实现逻辑如下图所示
请求提交代理是将请求分发给独立的搜索引擎。元搜索引擎可以根据用户的需求和喜好,请求一个独立的搜索引擎,实际需要调用。该方法可以有效提高用户查询的准确率和响应效率。
搜索接口代理将查询内容转化为独立搜索引擎可接受的模型,并保证必要的语义信息不会丢失。结果表明,该代理是一个元搜索引擎,它根据用户的需求使用不同的排序方法对结果进行去重和排序。元搜索引擎常用的排序方法有:相关性排序、时间排序、搜索引擎排序等。
元搜索引擎的整体工作流程如下:
3.垂直搜索引擎
垂直搜索引擎是针对某个行业的专业搜索引擎。它是搜索引擎的细分和延伸,为特定人群、特定领域和特殊需求提供服务。它的特点是专业、精确和深度。垂直搜索引擎将搜索范围缩小到高度针对性的特定信息。
垂直搜索引擎的结构类似于一般的搜索系统,主要由爬虫、索引、搜索三部分组成。但是,垂直搜索在定位、内容、用户等方面的表现都与谷歌、百度等搜索引擎有所不同,所以它不是一个简单的行业搜索引擎。
当用户使用通用搜索引擎时,他们通常会通过关键字进行搜索。这种搜索方式一般是语义搜索,返回的结果往往是文章、新闻等,即相关知识。垂直搜索的关键字搜索放在一个行业知识的上下文中,返回的结果是消息和项目。对于有购房需求的人来说,他们想得到的信息是供求信息,而不是文章和房子的新闻。
4. 目录搜索引擎
目录搜索引擎是网站常用的搜索方式,类似于书籍章节目录。这种搜索方式是对网站信息进行整合处理,以子类的形式呈现给用户。集成处理的过程一般需要人工维护,更新速度慢,用户需要提前了解网站的基本内容,熟悉主要模块,所以应用场景越来越少。