新闻发布搜索引擎优化(EB到2EB(110181018B)信息的时代)

优采云 发布时间: 2021-12-04 02:08

  新闻发布搜索引擎优化(EB到2EB(110181018B)信息的时代)

  简介:我们现在处于一个信息过载的时代。

  全世界每年产生1EB到2EB(1EB≈1018B)的信息,相当于地球上每个人每年产生的信息量约为250MB。其中,纸质信息仅占所有信息的0.03%。

  静态网页有数百亿个,而动态和隐藏网页至少是静态网页的 500 倍。Tom Landauer 认为,人脑一生只能存储大约 200MB 的信息,并且只能访问大约 6GB 的信息。

  近年来,大数据技术、深度学习的出现和发展,以及神经网络计算能力的提升,加速了我们处理信息的能力,但并没有缓解信息过载对我们的影响。搜索引擎已经成为我们获取信息的主要手段之一

  

  01 什么是搜索引擎和搜索系统

  信息检索 (IR) 是从文档集合中返回满足用户需求的相关信息的过程。它是研究信息获取(Acquisition)、表示(Representation)、存储(Storage)、组织(Organization)和访问(Access)的学科。

  Retrieval来自Retrieval,也有人翻译为get。原意是得到与输入要求相匹配的输出。

  搜索来自搜索,这意味着有目的的搜索。信息检索不仅仅是搜索,IR 系统也不仅仅是搜索引擎。

  搜索引擎是指按照一定的策略,使用特定的计算机程序,从互联网上采集信息。对信息进行整理和处理后,将用户检索到的相关信息展示给用户,为用户提供检索服务。

  搜索引擎包括4个界面,即搜索器、索引器、搜索器和用户界面。

  具体搜索引擎架构图如下图

  

  搜索系统的概念可以从以下两个方面来解释。

  系统视角。从系统的角度来看,搜索系统是一个更广泛的概念,包括搜索引擎。具有相关性计算和分析的系统可以归类为搜索系统。除了我们常说的搜索引擎,搜索系统还应该包括外部支持的业务场景和应用领域等特性。

  用户视角。从用户的角度来看,搜索系统的输出是用户需求的投影。因此,在设计搜索系统时,我们需要观察用户对搜索结果的反应。此外,还要考虑相应的应用场景和搜索工程。

  02 搜索引擎的历史

  1990年代,蒂姆·伯纳斯-李开启了互联网时代,并使其得以*敏*感*词*发展。1990 年,Tim Berners-Lee 开发了世界上第一个 Web 服务器和第一个 Web 客户端,并命名为万维网(WWW)。

  次年,世界上第一个WWW网站info.cern.ch成立,随着这个网站的建立,HTTP传输协议和相应的HTML等Web服务技术诞生。1993年,NCSA发明了第一个显示图片的Mosaic浏览器,之后客户端浏览器逐渐成熟。这些技术为互联网的快速发展奠定了基础。

  互联网的飞速发展,使得搜索引擎的出现成为必然。1990年,第一个互联网搜索引擎Archie出现,主要用于搜索FTP服务器上的文件。

  在用户准确输入文件名的前提下,Archie 可以准确地告诉用户文件所在的位置。Archie搜索的内容虽然不是网页,但其工作原理与网页搜索类似:自动搜索信息资源,建立索引,提供检索服务。

  1995年,Excite搜索引擎正式上线。它是早期流行的搜索引擎之一。Excite 的出现可以追溯到 1993 年 2 月,当时 6 名斯坦福大学的学生想要通过分析词关系来有效地检索互联网上的大量信息。

  Excite以概念检索着称,是搜索引擎技术——文本检索的代表。文本检索一般包括布尔模型、向量空间模型等,主要用于计算用户查询关键词与网页文本内容的相似度。

  1995年4月,雅虎正式成立。它是由斯坦福大学的杨志远博士和大卫·菲洛创建的。随着访问量和收录链接的增加,雅虎对互联网上的重要站点进行了分类整理,迎合了用户的需求,从而实现了快速增长。

  雅虎也成为了“目录导航”搜索引擎技术的代表。该技术提高了收录网站的质量,但不易扩展,收录网站的数量较少。

  1998年9月,拉里·佩奇和谢尔盖·布林共同创立公司,利用PageRank链接分析等新技术大大提高搜索质量,成为搜索引擎市场份额最大的公司。

  谷歌是PageRank链接分析技术的代表。它充分利用网页之间的链接关系,综合考虑网页链接的数量和质量来计算网页的排名,提高搜索质量。

  2000年1月,中国最大的搜索引擎公司百度成立,一举成为国内最大的搜索引擎。目前,百度已不再只是使用某种搜索引擎技术。它试图通过用户查询、地理位置和历史行为(搜索、点击、浏览)来了解用户此刻的真实需求。

  根据STATCOUNTER的统计,2019年1月至12月,谷歌占全球搜索引擎市场份额的92.63%。微软的必应和雅虎分别位列第二和第三,百度排名第四。.

  据STATCOUNTER统计,2019年1-12月中国国内搜索引擎市场份额中,百度凭借本土化优势,以67.51%位列第一,搜狗和神马排名第一。第二和第三。

  在互联网飞速发展的今天,信息爆炸式增长。如何在信息过载的环境中快速有效地定位目标信息成为一个关键问题。

  搜索是解决信息过载的更有效方法。搜索引擎对互联网资源进行组织分类,并将其存储在数据库中,为用户提供查询服务,包括信息采集、信息分类、用户查询等。

  因此,作为互联网网站和应用的入口,搜索引擎的地位越来越重要。

  03 搜索引擎分类

  搜索引擎可以分为以下四类:全文搜索引擎、元搜索引擎、垂直搜索引擎和目录搜索引擎。下*敏*感*词*体介绍一下这四种搜索引擎。

  1. 全文搜索引擎

  计算机扫描文章中的每个词,为每个词建立索引,并记录文章中该词的出现次数和位置信息。当用户进行查询时,计算机根据预先建立的索引进行搜索,并将结果反馈给用户。根据数据结构的不同,全文搜索可分为结构化数据搜索和非结构化数据搜索。

  对于结构化数据,全文搜索一般通过关系数据库进行存储和搜索,也可以建立索引。

  对于非结构化数据,全文搜索主要有两种方法:顺序扫描和全文搜索。

  2. 元搜索引擎

  按功能划分,搜索引擎可分为元搜索引擎(Meta Search Engine)和独立搜索引擎(Independent Search Engine)。

  元搜索引擎是调用其他独立搜索引擎的搜索引擎。它可以整合、调用和优化来自多个独立搜索引擎的结果。独立的搜索引擎主要由网页抓取、索引、链接分析和排序组成;元搜索引擎由请求提交代理、检索界面代理和结果展示代理组成。它不需要维护庞大的索引数据库或爬行。网页。

  元搜索引擎的具体实现逻辑如下图所示

  

  请求提交代理是将请求分发给独立的搜索引擎。元搜索引擎可以根据用户的需求和喜好请求一个独立的搜索引擎,该搜索引擎实际需要调用。该方法可以有效提高用户查询的准确率和响应效率。

  检索接口代理是将查询内容转化为独立搜索引擎可以接受的模型,并保证必要的语义信息不会丢失。结果表明,该代理是一个元搜索引擎,它根据用户的需求使用不同的排序方法对结果进行去重和排序。元搜索引擎常用的排序方法有:相关性排序、时间排序、搜索引擎排序等。

  元搜索引擎的整体工作流程如下:

  3. 垂直搜索引擎

  垂直搜索引擎是针对某个行业的专业搜索引擎。它是搜索引擎的细分和延伸,为特定人群、特定领域和特殊需求提供服务。它的特点是专业、精确和深度。垂直搜索引擎将搜索范围缩小到高度针对性的特定信息。

  垂直搜索引擎的结构类似于一般的搜索系统,主要由爬虫、索引、搜索三部分组成。但是,垂直搜索在定位、内容、用户等方面的表现都不同于谷歌、百度等搜索引擎,因此它不是一个简单的行业搜索引擎。

  用户在使用通用搜索引擎时,通常是通过关键字进行搜索。搜索方式一般为语义搜索,返回的结果往往是文章、新闻等,即相关知识。垂直搜索的关键字搜索放在行业知识的上下文中,返回的结果是消息和项目。对于想买房的人来说,他们想得到的信息是供求信息,而不是文章和房子的新闻。

  4. 目录搜索引擎

  目录搜索引擎是网站常用的搜索方式,类似于书籍章节目录。搜索方式是对网站信息进行整合处理,以子类的形式呈现给用户。集成过程一般需要人工维护,更新速度慢,用户需要提前了解网站的基本内容,熟悉主要Modules,所以应用场景越来越少。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线