seo优化搜索引擎工作原理(搜索引擎的分类常见的搜索引擎包括全文索引、目录索引和元搜索引擎)
优采云 发布时间: 2021-11-05 00:10seo优化搜索引擎工作原理(搜索引擎的分类常见的搜索引擎包括全文索引、目录索引和元搜索引擎)
一、 搜索引擎分类
常见的搜索引擎包括全文索引、目录索引和元搜索引擎。百度和谷歌是搜索引擎的代表。
1.全文索引
全文搜索引擎是一种广泛使用的主流搜索引擎。国外的代表是谷歌,国内有知名的百度和360、搜搜。他们从网上提取每个网站(主要是网页文本)的信息,建立数据库。用户在使用搜索引擎时,从数据库中检索符合用户查询条件的记录,然后按照一定的顺序将搜索结果返回给用户。
根据搜索结果来源的不同,全文搜索引擎可以分为两大类。一类有自己的搜索程序(Indexer),俗称“蜘蛛”程序或“机器人”程序,可以自行建立网络数据库。搜索结果直接从他们自己的数据库中调用。上面提到的谷歌和百度都属于这一类;另一种是租用其他搜索引擎的数据库,按照自定义格式排列搜索结果,比如Lycos搜索引擎。
搜索引擎的自动信息采集功能有两种类型。一种是定期搜索,即每隔一定时间(比如谷歌一般需要28天),蜘蛛搜索引擎主动发出“蜘蛛”程序,在一定IP地址范围内搜索互联网网站 . 一旦发现新的网站,它会自动提取网站的信息和URL并将其添加到其数据库中。
另一种是提交搜索网站,即网站的拥有者主动向搜索引擎提交网址,然后搜索引擎会在一定时间内将你定向到网站时间(2天到几个月不等)@>发送“蜘蛛”程序,扫描网站并将相关信息存入数据库,供用户查询。随着搜索引擎索引规则的不断变化,主动提交网址并不能保证您的网站可以进入搜索引擎数据库。最好的办法是获取更多的外部链接,让搜索引擎有更多的机会找到你,并自动转移你的网站收录。
当用户搜索带有关键词的信息时,搜索引擎会在数据库中进行搜索。如果找到符合用户要求的网站,就会使用特殊的算法——通常根据网页上的关键词匹配度、出现位置、出现频率、链接质量——计算相关性和每个网页的排名级别,然后根据相关性将这些网页链接依次返回给用户。
2. 目录索引
目录索引又称分类搜索,是互联网上最早提供WWW资源查询的服务。它主要是对互联网资源进行采集和整理,并根据搜索到的网页内容,将其URL分配到相关类别主题目录中的不同级别类别。接下来,形成一个类似于图书馆目录的分类树结构索引。无需为目录索引输入任何文本。只需根据网站提供的主题分类目录点击进入,即可找到所需的网络信息资源。最具代表性的目录索引是著名的雅虎、新浪和搜狐(搜狗)目录搜索。
目录索引虽然也有搜索功能,但严格意义上不能称为真正的搜索引擎。它只是一个按目录分类的 网站 链接列表。用户可以根据分类目录找到自己需要的信息,不依赖关键词(Keywords)查询。
与全文搜索引擎相比,目录索引有很多不同之处。
首先,搜索引擎是自动网站搜索,而目录索引则完全是手动的。用户提交网站后,目录编辑会亲自浏览您的网站,然后根据一套自行确定的标准甚至主观印象来决定是否接受您的网站编辑。
其次,当搜索引擎收录网站时,只要网站本身不违反相关规则,一般都可以登录成功;而目录索引对网站的要求更高。有时即使多次登录,也可能不成功。尤其是像雅虎这样的超级索引,登录起来更是难上加难。
另外,我们在登录搜索引擎时,一般不需要考虑网站的分类,而在登录目录索引时,一定要把网站放在最合适的目录(Directory )。
最后,搜索引擎中每一个网站的相关信息都是自动从用户的网页中提取出来的,所以从用户的角度来说,它有更多的自主权;并且目录索引需要手动额外填写网站信息,并且有各种限制。另外,如果工作人员认为你提交的目录或者网站的信息不合适,他可以随时调整,当然不会提前和你商量。
3.元搜索引擎
元搜索引擎接受用户的查询请求后,同时在多个搜索引擎上进行搜索,并将结果返回给用户。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等,最具代表性的中文元搜索引擎是搜星搜索引擎。在搜索结果排列方面,有的直接按来源排列搜索结果,比如Dogpile;一些根据自定义规则重新排列和组合结果,例如 Vivisimo。
二、搜索引擎的基本工作原理
了解搜索引擎的基本工作原理,对我们日常的搜索应用和网站投稿推广都有帮助。搜索引擎的基本工作原理可以概括为以下4个步骤。
第 1 步:爬行
搜索引擎通过特定模式的软件跟踪网页链接,从一个链接爬到另一个链接,就像蜘蛛在蜘蛛网上爬行一样,所以被称为“蜘蛛”或“机器人”。搜索引擎蜘蛛的爬行是有一定的规则进入的,需要遵循一些命令或者文件的内容。
第二步:抢存储
搜索引擎通过蜘蛛跟踪链接抓取网页,并将抓取到的数据存储在原创页面数据库中。页面数据与用户浏览器获取的HTML文件完全相同。此外,搜索引擎蜘蛛在抓取页面时也会做一定的重复内容检测。当遇到大量抄袭、采集或网站上权重极低的复制内容时,很可能不会再次爬网。
第 3 步:预处理
搜索引擎将按照以下步骤对蜘蛛检索到的页面进行预处理:
提取文本→中文分词→去除停用词→消除噪音(搜索引擎需要识别和消除噪音,如版权通知文字、导航栏、广告等)→正向索引→倒排索引→链接关系计算→ 特殊文件处理。
除了 HTML 文件,搜索引擎通常可以抓取并索引多种基于文本的文件类型,例如 PDF、Word、WPS、XLS、PPT、TXT 文件等,我们在搜索结果中也经常看到这些文件类型。但是,搜索引擎无法处理图片、视频、Flash 等非文本内容,也无法执行脚本和程序。
第 4 步:排名
用户在搜索框中输入关键词后,排名程序调用索引库数据,计算排名显示给用户,排名过程直接与用户交互。但是由于搜索引擎的数据量巨大,虽然可以做到每天小幅更新,但一般来说,搜索引擎的排名规则是按日、周、月分不同阶段更新的。
三、搜索引擎技术
搜索引擎通常由四部分组成:搜索器、索引器、搜索器和用户界面。
1.搜索者
搜索器是一个连续运行的计算机程序。它必须尽可能高效地采集各种新信息,并定期更新已经采集到的旧信息,以避免死链接和无效链接。
2. 索引器
索引器的作用是了解搜索器搜索到的信息,对采集到的信息进行排序、分类、索引,生成索引库。中文搜索引擎的核心是分词技术。分词技术利用一定的规则和词库对句子中的词进行分词,为自动索引做准备。
索引器生成从 关键词 到 URL 的关系索引表。索引表一般采用某种形式的倒排列表(inverted list),即通过索引项搜索对应的URL。索引表还应该记录索引项在文档中的位置,以便搜索者可以计算出索引项之间的相邻关系或密切关系,并以特定的数据结构存储在硬盘上。
3. 猎犬
搜索器的主要功能是根据用户输入的关键词在索引器形成的倒排表中进行搜索。同时完成页面与搜索的相关性评估,对输出结果进行排序,实现一定的用户相关性反馈机制。
4、用户界面
用户界面的作用是输入用户查询的内容,显示查询结果,并提供用户相关性反馈机制。主要目的是方便用户使用搜索引擎,以多种方式高效、及时地从搜索引擎中获取有效、及时的信息。用户界面的设计和实现采用人机交互的理论和方法,充分适应人类的思维习惯。