内部信息源与外部信息源搜索引擎优化方法的异同( 全文搜索引擎按其工作方式主要可分为三种:分别是“蜘蛛”程序)
优采云 发布时间: 2021-10-06 01:18内部信息源与外部信息源搜索引擎优化方法的异同(
全文搜索引擎按其工作方式主要可分为三种:分别是“蜘蛛”程序)
1. 搜索引擎分类
搜索引擎按其工作方式可分为三大类:
他们是全文搜索引擎(Full Text Search Engine)
目录索引搜索引擎(Search Index/Directory)
元搜索引擎(Meta Search Engine)。
■ 全文搜索引擎
全文搜索引擎是名副其实的搜索引擎。国外的代表有谷歌、Fast/AllTheWeb、AltaVista、Inktomi、Teoma、WiseNut等,国内著名的有百度。它们都是根据从互联网上提取的每个网站的信息(主要是网页文本),检索出符合用户查询条件的相关记录,然后将结果返回给用户,所以它们是真正的搜索引擎。
从搜索结果的来源来看,全文搜索引擎可以细分为两种,一种是有自己的搜索程序(Indexer),俗称“蜘蛛”程序或“机器人”程序,另一种是自有搜索程序(Indexer)。内置网页数据库,搜索结果直接从自己的数据库中调用,比如上面提到的7个引擎;另一种是租用其他引擎的数据库,按照自定义格式排列搜索结果,比如Lycos引擎。
在搜索引擎分类部分,提到了全文搜索引擎从网站中提取信息构建网页数据库的概念。搜索引擎的自动信息采集功能有两种类型。一种是定期搜索,即每隔一定时间(比如谷歌一般是28天),蜘蛛搜索引擎的搜索引擎会主动发出“蜘蛛”程序在一定时间内搜索互联网网站 IP地址范围,一旦发现新的网站,它会自动提取网站的信息和URL,并添加到它的数据库中。另一种是提交搜索网站,即网站的拥有者主动提交网址给搜索引擎,它会定向到你的网站 在一定时间内(从2天到几个月不等)发出“蜘蛛”程序,扫描您的网站并将相关信息保存在数据库中,供用户查询。由于近年来搜索引擎索引规则变化很大,主动提交网址并不能保证您的网站可以进入搜索引擎数据库。目前最好的办法就是获取更多的外链,让搜索引擎有更多的机会找到你,并自动发送你的网站收录。主动提交网址并不能保证您的网站可以进入搜索引擎数据库。目前最好的办法就是获取更多的外链,让搜索引擎有更多的机会找到你,并自动发送你的网站收录。主动提交网址并不能保证您的网站可以进入搜索引擎数据库。目前最好的办法就是获取更多的外链,让搜索引擎有更多的机会找到你,并自动发送你的网站收录。
当用户搜索带有关键词的信息时,搜索引擎会在数据库中进行搜索。如果找到符合用户要求的网站,就会使用特殊的算法——通常根据网页上的关键词匹配度、出现位置、出现频率、链接质量——计算相关性和每个网页的排名级别,然后根据相关性将这些网页链接依次返回给用户。该引擎的特点是搜索率相对较高。
■ 目录索引
虽然它有搜索功能,但不能称其为严格意义上的真正搜索引擎。它只是按目录分类的 网站 链接列表。(简单来说就是网站导航网站)
用户可以根据分类目录找到自己需要的信息,无需依赖关键词(关键字)进行查询。最具代表性的目录索引是著名的雅虎和新浪目录搜索。
与全文搜索引擎相比,目录索引有很多不同之处。
首先,搜索引擎是自动网站搜索,而目录索引则完全是手动的。用户提交网站后,目录编辑会亲自浏览您的网站,然后根据一套自行确定的标准甚至主观印象来决定是否接受您的网站编辑。目录索引其次,搜索引擎收录网站时,只要网站本身不违反相关规则,一般都可以登录成功。目录索引对网站的要求要高很多,有时即使多次登录也不一定成功。尤其是像雅虎这样的超级索引,登录起来更是难上加难。
另外,我们在登录搜索引擎时,一般不需要考虑网站的分类,而在登录目录索引时,一定要把网站放在最合适的目录(Directory )。
最后,搜索引擎中每个网站的相关信息都是自动从用户的网页中提取出来的,所以从用户的角度来说,我们有更多的自主权;而目录索引要求你必须手动填写额外的网站Information,并且有各种限制。另外,如果工作人员认为你提交的网站目录和网站信息不合适,他可以随时调整,当然不会提前和你商量。
目录索引,顾名思义就是将网站存放在不同类别的对应目录中。因此,用户在查询信息时可以选择关键词进行搜索,也可以按类别进行搜索。如果按关键词搜索,返回的结果和搜索引擎一样,也是按照信息相关度网站进行排列,但人为因素较多。如果按层次目录搜索,网站在某个目录中的排名是由标题字母的顺序决定的(也有例外)。
目前,搜索引擎和目录索引有相互融合、相互渗透的趋势。原来,一些纯全文搜索引擎现在也提供目录搜索。例如,Google 借用 Open Directory 目录来提供分类查询。以及像 Yahoo! 这样的老品牌目录索引。通过与谷歌等搜索引擎合作扩大搜索范围(注)。在默认搜索模式下,有些目录搜索引擎首先返回自己目录中匹配的网站,如中国的搜狐、新浪、网易,而另一些则默认为网页搜索,如雅虎。该引擎的特点是查找准确率比较高。
■ 元搜索引擎(META Search Engine)
当元搜索引擎接受用户的查询请求时,它会同时在多个其他引擎上进行搜索,并将结果返回给用户。著名的元搜索引擎包括InfoSpace、Dogpile、Vivisimo等(元搜索引擎列表)。在中文元搜索引擎中,搜索引擎是具有代表性的搜索引擎。在搜索结果排列方面,有的直接按照源引擎排列搜索结果,比如Dogpile,也有的按照自己的规则重新排列组合,比如Vivisimo。
除了以上三类引擎外,还有以下非主流形式:
垂直搜索引擎
垂直搜索引擎是2006年后逐渐兴起的一类搜索引擎。 与一般的网络搜索引擎不同,垂直搜索侧重于特定的搜索领域和搜索需求(例如:机票搜索、旅游搜索、生活搜索、小说搜索、视频搜索等),如国内酷讯、去哪儿、携程等。在其特定的搜索区域有更好的用户体验。与一般搜索中的数千台搜索服务器相比,垂直搜索需要较低的硬件成本、特定的用户需求以及多种查询方式。
集成搜索引擎
集体搜索引擎:这个搜索引擎类似于元搜索引擎。不同的是它没有调用多个搜索引擎同时进行搜索,而是用户从提供的几个搜索引擎中进行选择,比如HotBot在2002年底推出的搜索引擎。
门户搜索引擎
门户搜索引擎:AOLSearch、MSNSearch等虽然提供搜索服务,但既没有目录也没有网页数据库,搜索结果完全来自其他搜索引擎。
免费链接列表
Free For All Links(简称FFA):一般只是简单的滚动链接条目,少数有简单的目录,但规模比雅虎大!等待目录索引变得更小。
2. 搜索引擎的技术架构
一个优秀的搜索引擎需要复杂的架构和算法来支持海量数据的获取和存储,以及对用户查询的快速准确响应。
从架构层面来说,搜索引擎需要具备对数百亿网页的获取、存储和处理能力,同时保证搜索结果的质量。
如何获取、存储和计算如此大量的数据?
如何快速响应用户查询?
如何使搜索结果满足用户的信息需求?
这些是搜索引擎面临的技术挑战。下图是一个通用的搜索引擎架构*敏*感*词*:
搜索引擎架构
搜索引擎由多个技术模块组成,每个模块负责整体功能的一部分,相互配合形成完整的整体架构。
抓取网页:
搜索引擎的信息来源来自互联网网页,互联网信息通过网络爬虫在本地获取。因为互联网页面上很大一部分内容是完全相同或几乎重复的,“网页去重”模块会做这个检测并去除重复的内容。
创建索引:
搜索引擎抓取网页后,会解析网页并提取网页的主要内容和相关信息,(包括网页所在的网址、编码类型、关键词、关键词页面内容收录的位置,以及生成的时间、大小、与其他网页的链接关系等)。根据一定的相关性算法进行大量复杂的计算,得到每个网页在页面内容和超链接中的每个关键词的相关性(或重要性),然后利用相关信息建立网页以建立索引。为了加快对用户查询的响应,网页内容通过一种称为“倒排索引”的高效查询数据结构进行保存,并且还保存了网页之间的链接关系。之所以保存链接关系,是因为这个关系在网络的相关性排名阶段是可用的。可以通过“链接分析”判断页面的相对重要性,这对于为用户提供准确的搜索结果非常有帮助。
由于网页数量众多,搜索引擎不仅需要保存网页的原创信息,还需要存储一些中间处理结果。使用单一或少量机器显然是不现实的。谷歌等商业搜索引擎为此开发了一套完整的云存储和云计算平台,利用数以万计的普通廉价PC为海量信息构建可靠的存储和计算架构,作为搜索的基础支撑。发动机和相关应用。优秀的云存储和云计算平台已成为大型商业搜索引擎的核心竞争力。以上就是搜索引擎获取和存储海量网页相关信息的方式。
查询词分析
搜索引擎最重要的目的是为用户提供准确、全面的搜索结果。如何实时响应用户查询并提供准确结果,构成了搜索引擎的前端计算系统。搜索引擎收到用户的查询后,首先需要对查询进行分析,希望将查询和用户信息结合起来,正确推断出用户的真实搜索意图。之后,首先查看缓存。搜索引擎的缓存系统存储了不同查询意图对应的搜索结果。如果在缓存系统中可以找到满足用户需求的信息,则可以直接将搜索结果返回给用户。节省重复计算的资源消耗,加快响应速度;
对搜索结果进行排序
如果缓存中存储的信息不能满足用户的需求,搜索引擎需要调用“页面排序”模块快速功能,根据用户的查询,实时计算出哪些网页满足用户的信息需求,并进行排序输出作为搜索结果。网页排名最重要的两个参考因素中,一个是内容相似度因素,即哪些网页与用户查询密切相关;另一个是网页重要性因素,即哪些网页质量好或者比较重要。这通常可以从链接分析的结果中获得。结合以上两个考虑,可以对网页进行排序并作为用户查询的搜索结果。
参考:
《这就是搜索引擎:核心技术详解》
《搜索引擎——信息检索实践》