搜索引擎优化原理(搜索引擎的基本工作原理包括如下三个的过程包括哪些?)
优采云 发布时间: 2022-02-08 16:07搜索引擎优化原理(搜索引擎的基本工作原理包括如下三个的过程包括哪些?)
搜索引擎的基本工作原理包括以下三个过程:
第一,发现和采集互联网上的网页信息;
同时对信息进行提取整理,建立索引库;
然后,检索器根据用户输入的查询关键字,快速检测索引数据库中的文档,评估文档与查询的相关性,对输出结果进行排序,将查询结果返回给用户。
1、 爬网。每个独立的搜索引擎都有自己的网络爬虫爬虫(spider)。爬虫Spider跟随网页中的超链接,从这个网站爬到另一个网站,通过超链接分析不断访问和爬取更多的网页。抓取的网页称为网页快照。由于超链接在互联网上的应用非常普遍,理论上,大部分网页都可以从一定范围的网页中采集。
2、处理网页。搜索引擎抓取网页后,需要进行大量的预处理,才能提供检索服务。其中,最重要的是提取关键词,建立索引库和索引。其他包括去除重复网页、分词(中文)、判断网页类型、分析超链接以及计算网页的重要性/丰富度。
3、提供检索服务。用户输入关键词进行检索,搜索引擎从索引库中找到与关键词匹配的网页;为了方便用户判断,除了网页标题和网址外,还会提供网页摘要等信息。
目录索引
与全文搜索引擎相比,目录索引有很多不同之处。
首先,搜索引擎是自动的网站检索,而目录索引完全是手动的。用户提交网站后,目录编辑会亲自浏览你的网站,然后根据一套自定义的标准甚至是用户的主观印象决定是否接受你的网站编辑。
其次,当搜索引擎收录网站时,只要网站本身不违反相关规则,一般都可以登录成功。目录索引对网站的要求要高得多,有时甚至多次登录也不一定成功。尤其是雅虎这样的超级索引,登录更是难上加难。
另外,登录搜索引擎时,我们一般不需要考虑网站的分类,而登录目录索引时,网站必须放在最合适的目录(Directory) .
最后,搜索引擎中每个网站的相关信息都是自动从用户的网页中提取出来的,所以从用户的角度来看,我们有更多的自主权;而目录索引要求你必须手动填写网站信息,并且有各种各样的限制。更何况,如果工作人员认为你提交的目录和网站信息不合适,他可以随时调整,当然不会提前和你商量。
目录索引,顾名思义,就是将网站按类别存储在对应的目录中,用户可以选择关键词进行信息搜索,也可以根据分类目录逐层搜索。如果用关键词搜索,返回的结果和搜索引擎一样,也是按照信息相关程度网站排名,但人为因素较多。如果按分层目录搜索,网站在目录中的排名由标题的字母顺序决定(有例外)。
目前,搜索引擎与目录索引之间存在融合和渗透的趋势。事实证明,现在一些纯全文搜索引擎也提供目录搜索。例如,Google 借用 Open Directory 目录来提供分类查询。旧目录索引,如 Yahoo! 与谷歌等搜索引擎合作扩大搜索范围(注),在默认搜索模式下,部分目录搜索引擎会先在自己的目录中返回匹配的网站,如国内搜狐、新浪、网易等.; 而其他人则默认使用网络搜索,例如雅虎。