反向链接成为搜索引擎优化的最基本因素(图)

优采云发布时间: 2021-06-03 18:48

　　搜索引擎的工作原理[]

　　概述

　　搜索引擎通常是指一种全文搜索引擎，它采集万维网上数千万到数十亿个网页，并将网页中的每个词（即关键词）编入索引，以建立索引数据库。

　　爬行和爬行

　　搜索引擎会发出一个程序，可以在 Internet 上查找新网页并抓取文件。这个程序通常被称为蜘蛛。搜索引擎从已知的数据库开始，像普通用户的浏览器一样访问这些网页并抓取文件。搜索引擎利用这些爬虫抓取互联网上的*敏*感*词*，爬虫可以简单分为以下几类：

　　批量爬虫：清除爬取目标和范围，到达就停止

　　增量爬虫：针对网页不断更新的状态，爬虫需要及时响应。一般业务引擎一般都是这种类型

　　垂直爬虫：只针对特定领域的爬虫，按主题过滤。

　　抓取网页时，抓取工具应该如何确定下一个目标？主要策略如下：

　　广度优先：最简单的方法是将一个页面中的链接依次加入到待抓取的队列中

　　Partial PageRank：PageRank 是衡量网页重要性的指标。该方法根据一定时间段内的部分PageRank值确定下一个抓取目标。

　　OPIC：下载当前网页后，将其重要性平均分配给收录的链接，每次选择最重要的页面，无需迭代计算，速度更快

　　大网站优先：思路很简单，页面的重要性以网站为单位来衡量。

　　接下来简单介绍一下搜索引擎中的一个重要问题：暗网爬虫。所谓暗网，是指通过常规方法难以抓取的网页，互联网上存在大量此类网页。有些网页没有外部链接，有些主要内容存储在数据库中（如携程），这些记录没有链接。暗网挖掘是商业搜索引擎的一大研究重点，谷歌就是这样，百度的“阿拉丁”计划也来了。

　　创建索引

　　蜘蛛爬取的页面文件被分解、分析，并以巨表的形式存入数据库。这个过程就是索引。在索引数据库中，网页的文字内容、关键词出现的位置、字体、颜色、粗体、斜体等相关信息都被相应地记录下来。对于搜索引擎来说，搜索是最重要的核心技术之一。面对海量的网页内容，如何快速找到所有收录用户查询的网页？倒排索引在其中起到了关键作用。对于一个网页，我们把它看成一个文档，它的内容是由文字组成的。为了快速为用户的搜索词提供文档结果，我们必须建立一个word-document存储结构。倒排索引是实现word-document矩阵的一种特定的存储形式。通过倒排索引，可以根据单词快速获取收录该单词的文档列表。倒排索引主要由词词典和倒排文件两部分组成。词词典主要以两种方式存储：hash加链接和树结构。

　　搜索词处理

　　用户在搜索引擎界面输入关键词并点击“搜索”按钮后，搜索引擎程序会对搜索词进行处理，如中文特有的分词处理，去除停用词，确定是否需要启动集成搜索。是否有拼写错误或错别字。搜索词的处理必须非常快。提供检索服务。用户输入关键词进行搜索，搜索引擎从索引库中找到与关键词匹配的网页；为方便用户，除了提供网页标题和网址外，还会提供网页摘要等信息。

　　用户检索的过程是对前两个过程的考验。就是测试搜索引擎是否能够提供最准确、最广泛的信息，以及搜索引擎是否能够快速的给出用户最想要的信息。对于网站数据的检索，新浪搜索引擎采用多进程的方式在索引库中检索，大大减少了用户的等待时间，高峰期对服务器的负担也不会太高用户查询（平均检索时间在0.3 秒左右）。在网页信息检索方面，百度作为国内多家门户网站网站的网络搜索技术提供商，其搜索引擎采用先进的多线程技术，采用高效的搜索算法和稳定的UNIX平台，可以大大缩短时间给用户。搜索请求的响应时间。作为HC I系列应用软件产品之一，I-Search2000采用超*敏*感*词*动态缓存技术，一级响应覆盖率可达75%以上，独特的自学习能力自动将二级响应的覆盖率扩大到 20% 以上。

　　排序

　　处理完搜索词后，搜索引擎程序开始工作，从索引库中找出所有收录该搜索词的网页，并根据排名算法计算出哪些网页应该排在第一位，然后返回“搜索“某种格式的”页面。

　　搜索引擎再好，也不能和人相比。这就是网站必须做搜索引擎优化的原因。如果没有 SEO 的帮助，搜索引擎往往无法正确返回最相关、最权威、最有用的信息。

　　参考资料：好搜百科百度百科

0

2021-06-03

百度搜索引擎优化原理

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

反向链接成为搜索引擎优化的最基本因素(图)

0 个评论

发起人