搜索引擎进行信息检索的优化策略方法( 先上图来简单看下搜索引擎的“三板斧”(组图))

优采云 发布时间: 2021-12-01 07:18

  搜索引擎进行信息检索的优化策略方法(

先上图来简单看下搜索引擎的“三板斧”(组图))

  

  摘要:首先我们来简单了解一下搜索引擎的“三招”:数据采集-预处理【索引】-排序。

  数据采集​​是数据采集的阶段,将广阔的互联网世界中的网页采集到自己的数据库中进行存储。

  1、 爬取维护策略面临着大量的需求需要处理... 首先我们来简单的看一下搜索引擎的“三招”:数据采集->预处理[索引]->排行。

  数据采集​​是数据采集的阶段,将广阔的互联网世界中的网页采集到自己的数据库中进行存储。

  1、获取和维护策略面临大量需要处理的数据,需要提前考虑很多问题。

  比如,是数据的“实时爬取”还是“预爬取”?在维护数据时,是“定期爬取”(定期深度爬取替换原创数据)还是“增量爬取”(以原创数据为基础,以旧换新)?2、链接跟踪我们都知道蜘蛛会沿着链接爬行和抓取页面。

  如何快速抓取对用户来说比较重要的信息,实现广泛覆盖,无疑是搜索引擎考虑的重点。

  先说第一个,如何抓取重要信息。

  要知道这一点,主页必须了解人们如何主观判断页面是否重要(请自行思考)。

  其实无非就是以下几种情况:网页有历史权重积累(域名等时间长,质量高,资历老),很多人会参考这个页面(指向外部链接),很多人们会参考这个页面(转载或转载)镜像),这个页面方便用户快速浏览(层次浅),经常出现新内容(更新)等等。

  在链接追踪阶段,唯一能得到的信息是“该页面便于用户快速浏览(浅层)”,其他信息尚未得到。

  信息的覆盖率实际上是蜘蛛在跟踪链接时使用的两种策略:深度爬行和广泛爬行。

  如果你用你的屁股考虑一下,你就会知道宽爬有助于获取更多信息,而深爬有助于获取更全面的信息。

  在抓取数据时,搜索引擎蜘蛛通常会同时使用这两种方法,但相比之下,广泛的抓取要多于深度的抓取。

  3、 地址库搜索引擎建立初期,必须有手动输入的*敏*感*词*库,否则蜘蛛将无法启动连接跟踪。

  按照这些*敏*感*词*库,蜘蛛可以找到更多链接。

  当然,多个搜索引擎会发布一个页面提交入口,以便站长提交站点。

  但值得一提的是,搜索引擎更喜欢他们找到的链接。

  4、 文件存储链接跟踪完成后,需要存储被跟踪的信息。

  存储的对象,第一个是url,第二个是页面内容(文件大小、上次更新时间、http状态码、页面源代码等)。

  关于url,由于我上次看到一个泛端口作弊网站,这里简单提一下。

  一个url由传输协议、域名、端口、路径、文件名等几部分组成。

  预处理【索引】 数据捕获后,需要进行预处理(很多人喜欢称这一步为索引)。

  主要从文本提取、分词、索引、链接分析等方面。

  1、 提取一段比较好理解的文字,提取源码中的文字。

  当然,需要注意的是,这将包括元信息和一些替代文本(例如 alt 标签)。

  2、到了这一步的分词,总想感叹汉字的博大精深。

  什么!什么!什么!叹了口气,继续往前走。

  分词是中文特有的步骤,即根据句子的意思对文本进行拆分。

  一般情况下,分词会基于字典和统计。

  为了更有效地进行机器分割,通常采用“正向匹配”和“反向匹配”两种思路。

  值得一提的是,“反向匹配”的方法更容易获得更有价值的信息(想想为什么)。

  需要强调的一点是,为了便于分词后的词组更好地表达文章的核心含义,去暂停词(比如,啊,嗯等词),去噪(导航、版权、分类等,对主题含义的表达有影响)。

  3、 去重后,去停顿一下,去噪后剩下的词组已经可以表达页面的主要意思了。

  为了防止内容被搜索引擎收录重复,搜索引擎需要一种算法来进行去重处理。

  比如比较知名和常用的MD5算法,请点击百度百科链接,自己做脑补。

  4、 索引创建完成后去除重复,就是大家常说的正向索引和倒排索引。

  5、 链接算法排名索引文件建立后,排名不远了。

  1、搜索词处理。搜索引擎也会对搜索词进行分词处理(想想为什么)。说到这里,我不禁感受到了汉字的博大精深。

  针对这个问题,我想添加一个叫做文本粒度的概念。

  嗯,为了不让孩子误认,这个我还是给百度官方解释一下。

  2、 文件匹配和子集选择 根据百度官方的说法,用户搜索到分词处理后,可以调用索引库。

  这里要考虑的一件事是,用户倾向于在前几页上查看搜索结果。

  因此,搜索引擎为了计算资源,往往只返回部分结果(百度显示76页,谷歌100页),即召回索引库中文档的一个子集。

  3、 相关性计算一般来说,影响相关性的因素有五个。

  关于这部分,也就是大家常说的SEO优化方法和方法,这里不再赘述。

  4、 ranking过滤和调整其实是通过相关计算的,结果已经大致确定了。

  只是为了惩戒一些涉嫌作弊的网站,搜索引擎会对该部分的结果进行微调。

  比如百度的11位机制。

  5、 显示结果深吸一口气,终于可以看到显示结果了。

  返回的结果将包括标题、描述、快照条目、快照日期、url 等。

  这里值得一提的是,不仅描述了搜索引擎可以动态抓取,或许在不久的将来,标题也会动态抓取。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线