以人工智能为基础的搜索算法是什么样的?

优采云 发布时间: 2021-07-12 22:16

  以人工智能为基础的搜索算法是什么样的?

  三年前,当 Googled 的 AlphaGo 横空出世时,我写了一篇文章“AlphaGo、深度学习和 SEO”。从那以后,我一直非常关注人工智能和搜索算法的进展。

  

  不知道+dao搜索算法什么时候会*敏*感*词*基于AI,也不知道目前的AI技术在搜索算法上应用到什么程度。由于当前人工智能技术的不可解释性,搜索引擎使用人工智能作为算法基础会非常谨慎,否则不容易调试。

  但是,AI在算法的一些模块中的应用是肯定的。之前介绍过百度的DNN模型和谷歌的RankBrain算法,都是AI在搜索算法中的应用。

  那么完全基于人工智能的搜索算法是什么?工作原理和过程是什么?简单谈谈我的理解。

  人工智能的优势与探索

  目前实现人工智能的主流方法是机器学习的深度学习分支,本文不严格区分。

  简单来说,人工智能就是给系统大量的训练数据,人工智能从中找出规律和规律。提供给AI系统的数据是有标签的,换句话说,就是将结果告诉AI系统。比如在围棋中,AI系统有大量的历史游戏数据(后来的Alpha甚至不需要历史游戏数据,只需要自己的游戏数据),以及这些游戏的输赢结果。这个结果就是标签。然后AI系统自学习棋盘与结果(输赢)的关系。

  在搜索方面,AI系统有大量的页面数据,也就是搜索引擎本身的索引库,它也需要标签,也就是知道哪些页面质量高?对于一个查询词,哪些搜索结果让用户满意?然后AI算法学习页面特征(即排名因素)与排名的关系。

  传统的搜索算法是搜索工程师人工选择排名因素,人工给排名因素一定的权重,根据给定的公式计算排名。这种方法的缺点是当数据量大,排序因素较多时,很难调整排序因素的权重。初始权重大概是基于常识,再加上爆头,主观随意性很大。当有数百个因素且这些因素相互影响时,调整这些因素的权重就会变得混乱和不可预测。

  从海量数据中找出规律是人工智能的强项。 AI可以快速找到可能的排名因素,调整排名因素的权重,自动迭代计算,将排名因素与用户满意的搜索结果之间的计算公式进行拟合。

  通过训练数据训练出来的计算公式是AI搜索算法,可以应用于用户进行更多搜索。

  谁来标记?

  既然训练AI搜索算法需要标记数据,那么标记数据从何而来?这就是搜索引擎质量评估员的职责。

  不久前在 Google 质量评估指南的帖子中详细介绍了质量评估员的工作。这些真实的用户(他们不是谷歌员工),在学习了质量评测指南后,谷歌会在评测系统中提供真实的网站和真实的查询数据给评测者,评测者会进行相关的评测。最重要的是:

  Google 的质量评估员已经存在很长时间了。他们不应该被招募来开发人工智能算法,而是评估传统算法的质量。但他们的评估数据恰好被人工智能系统有效利用。

  这样,AI系统就知道用户对某个查询词满意的搜索结果是哪些页面,以及它们的排名顺序。

  既然AI系统拥有海量的页面特征数据,并且知道什么样的搜索结果让真实用户满意,下一步就是训练系统找到页面特征与搜索排名的关系。

  训练人工智能搜索算法

  搜索引擎可以将标记的搜索结果数据分为两组。一套用于训练,一套用于验证。

  AI算法会检查训练组搜索结果中页面的特征,应该给这些特征赋予什么权重,以及使用什么计算公式来计算用户满意(标记)的搜索结果。

  与传统算法不同,需要哪些特征(排序因子),这些特征赋予多少权重不是由工程师决定的,而是由AI系统自己去寻找和评估。这些因素可能是工程师想要并一直在使用的因素,例如:

  也许是工程师从未想过的事情,或者表面上看起来无关紧要和不合理的事情,例如:

  以上只是示例。举例来说,人工智能不是在寻找因果关系,而是在寻找相关性。 AI看到排名靠前的页面的特征就足够了。至于将这些特征与排名联系起来是否有意义,这不是AI关心的,也没有必要。

  当然,有些因素可能是负面的,比如域名长度,很可能与高排名呈负相关。

  AI系统训练的过程就是找出这些排名因素(不管人类看起来是否合理),给这些因素赋予一定的权重,拟合出一个计算公式,正好可以排出用户满意的搜索结果和。这个拟合过程应该是迭代的。一个重量值和一个公式将不起作用。它将自动调整并重新计算,直到评估者标记的搜索结果完美匹配。此训练过程可能需要几天或几周的时间,具体取决于数据量。

  AI搜索算法验证

  经过训练的 AI 搜索算法可以应用于不在训练数据中的其他查询词。

  首先用上述验证组数据进行验证。如果新训练的算法给出的搜索结果与验证组数据(也被评估者标记)匹配,则表示该算法是好的,您可以上网。如果AI算法给出的搜索结果与验证组搜索结果中的页面不同,或者页面基本相同但排序差异很大,可能需要重新训练AI系统.

  当然,对于所有的查询词,AI算法给出的搜索结果与评估者标注的最满意的搜索结果完全一致,这是不太可能的。估计只要排在第一位,比如前20页的顺序差在一定的容差范围内。排名越高,要求的容错率越低。例如,第一行和第二行的错误页面比第三页的错误页面严重得多。

  经过验证的算法可以被真实用户发布和接受。这很可能涉及到一个SEO普遍认为与排名有关但搜索引擎一直否认的排名因素:用户体验数据是排名因素吗?

  很多SEO排名因素统计显示,页面点击率、跳出率、用户停留时间、访问深度和排名高度相关,但谷歌一直明确否认这些数据是排名因素。当然,对于百度来说,点击率显然是一个排名因素。

  原因很可能是搜索引擎需要使用这些用户体验数据来验证搜索算法的质量。如果用户普遍降低点击率,提高跳出率,说明新上线的算法有问题,需要调整。虽然搜索引擎不直接使用用户数据进行排名,但该算法的目标是改进用户数据,使两者高度相关。

  新AI算法上线后,搜索引擎监测到的用户数据显示用户满意,算法成功,等待下一轮优化。

  以上纯属猜测。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线