百度搜索引擎优化指南2.0 官方版(阿里巴巴智能引擎事业部算法平台负责人张迪:推荐引擎的核心技术和挑战)

优采云 发布时间: 2021-11-01 22:23

  百度搜索引擎优化指南2.0 官方版(阿里巴巴智能引擎事业部算法平台负责人张迪:推荐引擎的核心技术和挑战)

  在策划AICon人工智能与机器学习大会(2021.11.6-7 Beijing)时,首先想到的就是推荐广告技术,无论是工程技术还是建筑技术,但也更符合人工智能技术的应用预期。策划之初,我们拜访了阿里巴巴智能引擎事业部算法平台负责人、阿里巴巴工程技术负责人张迪先生(乐迪),共同探讨了推荐和搜索的话题。

  推荐引擎的核心技术与挑战

  在过去的几年中,整个推荐引擎发展非常迅速。推荐引擎中其实收录三项核心技术。一是召回技术,二是排序技术,三是机制技术,尤其是在广告领域。其机理性很强。

  这三种技术分别对应算法和架构,涉及到召回技术。近年来,召回技术发生了很大变化。最早的召回技术,无论是搜索还是推荐,本质上都是基于关键词的召回。通过搜索关键词和查询重写来调用搜索。

  后来出现了各种向量召回,引入了更丰富的模型信息。矢量化召回的本质是利用模型进行匹配,但是这种模型计算的在线规则非常复杂,因为大量的模型无法在线完成。匹配,所以在线部分只剩下经典的双塔结构,下面所有的模型计算部分都放到离线处理。但也有弊端,就是网上计算过于简单,会丢失很多个性化的东西。这也催生了新技术,越来越多的计算被在线处理。后来出现了全数据库检索等技术。因此,整个在线召回结构发生了很大变化。

  在线排名,这是在线的核心部分。随着模型的发展,计算量越来越大。如何支持这种越来越*敏*感*词*的在线Ranking计算也是一个非常大的挑战。

  上述机制也在朝着建模的方向发展。以强化学习为例,推荐结构中推荐引擎的发展与算法是一致的。随着算法变得越来越复杂,给在线架构和计算量带来了很多挑战,很多技术都是从中衍生出来的。.

  推荐引擎和云原生

  关于推荐引擎,整个容量管理和自动化往往是云原生的。Cloud-native其实是个大概念,但总体上代表了更好的,越来越多的serverless,越来越多的业务发展,越来越底层。分布式架构的解耦带来了研发效率的提升。随着产能的自动扩展,这项技术的影响越来越广泛。

  另外,AI算力的演进,recall的算力越来越强,Ranking的算力也越来越强,给整个架构带来了挑战。比如这几年出现的超*敏*感*词*模型的服务器问题和TB级模型的服务器问题。*敏*感*词*意味着广泛的网络。如果再深入,就必须在单芯片上做越来越多的挖掘和编译优化。更好的是,您在离线时面临这样的问题。

  分布式模型训练的方向仍然是一个非常重要的问题。如何更有效地训练模型?除了把SQL做的越来越好,百度、阿里、英伟达这几年也在做另一个方向。用GPU pods或者AI芯片pods来训练推荐模型是非常有创意的。,这是整个训练的方向。在Training之上,其实还有很多有趣的训练方式,都是创新的训练模式。比较经典的是这几年的Graph Learning,还有联邦学习、双曲线空间、在线学习等,应用范围很广。

  关于搜索引擎,总体趋势是越来越推荐。search最大的特点就是有一个关键词,它是基于关键词约束做Query的。这是它最大的区别,但是现在越来越多的就是把推荐的技术放进去,逐渐用算法的形式,然后在不是关键词的约束下,而是在一个基本的相关性下做推荐约束。

  活动推荐:

  除了上面讨论的一些技术演进之外,我们还讨论了如何将异构计算、推荐算法、沉浸式事件推荐多阶段排序技术与业务场景相结合,在AICon大会上向观众展示。这些话题目前都在官网上线,有兴趣的可以移步官网了解一下。

  此外,AICon还将讨论人工智能、通用机器学习、计算机视觉、智能金融技术、AI团队建设、自动驾驶技术、NLP技术、*敏*感*词*机器学习等多个话题,精彩内容持续在线的。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线