阿里巴巴网站的搜索引擎优化案例(搜索NLP算法搜索链路这是一个领域知识要求高(组图))

优采云 发布时间: 2022-01-17 10:13

  阿里巴巴网站的搜索引擎优化案例(搜索NLP算法搜索链路这是一个领域知识要求高(组图))

  搜索 NLP 算法

  搜索链接

  这是一个从查询词到搜索结果的完整链接,其中NLP算法在第二阶段的查询分析中起主要作用,包括多个NLP算法模块,如分词、纠错、文本侧实体识别、词权重、同义词、语义向量等。系统是结合文本和语义向量多路召回排序的架构,以满足不同业务场景的搜索效果需求。当然,除了查询分析,NLP算法在第一阶段的搜索引导和第四阶段的排名服务中也有很多应用。

  

  查询分析

  NLP算法在这里主要在几个子模块中发挥作用:

  

  现在Open Search不仅支持阿里自研的搜索引擎,还兼容开源的ES引擎,让用户更方便的使用我们的算法能力

  行业模式

  客户痛点

  1.一般模型域很难适应

  例如:通用领域模型与电商领域模型的区别

  

  2.公共行业模型很少

  

  解决困难

  构建行业搜索 NLP 模型的过程:

  

  第一步是给数据集打标签,这对行业知识要求非常高,同时对数据量的要求也需要达到10000的水平。标记这些数据也需要几个月的时间。下一步是模型训练。这一步需要专业的算法人员。如果不是对算法不熟悉,模型的迭代效率会很低。最后,模型上线步骤需要工程师部署和操作。如果涉及到deep model 有的上线,就会有很多效率优化工作需要做。数据集标记阶段已经存在许多挑战。

  分词的难点

  1.需要高领域知识

  例如:

  2.交叉歧义判断难

  例如:

  实体识别和标注的难点

  1.需要高领域知识

  例如:

  解决方案

  Open Search基于阿里巴巴内部搜索的数据积累,结合自动数据挖掘和自研算法模型,在行业模型的构建环节上进行了改造。

  同样以分词和NER为例,下面的模型图就是分词的过程。我们首先使用自动新词发现算法来挖掘目标域中的域新词。在获得这些新词后,我们将在目标域中构建一个远程监督的训练数据。

  

  基于这样的远程监督训练数据,我们提出了一个对抗性学习网络的结构模型,可以达到降噪的效果,从而得到我们去年目标域的域模型。

  

  下面的模型图是NER的过程。我们采用图NER结合图神经网络的模型结构,可以整合知识库和标注数据。知识库是刚才分词的环节中新词发现模块自动挖掘出来的一个新词,然后我们做一个自动实体词标记,构建一个领域知识库。相应的技术论文已发表在NLP领域顶级会议ACL上。

  

  综上所述,通过以上提到的技术方案,以电子商务行业为例,看看开放搜索行业模式所取得的效果。

  可以看出,开放搜索的电商行业增强版明显比普通版好很多。

  该方案不仅适用于电商行业,只要是有数据积累的行业,都可以快速构建出一套行业模型。

  

  开放搜索轻量级定制

  客户痛点

  

  首先可以看出,一般模型直接使用可以直接达到60分的效果。

  刚才提到的行业模型,适用性可以达到80分的效果。

  但是,具体到每个客户,细分领域都存在定制化的问题。普通客户的目标可能是 90 分。

  举以下两个例子:

  左边的“Vance Soda Series”其实是一款运动鞋的特定品牌和系列名称。虽然开放搜索电商模式已经可以正确识别品牌和常用词,但对于汽水的具体细分系列并没有正确识别。右下图为“汉本翠宝味饮品”。这里开放搜索的电商模式,完全没有识别出它的独特品牌和子系列。如果客户在我们提供的行业模型的基础上做自己的定制优化,他们会遇到与上述相同的行业模型解决方案。问题,以至于最后很难破85分,

  

  我们的目标是降低客户的贴标成本,不贴标或少量简单的贴标,让客户的定制使用更方便,从而直接达到85分的效果。

  解决方案

  整体流程类似于行业模型搭建环节。有必要对这些功能产品进行工具化,以便客户可以独立参与调优。

  创建新的训练模型

  下图是我们制作的一个工具的演示。以上是模型创建。有的客户可以选择一个基础的行业模型,然后上传自己领域的未标注数据,自动开始模型的训练。

  

  2.有效评价

  以下是客户在模型训练后可以在我们的系统上进行的直观效果评估。可以看到这里列出了基本模型和模型自动训练后的效果。客户也可以做少量的手工工作。用于验证模型效果的注释。

  

  该链接已被阿里巴巴内部使用,近期将在开放搜索产品上向客户公开。事实证明,我们可能需要一到两个月的时间来做一个轻量级的自定义定制,才能达到上述效果。对这些超过 10,000 个句子的标记数据进行标注。现在,基于这个方案,只需要一周时间,完全没有标注或者只需要标注不到1000个标注数据就可以达到这样的效果。

  

  轻量化定制效果展示

  我们的工具可以自动发现场景中的这些新词,并预测这些新词的实体标签。可以看出,括号中的这些新词是在不同的上下文中预测的,标签的分布指导我们判断这个新词是否是合法的新词,属于什么实体标签,从而提供最关键的我们模型的信息。

  地址场景

  

  电子商务场景

  

  原文链接:

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线