阿里巴巴网站的搜索引擎优化案例(搜索NLP算法搜索链路这是一个领域知识要求高(组图))
优采云 发布时间: 2022-01-17 10:13阿里巴巴网站的搜索引擎优化案例(搜索NLP算法搜索链路这是一个领域知识要求高(组图))
搜索 NLP 算法
搜索链接
这是一个从查询词到搜索结果的完整链接,其中NLP算法在第二阶段的查询分析中起主要作用,包括多个NLP算法模块,如分词、纠错、文本侧实体识别、词权重、同义词、语义向量等。系统是结合文本和语义向量多路召回排序的架构,以满足不同业务场景的搜索效果需求。当然,除了查询分析,NLP算法在第一阶段的搜索引导和第四阶段的排名服务中也有很多应用。
查询分析
NLP算法在这里主要在几个子模块中发挥作用:
现在Open Search不仅支持阿里自研的搜索引擎,还兼容开源的ES引擎,让用户更方便的使用我们的算法能力
行业模式
客户痛点
1.一般模型域很难适应
例如:通用领域模型与电商领域模型的区别
2.公共行业模型很少
解决困难
构建行业搜索 NLP 模型的过程:
第一步是给数据集打标签,这对行业知识要求非常高,同时对数据量的要求也需要达到10000的水平。标记这些数据也需要几个月的时间。下一步是模型训练。这一步需要专业的算法人员。如果不是对算法不熟悉,模型的迭代效率会很低。最后,模型上线步骤需要工程师部署和操作。如果涉及到deep model 有的上线,就会有很多效率优化工作需要做。数据集标记阶段已经存在许多挑战。
分词的难点
1.需要高领域知识
例如:
2.交叉歧义判断难
例如:
实体识别和标注的难点
1.需要高领域知识
例如:
解决方案
Open Search基于阿里巴巴内部搜索的数据积累,结合自动数据挖掘和自研算法模型,在行业模型的构建环节上进行了改造。
同样以分词和NER为例,下面的模型图就是分词的过程。我们首先使用自动新词发现算法来挖掘目标域中的域新词。在获得这些新词后,我们将在目标域中构建一个远程监督的训练数据。
基于这样的远程监督训练数据,我们提出了一个对抗性学习网络的结构模型,可以达到降噪的效果,从而得到我们去年目标域的域模型。
下面的模型图是NER的过程。我们采用图NER结合图神经网络的模型结构,可以整合知识库和标注数据。知识库是刚才分词的环节中新词发现模块自动挖掘出来的一个新词,然后我们做一个自动实体词标记,构建一个领域知识库。相应的技术论文已发表在NLP领域顶级会议ACL上。
综上所述,通过以上提到的技术方案,以电子商务行业为例,看看开放搜索行业模式所取得的效果。
可以看出,开放搜索的电商行业增强版明显比普通版好很多。
该方案不仅适用于电商行业,只要是有数据积累的行业,都可以快速构建出一套行业模型。
开放搜索轻量级定制
客户痛点
首先可以看出,一般模型直接使用可以直接达到60分的效果。
刚才提到的行业模型,适用性可以达到80分的效果。
但是,具体到每个客户,细分领域都存在定制化的问题。普通客户的目标可能是 90 分。
举以下两个例子:
左边的“Vance Soda Series”其实是一款运动鞋的特定品牌和系列名称。虽然开放搜索电商模式已经可以正确识别品牌和常用词,但对于汽水的具体细分系列并没有正确识别。右下图为“汉本翠宝味饮品”。这里开放搜索的电商模式,完全没有识别出它的独特品牌和子系列。如果客户在我们提供的行业模型的基础上做自己的定制优化,他们会遇到与上述相同的行业模型解决方案。问题,以至于最后很难破85分,
我们的目标是降低客户的贴标成本,不贴标或少量简单的贴标,让客户的定制使用更方便,从而直接达到85分的效果。
解决方案
整体流程类似于行业模型搭建环节。有必要对这些功能产品进行工具化,以便客户可以独立参与调优。
创建新的训练模型
下图是我们制作的一个工具的演示。以上是模型创建。有的客户可以选择一个基础的行业模型,然后上传自己领域的未标注数据,自动开始模型的训练。
2.有效评价
以下是客户在模型训练后可以在我们的系统上进行的直观效果评估。可以看到这里列出了基本模型和模型自动训练后的效果。客户也可以做少量的手工工作。用于验证模型效果的注释。
该链接已被阿里巴巴内部使用,近期将在开放搜索产品上向客户公开。事实证明,我们可能需要一到两个月的时间来做一个轻量级的自定义定制,才能达到上述效果。对这些超过 10,000 个句子的标记数据进行标注。现在,基于这个方案,只需要一周时间,完全没有标注或者只需要标注不到1000个标注数据就可以达到这样的效果。
轻量化定制效果展示
我们的工具可以自动发现场景中的这些新词,并预测这些新词的实体标签。可以看出,括号中的这些新词是在不同的上下文中预测的,标签的分布指导我们判断这个新词是否是合法的新词,属于什么实体标签,从而提供最关键的我们模型的信息。
地址场景
电子商务场景
原文链接: