知识图谱、表示学习动机尽管的动机基于以下两点

优采云 发布时间: 2021-08-09 04:29

  知识图谱、表示学习动机尽管的动机基于以下两点

  作者丨王文博

  学校丨哈尔滨工程大学硕士

  研究方向丨知识图谱、表征学习

  

  动机

  虽然*敏*感*词*的知识图谱已经收录了数十亿的三元组数据,但还不是很完整。其中,还有未被发现的真实有效的三元组。因此,本文提出了许多用于学习实体和关系的向量表示的嵌入模型,以通过预测三元组是否有效来改进知识图谱。同时,本文作者发现上述模型也可以用于(提交查询,用户*敏*感*词*)。 ,返回文档)作为三元组,解决个性化搜索问题。因此,写这篇文章的动机基于以下两点:

  之前对三元组建模有效性的研究仅关注知识图谱的完整性或个性化搜索的准确性。但是,本文针对上述两个问题同时使用模型来衡量模型的有效性。

  TransE、DISMULT、ComplEx等传统嵌入式模型只使用向量之间的加减乘,所以只能捕捉向量之间的线性关系。虽然现在越来越多的研究集中在使用深度神经网络来解决三元组的预测问题,例如ConvE,但假设可以通过分析三元组相同维度的数据来捕获三元组的头部向量。特定关系中的实体和尾实体的特定属性信息。因此,这些模型大多采用对三元组同维信息建模的方法。但是没有模型可以对具有深层结构的相同维度的三元组信息进行建模。

  CapsE 模型

  ζ 表示真三元组的集合,其中三元组以 (s,r,o) 的形式表示。构建嵌入模型的目的是定义一个评分函数对每个三元组进行评分,使真实三元组的分数高于假三元组的分数。

  用于独立表示 s、r 和 o 的嵌入向量。在 CapsE 模型中,三元组的嵌入向量组合成一个形式并作为矩阵处理。对矩阵A的第i行进行符号化,对卷积层应用一个filter,对矩阵A的每一行重复应用这个filter,形成一个

  

  特征映射的形式。哪里:

  

  ·表示点积,b∈R是偏置项,g是非线性激活函数,如ReLU。

  CapsE 模型中使用了多个过滤器来生成多个特征图。用Ω表示滤波器组,用N=|Ω|表示集合中过滤器的数量。因此,可以得到N个k维的特征图,每个特征图从三元组的同一维上映射得到一个唯一的特征。

  作者通过使用两个独立胶囊层的简化架构来构建 CapsE 模型。在第一个胶囊层,作者构造了k个胶囊,使得特征映射向量相同维度的所有数据形成一个胶囊。因此,每个胶囊可以捕获嵌入到三元组中相应维度条目中的许多特征。这些特征被传递到第二层中的胶囊以生成输出向量。输出向量的长度(可以理解为L1f范数)代表了三元组的得分。

  第一个胶囊层由 k 个胶囊组成。每个胶囊 i∈{1,2,...,k} 都有一个输出向量。将输出向量乘以权重矩阵,将所有向量相加得到一个向量,作为第二个胶囊层中胶囊的输入。之后,胶囊使用非线性压缩函数生成输出向量。

  

  表示耦合系数,由算法1的路由过程决定。本文在capsule层的前后层之间使用softmax。算法一如图所示:

  

  

  如图1所示,在本文提出的模型中,embedding size k=4;过滤器数量N=5;胶囊第一层的神经元数量等于N;胶囊的第二层中的神经元数量为2:d=2。输出向量 e 的长度用作输入三元组 (s, r, o) 的分数。最后,本文定义了三元组的得分函数f如下:

  

  * 表示卷积操作,capsnet 表示胶囊网络操作。本文使用Adam优化器来训练CapsE模型以最小化损失函数值。损失函数如下:

  

  如果(s,r,o)∈ζ,则t(s,r,o)=1 如果(s,r,o)∈ζ',则t(s,r,o)=-1。

  其中 ζ 和 ζ' 分别代表正确的三元组和错误的三元组。 ζ'是指通过破坏结构并随机替换其头部实体或尾部实体,由ζ中的正确三元组组成的新三元组。

  实验

  完整的知识图谱评估

  数据集

  本文中的实验使用数据集 WN18RR 和 FB15k-237。因为这两个数据集排除了收录可逆关系的三元组,所以这两个数据集更加真实,也增加了在这两个数据集上进行实验的难度。

  

  评估计划

  通过以下过滤器设置执行链接预测:对每个测试三元组和不在训练集、验证集或测试集中并由三元组生成的所有其他候选三元组进行排名。其中,候选三元组是用实体集中的其他实体替换三元组中的原创实体生成的三元组。并以平均排名(MR)、平均数排名(MRR)和Hits@10作为评价标准。

  实验计划

  文章使用100维Glove词嵌入模型进行预训练,然后在数据集WN18RR上训练一个TransE模型。并将TransE模型的训练结果作为模型convKB和CapsE的初始值。

  ConvE模型的参数设置如下:选择Adam优化器,设置学习率

  

  ;过滤器的数量 N 设置为 {50,100,200,400}。当模型得到最高Hits@10时,在数据集WN18RR上,N=400,学习率的初始值;在数据集FB15k-237上,N=400,学习率的初始值。

  对于CapsE模型,参数设置如下:embedding vector维度设置为100;批量大小设置为128,胶囊中第二层胶囊的神经元数d设置为10;路由算法的迭代次数设置为{1,3,5,7}。当模型得到最高Hits@10时,在数据集WN18RR上,m=1,N=400,学习率的初始值;在数据集FB15k-237上,m=1,N=50,学习率的初始值。

  主要实验结果

  

  CaspE 模型在数据集 WN18RR 上获得了最佳 MR,在数据集 FB15k-237 上获得了最佳 Hits@10。下面主要分析模型ConvKB和模型CapsE分别在FB15k-237数据集上预测头尾实体时MRR和Hits@10的值。

  在本文中,作者使用以下方法对关系进行分类:

  记录给定关系r上每个尾实体对应的头实体的平均数为;记录给定关系r上每个头实体对应的尾实体的平均数为。

  从上面的结果图可以得出以下实验结论:CapsE在预测M端实体时会得到比ConvKB更好的实验结果; ConvKB 在预测 1-end 实体时会比 CapsE 更好 实验结果。

  分析这个结果。由于第一层中每个胶囊的方向和长度有助于对同一维度的数据项进行建模,因此 CapsE 模型在实体出现频率较低的 M 端执行。预测效果优于实体出现频率更高的第一端。现有模型 DISTMULT、ComplEx 和 ConvE 对实体较高频率的第一端有较好的预测效果。以上就是CapsE模型能够在数据集FB15k-237和数据集WN18RR上取得较好预测结果的原因。

  路由迭代的实验结果:本文作者还研究了路由迭代次数对模型效果的影响。得出结论:当迭代次数设为1,其他参数不变时,相应的模型可以获得最佳的实验结果。

  这说明了知识图谱和图像问题的区别。在图像分类任务中,将迭代次数 m 设置为大于 1 的数字有助于更准确地捕获图像中实体的相对位置。但相反,由于知识图中同类关系的不同实体之间变化的多样性,这种基于图像的思想只能正确处理知识图中的1-1关系,而不适用于处理 1-M。 M-1与MM的关系。

  个性化搜索应用

  个性化搜索:给定一个用户(user),该用户的查询关键词(query),搜索系统对与查询关键词相关的文件进行重新排序,并返回结果文件(document)。另外,与用户相关的文档和用户在上述排序过程中给出的查询关键词越相关,应该得到的排序结果就越好。基于以下两个原因,CapsE模型可以用来完成个性化的搜索任务:

  数据集

  作者使用了106个用户的*敏*感*词*网络搜索引擎查询日志集合(SEARCH17)作为实验数据集。该数据集收录一个用户查询返回的10个最佳结果,以及用户的这些结果的延迟时间,在这些返回的文档中,用户点击过的文档,或者停留时间超过30秒的文档被标记为相关,返回的前10个文档中剩余的文档被标记为不相关。 Passed 与标签相关的文档位置,用于评估搜索结果。

  划分数据集,将数据集划分为训练集、验证集和测试集,达到利用训练集中的历史数据预测测试集中新数据的目的。训练集、验证集和测试集分别由5658、1184和1210个相关三元组和40239、7882、8540个不相关三元组组成。

  评估计划

  模型CapsE按照如下方式对搜索引擎返回的原创文件列表进行重新排序:

  1. 训练 CapsE 模型,并使用训练好的模型计算每个三元组 (s, r, o) 的分数。

  2. 将分数降序排序,作为返回文件列表中文件的新顺序。

  使用指标MRR和指标Hits@1作为评价标准。这两个指标的值越大,模型效果越好。

  在本文中,作者将 CapsE 与以下五个模型进行了比较:

  初始嵌入

  从查询日志中提取 200 个关于带有相关标签的文档的主题,用于训练 LDA 主题模型。使用经过训练的 LDA 模型来推断每个主题在所有主题中返回文档的概率分布。并用每个文档的主题比例向量作为每个文档的embedding向量对文档进行向量化(假设总共有200个主题,即k=200,文档d的embedding向量中的第z个元素表示:给定文件为广告文件,主题为z的概率。

  

  ).

  同时,作者还将每个查询表达为与主题相关的概率分布向量。具体方法如下:

  让集合表示用q查询时返回的前n个文件(这里n=10)。

  查询语句q的嵌入向量的第z维值为:=

  

  。哪里

  

  表示集合Dq中第i个文件的指数衰减系数。而б是0到1之间的衰减超参数(本文使用0.8)。

  注意:为了避免本文实验中的过拟合,用于训练模型 TransE、ConvKB 和 CaspE 的查询短语嵌入向量和文件嵌入向量在整个训练过程中保持不变。

  另外,由于用户最近的点击事件往往能反映用户最近的兴趣,所以采用对训练集中被点击的文件分配临时权重的策略来初始化三种嵌入模型的用户画像的嵌入向量.

  超参数调优

  当过滤器数量为400,学习率为5时,CapsE在验证集上的MRR值最高;当margin为5时,sgd的l1范数和学习率为5,TransE在验证集上,MRR达到最高;当过滤器数量为 500,优化器 Adam 的学习率为 5 时,ConvKB 在验证集上达到最高 MRR。

  主要结果

  

  与传统的学习排序个性化搜索模型CI和SP相比,嵌入式模型TransE、ConvKB和CapsE取得了更好的性能。因此,将三重嵌入模型扩展到搜索算法可以提高个性化搜索系统的排名质量。如图,CapsE方法得到的MRR和Hits@1是五个模型中最高的值。

  总结

  虽然本文使用的方法与ConvE非常相似,但它有以下两个亮点:

  1. 作为第一个使用胶囊网络进行知识图谱改进和个性化搜索的文章,它充分利用了胶囊网络在同一维度上捕获不同特征映射的深层特征的能力,并为首次对同维度信息进行深度结构建模。使模型能够更好地用于多端预测。

  2.首次将个性化搜索任务与链接预测任务相结合,将个性化搜索中的用户、查询关键词、返回的结果文件转化为三元组,并对其进行链接预测问题研究。并且因为三元组属于1-M关系问题,所以CapsE模型还是很有效的。

  #活动推荐#

  10.31-11.1 北京致远大会

  世界AI看中国,中国AI看北京!

  百位顶尖专家、60+前沿报告、10+圆桌论坛、剑锋对话,为您带来一场专家级AI盛会。全球顶尖学者云集:John Hopcroft(图灵奖)、Michael Jordan(机器学习权威学者)、Chris Manning(NLP权威学者)、朱松春(计算机视觉权威学者)、张博、高文、戴琼海、张平文等100多位专家。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线