搜索引擎进行信息检索的优化策略方法(敏感词知识支撑的信息检索与推荐的研究进展体系（二）)

优采云发布时间: 2022-03-04 14:13

　　搜索引擎进行信息检索的优化策略方法(*敏*感*词*知识支撑的信息检索与推荐的研究进展体系（二）)

　　概括

　　本文介绍了当前*敏*感*词*知识支持的信息检索与推荐研究进展。主要总结和分析了结合知识图谱和知识支持的搜索用户行为分析的信息检索和推荐方法两个主要研究方向。并对今后的工作提出了展望。

　　信息检索；推荐系统；知识图谱；探索性搜索

　　0 前言

　　知识和信息是两个密切相关但又截然不同的概念。信息科学领域的DIKW系统（DataInformation-Knowledge-Wisdom pyramid）可以很好地解释它们之间的关系。如图1所示，DIKW系统是一个金字塔，自下而上包括四个组成部分：数据、信息、知识和智慧。其中，数据是信息的基础；信息是知识的基础；知识是智慧的基础。经过一定的组织和处理，使其与当前的上下文或任务相关，从而具有一定的意义、价值和关联性，对完成当前的任务有用，数据就可以称为信息。当信息被进一步结构化，与其他信息联系起来时，信息就转化为知识，

　　图1 DIKW系统

　　传统的信息检索研究主要涉及对非结构化或半结构化的海量数据进行存储、组织、索引和检索，使用户能够快速高效地从中检索和获取相关信息。即主要涉及如何帮助用户从数据中获取信息。然而，随着信息检索研究的不断发展，研究人员逐渐意识到将知识引入信息检索领域的重要性。

　　一方面，从系统的角度来看，研究人员已经开始意识到，除了传统的文本数据和用户行为数据，我们还可以利用知识图谱等高质量的结构化知识来进一步提升搜索引擎和推荐器的排名性能。系统。另一方面，从用户的角度，研究人员开始将搜索过程视为用户学习和获取知识的过程，并从这个角度对用户的搜索行为进行分析、理解和建模。因此，本文将从以上两个方面介绍知识支持的信息检索与推荐的研究进展。

　　1 结合知识图谱的信息检索与推荐方法

　　在信息检索领域，搜索引擎和推荐系统是两个最重要的应用方向。目前，很多研究工作都试图从不同方面提高搜索排名和推荐排名的效果，包括使用各种用户交互行为（点击和浏览等）和待排序项目的内容信息（描述和关键词等），也提升了不同场景下的算法性能。随着近年来相关研究的逐渐深入，越来越多的研究人员开始意识到信息检索上下文之外的结构化知识对于进一步改进搜索和推荐算法具有重要作用。在搜索和推荐场景中对要排序的项目进行良好的表征。

　　具体来说，知识图谱收录了大量的实体和实体之间的联系信息，这两者对于信息检索系统中待排序内容的表示都有很大帮助。一方面，如果将要排序的内容（如搜索引擎中的文档或推荐系统中的产品等）与知识图谱中的实体进行链接匹配，我们将能够找出待排序内容的关键信息（即收录的实体词）另一方面，实体之间的特殊关系可以辅助推理扩散，这将对搜索场景中查询词的扩展和推荐场景中要推荐的内容的关系发现。

　　近年来，搜索引擎和推荐系统领域的许多工作都基于类似的想法开始了研究。一些学者在搜索场景中尝试在传统查询词-文档内容匹配的基础上，利用知识图谱，考虑查询词中收录的实体与文档中收录的实体之间的关系，进一步提高文档排序的效果。 ; 在推荐系统场景下，由于知识信息的引入也有助于缓解推荐的可解释性问题，因此有很多研究工作从这个角度来提高推荐算法的性能，提高结果的可解释性。相关研究的应用场景包括网页搜索、信息流推荐、产品推荐和电影推荐。可见，知识增强信息检索方法的研究已成为近年来研究的热点和重点。下面将详细介绍这两种场景的知识利用。

　　(1）搜索场景中的知识图利用

　　在搜索排序算法中，查询词和文档的内容和语义匹配在传统的BM25、TF-IDF算法和最近的深度排序模型中都扮演着重要的角色。然而，这些算法大多在匹配时对查询中的每个词赋予同等权重，并没有更多地关注关键信息。例如，当查询词为“奥巴马的亲属关系”时，用户更关注“奥巴马”和“亲属关系”，而不是“关系”一词。为了解决这个问题，近年来，卡内基梅隆大学的熊晨燕和清华大学的刘志远提出，在现有词匹配的基础上，可以将知识图谱中的实体词引入查询词和文档中收录的实体词。进行匹配和相似度计算，实现关键实体信息的有效利用和挖掘。进一步，他们还考虑了词和实体词的交叉匹配，即考虑：①查询词中的词-文档中的词；②查询词中的实体词——文档中的词；③查询词中的词-文档中的实体词；④ 查询词中的实体词——文档中的实体词，四个维度的语义匹配。然后使用池化和全连接操作得到最终的排名分数。该算法被命名为 EDRM（Entity-Duet Neural Ranking），框架如图 2 所示。①查询词中的词-文档中的词；②查询词中的实体词——文档中的词；③查询词中的词-文档中的实体词；④ 查询词中的实体词——文档中的实体词，四个维度的语义匹配。然后使用池化和全连接操作得到最终的排名分数。该算法被命名为 EDRM（Entity-Duet Neural Ranking），框架如图 2 所示。①查询词中的词-文档中的词；②查询词中的实体词——文档中的词；③查询词中的词-文档中的实体词；④ 查询词中的实体词——文档中的实体词，四个维度的语义匹配。然后使用池化和全连接操作得到最终的排名分数。该算法被命名为 EDRM（Entity-Duet Neural Ranking），框架如图 2 所示。

　　图2 EDRM算法模型图

　　实验过程中，将DBPedia作为额外引入的知识图谱的EDRM算法应用于*敏*感*词*中文搜索日志数据集。结果表明，与基准算法相比，该算法在 NDCG@1 上实现了近 20% 的改进。这一结果表明，关键实体信息的引入对改进搜索排序方法具有重要作用。

　　(2）推荐场景下的知识图谱利用

　　在推荐场景中，我们注意到要推荐的项目可能有一些特定的关系。例如，特别是在产品推荐场景中，不同产品之间存在互补（手机和手机壳）、替代（华为手机和苹果手机）等关系。如果能够考虑到产品之间的这些关系，我们将能够根据用户的历史行为进一步优化待推荐的内容，推荐与历史购买相辅相成的产品，避免推荐替代品。但商品之间的关系不易获取，商品数量太大，无法通过人工标注获取。考虑到知识图谱中收录大量的已有知识，这些已有知识可能有助于挖掘和推理商品之间的关系。因此，我们提出了一种新的联合优化框架，用于基于项目之间的关系（例如替换和互补性）从知识图中学习归纳规则，并基于归纳规则生成项目对之间的关联特征。它用于推荐算法。算法框架命名为 RuleRec，框架图如图 3 所示。我们提出了一种新的联合优化框架，用于基于项目之间的关系（例如替代和互补性）从知识图中学习归纳规则，并根据归纳规则生成项目对之间的关联特征。它用于推荐算法。算法框架命名为 RuleRec，框架图如图 3 所示。我们提出了一种新的联合优化框架，用于基于项目之间的关系（例如替代和互补性）从知识图中学习归纳规则，并根据归纳规则生成项目对之间的关联特征。它用于推荐算法。算法框架命名为 RuleRec，框架图如图 3 所示。

　　图 3 RuleRec 算法框架

　　该模型主要包括两部分：规则学习模块和推荐模块。在规则学习模块中，我们对知识图谱进行随机游走，以找到能够更好地预测商品之间的替代关系和互补关系的规则特征（限制两个节点之间的随机游走经过的边类型）。顺序）。通过这些规则，可以对每个产品对进行建模，以了解它们的相关性的密切程度，这可以扩展到单个产品与用户先前购买的一系列产品之间的关系。在推荐模块中，我们对学习到的规则特征进行加权，并将其与其他推荐算法得到的推荐概率相加，得到一个新的推荐概率，然后据此生成推荐结果。由于该模型具有良好的耦合性，可以有效地与现有的推荐算法相结合。在实验过程中，我们使用亚马逊的手机和电子产品购物历史数据作为用户和产品的消费记录，并链接到 Freebase 知识图谱（最大的开源知识图谱数据集）。最后，我们提出的算法在 Recall@5 上比最先进的算法平均提高了 4.4%。实验表明，图中的知识信息有助于改进推荐排名算法。除了提高推荐系统的算法性能外，推荐结果的可解释性也是相关研究的关键问题之一。在这种情况下，引入知识信息生成的规则是用户可以直接阅读的自然推荐解释。通过人工标注，我们还发现94%的推荐解释都能被用户接受。这说明知识图谱的引入也可以用来提高推荐算法的可解释性。从这些研究中可以看出，知识图谱的引入可以有效地帮助表征信息检索场景中待排序的内容，同时提高相应算法的可解释性。外部知识的引入为相关领域的研究带来了新的方向和更多的可能性。

　　2 知识支持的搜索用户行为分析

　　随着搜索技术的发展和广泛应用，搜索引擎在帮助用户高效检索和获取信息的基础上，已经成为人类学习和获取知识不可或缺的工具。但是，与通过使用搜索引擎检索和获取更具体的信息（如查询明天的天气预报）不同，搜索知识（如了解搜索引擎的工作原理）是一个更复杂的过程，用户往往需要只有通过查询才能完成相应的学习任务。一方面，由于知识之间往往存在关联和依赖，学习任务具有内在的多样性，用户需要通过多次查询来获取各种信息，构建收录知识之间关系的知识体系。此外，在开始搜索时，用户往往会因缺乏对相关领域的了解而陷入无法组织有效查询的困境。因此，用户需要在多次查询迭代的过程中逐步探索该领域，进而学习如何组织有效的查询，更好地获取构建知识体系所需的相关信息。这种复杂的、高度交互的搜索过程被概括为探索性搜索。由于现代搜索引擎能够更好地满足特定信息的检索需求，如何有效地支持探索性搜索已成为信息检索领域的重要研究方向之一。同时，也有学者将搜索过程本身视为一个学习过程，提出了“搜索即学习”的概念。通过建立搜索和学习过程的类比，一方面可以借助心理学理论和学习理论对用户的搜索行为进行分类、分析、表征和解释；另一方面，知识建模、表示和计算可以相关的方法应用于复杂多查询会话的评估和用户意图理解模型等任务。

　　在分析用户搜索行为方面，IP&M杂志主编Jansen等利用认知学习领域的分类方法，将搜索任务按照复杂程度划分为记忆、理解、应用和分析。)，评估和创建六个类别，并比较分析用户在完成这六个类别的搜索任务时的搜索行为。芬兰坦佩雷大学的 Vakkari 将搜索时的学习概念化为“一个人的知识结构的变化”，并提出概念及其关系可以用来表示用户的知识结构。此*敏*感*词*和含义。在这个阶段，用户将使用相对较长和更具体的查询，并将建立更清晰的相关性标准。第三阶段，用户将知识结构同化，即获取与知识结构中已有概念相关的实例信息和事实信息。在这个阶段，用户'

　　如果将搜索视为一个学习过程，除了搜索任务的类型和当前搜索阶段，用户自身的领域专长也会影响不同用户在完成相同搜索任务时的行为。为了研究用户领域知识水平对其搜索行为和搜索结果的影响，我们组织了一个用户实验。实验中设置了环境、医学、政治学三个领域的6个搜索任务，并从相应部门招募了30名受试者参与实验。通过要求每个受试者完成两个领域内的搜索任务和四个非领域内的搜索任务，我们有效地控制了用户知识水平的自变量，并系统地分析了自变量' s 对一系列表征搜索结果的影响和因变量对搜索过程的影响。实验结果表明，被试能够较好地完成该领域的搜索任务，学习到更多的知识并正确回答相关问题，但在完成该领域的任务时，他们的搜索满意度并没有显着提高。此外，利用眼动仪记录的细粒度用户行为信息，我们发现当用户在陌生领域完成搜索任务时，他们会更多地依赖在搜索过程中学习到的新查询词，而在阅读搜索结果时花费更多的认知努力。学习更多知识并正确回答相关问题，但是在完成该领域的任务时，他们的搜索满意度并没有显着提高。此外，利用眼动仪记录的细粒度用户行为信息，我们发现当用户在陌生领域完成搜索任务时，他们会更多地依赖在搜索过程中学习到的新查询词，而在阅读搜索结果时花费更多的认知努力。学习更多知识并正确回答相关问题，但是在完成该领域的任务时，他们的搜索满意度并没有显着提高。此外，利用眼动仪记录的细粒度用户行为信息，我们发现当用户在陌生领域完成搜索任务时，他们会更多地依赖在搜索过程中学习到的新查询词，而在阅读搜索结果时花费更多的认知努力。

　　其次，在具体应用方面，由于用户的搜索过程与知识的获取和学习过程息息相关，可以通过一系列的知识表示方法来衡量和建模用户在搜索过程中的知识状态变化，并利用这一作为基础，改进搜索评估和用户意图理解模型。首先，在搜索评价方面，将搜索过程视为一个学习过程，可以通过对学习结果的评价，相对客观地评价用户搜索过程的有效性和成功性。日本学者 Yuka Egusa 和 Noriko Kando 首先尝试使用概念图来评估探索性搜索。概念图最早用于教育领域，代表学生掌握的科学知识。一个概念图收录几个概念节点和几个表示概念之间关系的有向边。在用户实验中，Egusa 等人。要求参与者在开始搜索之前和搜索结束后绘制两个与搜索任务主题相关的概念图。通过比较两个概念图，可以计算出添加、删除和共享节点和边的数量等指标，以评估用户在搜索过程中获得了多少新知识。注意，与传统的搜索满意度评价不同，上述评价方法可以衡量用户在搜索过程中是否成功获取了新知识。我们进一步尝试探索搜索成功和搜索满意度之间的关系和差异，以及它是否可以有效地估计和预测搜索成功。为了调查上述问题，我们设计并组织了一个用户实验。在实验中，每个受试者被要求完成六种不同的搜索任务。每个搜索任务都收录一个简短的回答问题，需要大约 100 个单词的答案。通过对最终答案的正确性打分来衡量用户搜索的成功与否；并通过用户的反馈来衡量用户的搜索满意度。通过比较搜索成功程度和搜索满意度，发现有相当比例的搜索会话出现“满意但失败”和“不满意但成功”现象。较客观的搜索成功与主观搜索的满意度不一致。我们进一步为每个任务（关键点）分配正确答案所涉及的关键得分点，并对用户在实验期间阅读的所有文档进行细粒度注释。注释信息包括文档是否收录每个关键分数，以及文档的相关性、可信度和可读性。利用收录关键点和用户搜索行为信息的文档，分别构建搜索成功度评价指标和搜索结果度预测模型。实验结果表明，利用文档收录知识点的信息，可以有效估计搜索成功程度，是一个比较客观的搜索评价指标。

　　其次，在用户意图理解方面，我们可以利用知识表示的方法对用户在会话中搜索意图的变化进行建模，从而更好地预测用户下一个可能的查询，提高搜索引擎的查询推荐功能. 例如，来自 UCLA 的江和王将查询日志表示为收录三种类型节点的异构网络：不同的查询、术语和网站。网络中有四种不同类型的边：①查询中的词条指向下一个词条的边；② 会话中的前一个查询指向下一个查询的边；③ 一个查询指向收录一个词条的边；④ 一个查询指向一个点击网站的边缘。基于这种异构网络，我们可以使用Node2Vec等表示学习算法来获得网络中节点的嵌入表示，并将获得的嵌入表示用于查询推荐。查询重写可以进一步分为不同的类别，例如添加查询词、删除查询词和替换查询词。因此，我们可以将查询视为一个实体，将不同类型的查询重写视为关系，并使用 TransE 等翻译嵌入模型来获得不同类型的查询重写（不同的关系）对应的向量表示。我们在购物搜索的背景下进行了实验。根据购物搜索的特点，构建了两级查询改写分类系统。除了增加、删除和修改查询词之外，分类系统还确定修改后的查询词是针对设计、商品、款式、品牌、款式、功能、材质、渠道、价格和尺寸这10个属性中的哪一个。区分。结合两级分类，分类系统共涉及30种不同类型的购物搜索查询重写。通过 TransE、TransH 和 TransR 模型，可以训练每个查询词和每种类型的查询重写的嵌入式表示。为了验证获得的嵌入表示的有效性，我们设计了一个查询重写类别分类任务，该任务使用查询重写所涉及的两个查询的嵌入表示之间的差异作为特征来预测查询重写的类别。实验结果表明，翻译嵌入模型得到的向量表示可以有效地预测查询重写的类别。这再次表明，使用知识表示学习方法可以更有效地捕捉用户在查询重写时的隐含搜索意图。

　　与 Xu 等人的工作相比，我们对模态之间的隐式对齐任务采取了相反的方法。如图 4 所示，从视频图像信息出发，通过注意力机制与时间邻域中的多个文本进行匹配对齐。基于这一思想，设计了一种结合图像视觉和用户评论信息的多模态人物再识别模型，并在真实数据集上进行了验证。实验结果证实模态之间的对齐是有效的，注意力机制可以在一定程度上识别出那些与视频字符描述更相关的文本信息，有助于更准确地描述字符的身份。达到更好的字符重识别效果。

　　3 结论

　　由于知识与信息的紧密联系，将知识概念和知识计算方法引入信息检索研究是一个值得深入探索的研究方向。从系统的角度看，通过建立模型和引入丰富的外部知识，可以有效地提高信息检索和推荐模型的排序性能。从用户的角度出发，通过将用户的搜索过程视为获取知识的过程，可以加深对用户搜索行为的理解，借助知识计算方法。

　　来自《中国人工智能学会交流》

　　第 10 卷，第 9 期，2020 年

　　知识工程专题

0

2022-03-04

搜索引擎进行信息检索的优化策略方法

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

搜索引擎进行信息检索的优化策略方法(敏感词知识支撑的信息检索与推荐的研究进展体系（二）)

0 个评论

发起人