分享的内容:SEO工作内容就是每天发帖发帖发帖吗

　　SEO工作不是每天都发帖

　　1. 统计

　　数据是网站的灵魂，是重要的

　　网站操作的基础，也是了解搜索引擎和用户行为的重要窗口，作为网站优化器，可以使用搜外SEO工具进行统计，统计数据包括百度收录、百度外部链接号、快照更新时间、每日IP号等。

　　2. 更新文章

　　由于前期网站的整个结构已经调整，网站优化器要做的主要事情就是添加网站内容。

　　3. 发布外部链接

　　除了更新内容之外，是时候发布链接了。前期因为什么都不知道，所以只需要做两点。

　　分享文章:知乎

　　许多早期的神经 IR 模型可以归类为语义匹配模型，将查询和文档嵌入到低维空间中，然后基于密集表示评估它们的相似性。这方面的例子包括 DSSM (Huang et al, 2013) 和 DESM (Mitra et al, 2016)。然而，相关性的概念本质上是不对称的，这与经过充分研究的语义匹配任务（如语义相关性和释义检测）不同。相比之下，Match-Pyramid (Pang et al, 2016)、DRMM (Guo et al, 2016) 和更新的 K-NRM (Xiong et al, 2017) 等匹配模型与传统的 IR 检索方法相似，它们直接考虑文档内容与查询的相关性。DUET 模型（Mitra 等人，

　　鉴于相关匹配方法反映了传统检索模型的思想，数十年来对 ad-hoc IR 的研究可以指导我们了解模型应该捕获的特定类型的相关信号。Unigram 匹配是最明显的建模信号，对应于几乎所有传统检索模型中出现的术语频率。除此之外，还可以利用位置信息，*敏*感*词*要求”，单个单词匹配信号对应于各个术语的出现“

　　来自一元匹配的相似度信号在被泛化为直方图后被 DRMM 作为输入，而 K-NRM (Xiong et al, 2017) 直接消化查询-文档相似度矩阵并用多个核函数对其进行泛化。至于位置信息，MatchPyramid (Pang et al, 2016) 和本地 DUET (Mitra et al, 2017) 模型都通过基于查询和文档之间的相似性矩阵结合卷积层来解释它。虽然这会导致模型更加复杂，但两者都难以显着优于 DRMM 模型。这表明在深度神经 IR 模型中使用位置信息来超越一元组非常重要。直观地说，与标准的基于序列的模型不同，查询和文档之间的交互沿着查询轴和文档轴是连续的，使问题本质上是多维的。此外，这使得结合来自文档不同部分和不同查询词的匹配信号变得很重要。事实上，MatchPyramid 和本地 DUET 模型都未能充分考虑上述一个或多个因素。例如，作为一项创作工作，MatchPyramid 主要由计算机视觉中开发的模型驱动，导致它在组件设计中忽略某些特定于 IR 的考虑因素，例如忽略查询和文档维度。同时，本地 DUET 的 CNN 过滤器将整个文档与单个查询词匹配，忽略了不同查询词之间的接近度和可能的依赖关系。MatchPyramid 和本地 DUET 模型都未能充分考虑上述一个或多个因素。例如，作为一项创作工作，MatchPyramid 主要由计算机视觉中开发的模型驱动，导致它在组件设计中忽略某些特定于 IR 的考虑因素，例如忽略查询和文档维度。同时，本地 DUET 的 CNN 过滤器将整个文档与单个查询词匹配，忽略了不同查询词之间的接近度和可能的依赖关系。MatchPyramid 和本地 DUET 模型都未能充分考虑上述一个或多个因素。例如，作为一项创作工作，MatchPyramid 主要由计算机视觉中开发的模型驱动，导致它在组件设计中忽略某些特定于 IR 的考虑因素，例如忽略查询和文档维度。同时，本地 DUET 的 CNN 过滤器将整个文档与单个查询词匹配，忽略了不同查询词之间的接近度和可能的依赖关系。

　　“用于即席检索的深度相关匹配模型”

　　让我们首先介绍语义匹配与相关匹配：ad-hoc：

　　在 TREC 开始时，只有两个任务，即 ad hoc 和路由。前者类似于图书馆的图书检索，即图书库（数据库）相对稳定不变，不同用户的查询需求千变万化。这种搜索称为临时搜索。基于网络的搜索引擎也属于这一类。后一种情况与前者相反，用户的查询需求相对稳定。在路由中，查询通常称为概要，通常称为兴趣。用户的兴趣在一段时间内是稳定的，但数据库（更准确地说是数据流）是不断变化的。Ad hoc 和路由代表了 IR 的两个不同研究方向。前者的主要研究任务包括大型数据库的索引和查询、查询扩展等；

　　即席检索中的文本匹配与其他 NLP 任务之间存在一些差异。很多NLP任务中的匹配，如释义识别、问答、自动对话等，主要涉及语义匹配，即识别语义，推断两段文本之间的语义关系。在这些语义匹配任务中，两个文本通常是同质的，由一些自然语言句子组成，例如问答句或对话。为了推断自然语言句子之间的语义关系，语义匹配强调以下三个因素：

　　相反，即席检索中的匹配主要是关于相关性匹配，即给定特定查询，计算文档相关性。在这项任务中，查询通常很短且基于关键字，而文档的长度可以变化很大，从几十个词到几千个词甚至几万个词。为了估计查询和文档之间的相关性，相关性匹配主要关注以下三个因素：

　　可以看出，即席检索中的相关匹配与许多 NLP 任务中的语义匹配之间存在显着差异。这些差异会影响深度模型架构的设计，并且很难找到针对此类不同匹配问题的“一体化”解决方案。如果我们重新审视现有的深度匹配模型，我们会发现它们中的大多数都涉及语义匹配而不是相关匹配。例如，以表示为中心的模型，如 DSSM、C-DSSM 和 ARC-I，侧重于文本的组成含义，并符合全局匹配要求。在这些模型中，详细的匹配信号，尤其是精确的匹配信号会丢失，因为它们会延迟两个文本之间的交互，直到它们创建单独的表示。而以交互为中心的模型，如 DeepMatch、ARC-II、和 MatchPyramid 保留精确匹配和相似的信号，它们不区分这些信号，而是将它们视为同等重要的信号。这些模型专注于学习本地交互的组成，而不考虑术语的重要性。特别是，ARC-II 和 MatchPyramid 中的卷积结构旨在学习正定规则，这些规则在全局匹配要求下可能工作良好，但在不同匹配要求下失败。

　　成功的相关匹配需要正确处理精确匹配信号、查询词重要性和多个匹配要求。本文提出了一种新颖的深度相关匹配模型（DRMM），用于即席检索。具体来说，该模型采用联合深度架构在查询项级别进行相关匹配。通过使用匹配直方图映射、前馈匹配网络和术语门控网络，可以有效地处理上述三个相关的匹配因素。两个具有代表性的基准结果的实验结果表明，该模型可以显着优于一些著名的检索模型以及最先进的深度匹配模型。

　　总体而言，本文提出的模型是一个以注意力为中心的模型，它采用联合深度架构在查询项级别进行相关匹配。具体来说，每对术语之间的局部交互首先是在查询和文档之间基于术语嵌入构建的。对于每个查询词，将可变长度的本地交互映射到固定长度的匹配直方图。基于这个固定长度的匹配直方图，然后使用前馈匹配网络来学习分层匹配模式并产生匹配分数。最后，通过使用计算聚合权重的术语门控网络聚合每个查询术语的分数来生成总体匹配分数。本文介绍了主要的模型设计，包括匹配直方图映射、前馈匹配网络和术语门控网络，

　　本文基于两个具有代表性的 ah-hoc 检索基准集评估了所提出的 DRMM 的有效性。为了比较，我们考虑了一些著名的传统检索模型，以及一些最先进的深度匹配模型，它们要么是为一般匹配问题而设计的，要么是专门为特殊检索任务而提出的。实证结果表明，现有的深度匹配模型在这些基准集中无法与传统的检索模型竞争，而我们的模型在所有评估指标上都可以显着优于所有基线模型。

　　主要贡献有：

　　1. 指出语义匹配和相关匹配之间的三个主要区别，这可能导致深度匹配模型的架构设计存在显着差异。

　　2.通过明确解决相关匹配的三个关键因素，提出了一种新的即席检索深度相关匹配模型。

　　3.我们对基准集中的state-of-the-art检索模型进行了严格的比较，分析了现有深度匹配模型的缺点和DRMM的优势。

　　这个文章提出模型主要由三部分组成：Feed forward Model、Term Gating Network三个模块：

　　1.匹配直方图映射

　　您可以比较查询和文档的术语来计算相似度。然后以直方图的形式计算相似度。

　　例如：查询：“汽车”；文件：（汽车，租金，卡车，颠簸，禁令，跑道）

　　成对计算的相似度为(1,0.2,0.7,0.3,-0.1,0.1)，将[-1,1]的区间分为{[−1,−0.5],[−0.5,−0] , [ 0, 0.5], [0.5, 1], [1, 1]} 5 个区间。可以统计原创相似度，可以表示为[0,1,3,1,1]

　　2.前馈匹配网络：用于提取更高层次的相似信息。

　　3. 术语门控网络

　　用于区分查询中不同词条的重要性。有两种方法：TermVector 和 Inverse Document Frequency。训练时使用pairwise的loss值，表示为pairwise ranking loss：triple

　　(q,d+,d−) ，其中 d+ 是正例，d- 是负例。

　　实验

　　这些实验在两个数据集 Robust04 和 ClueWeb-09-Cat-B 上进行了测试。并与当前模型进行比较。与MAP相对应，nDCG@20和P@20这三个评价指标都取得了显着的提升。

　　总结

　　神经网络在信息检索中的应用主要包括语义匹配和相关匹配。本文分析比较了两种方法的优缺点，提出了一种DRMM模型。该模型可以有效提取query和document之间每个term的相关性，并使用histogram的形式代替pooling，可以有效区分相似匹配和完全匹配，保留更多信息。与测试中的其他模型相比，该模型还取得了显着且稳定的改进。

　　“从带有元数据的点击二分图学习查询和文档相似性”

　　这个文章的重点是利用query-doc的click二分图，结合query/doc的元数据（组织成多种特征），学习query-doc（顺便说一下，query -query 引入，doc-doc) 相似性。为了计算上述相似度，作者使用了两种不同的线性映射，将query从query特征空间和doc从doc特征空间映射到同一个潜在空间，然后在潜在空间上计算两者。向量的点积得到两者的相似度。因此，相似性学习被形式化为映射学习，映射学习的目标是最大化从丰富的点击二分图观察到的查询文档的相似性（可以通过查询文档对点击获得）。此外，这种线性映射是为了得到一种特征对一种特征的相似度函数。如果有多种类型的特征，最终的相似度函数是每种类型的相似度函数的线性组合。学习过程中使用的算法包括奇异值分解 (SVD) 和多视图偏最小二乘 (M-PLS)。

　　2. 简介

　　作者提到了几种以前计算查询文档相似度的方法。

　　1）基于特征的方法：向量空间模型（VSM）、BM25、信息检索语言模型（LMIR）等。

　　2) 基于 gragh 的方法：从点击二分 gragh 等人挖掘查询文档相似性。

　　3. 问题表述

　　每一类特征的查询或文档以向量的形式表示，那么线性映射可以看成是 s_{qi}\times k_{i} 和 s_{di}\times k_{i} 两个维度矩阵形式（L_{Qi}和L_{Di}），通过这两个变换矩阵，将原创空间中query或doc的向量转化为潜在空间Qi}^中维数为k_{i}的向量L_{ {T}q 和 L_{Di}^{T}d，对于这类特征，相似度函数表示为：

　　将二分图中query-doc的点击次数作为query-doc相似度的大小，通过最大化query-doc观察到的相似度来学习线性映射\left\{L_{Qi}， L_{Di} \right\}_{i=1}^{l} 和线性加权权重 \left\{ \alpha_{i} \right\}_{i=1}^{l} 。

　　最终的学习问题可以表示为：

　　这时候有一个问题，就是需要最大化的公式的值可以是无限的，因为系数是没有限制的，下面会介绍如何给系数加上约束。

　　4. 多视图偏最小二乘法

　　(1) 约束优化问题

　　因此，学习方法被重新表述为：

　　2. 全局最优解

　　为了获得全局最优解，需要采取两个步骤。第一步是通过SVD对每一类特征得到最优的线性映射；第二步是求解最优组合权重。

　　“匹配张量：搜索的深度相关模型”

　　本文讨论了一种为涉及社交媒体的搜索任务量身定制的新深度神经网络架构，称为 Match-Tensor。模型架构既简单又富有表现力，如下图所示：一对顺序模型计算查询和给定文档的表示，同时考虑本地和分布式上下文；这些表示用于在多个维度上匹配每对查询文档单词，并存储为 3-D 张量（因此称为 Match-Tensor）。然后卷积网络将此张量转换为相关性分数。使用大量社交媒体搜索数据，我们训练此类模型并分析性能，证明它也比当前其他模型类更准确。

　　匹配张量架构：

　　Match-Tensor 模型的架构同时考虑了局部相关匹配和全局信号，在计算文档与查询的相关性时允许它们之间进行丰富的交互。词嵌入分别映射到查询和文档上的双 LSTM 状态。转换后的双 LSTM 状态由每个查询词和每个文档词的逐点乘积组合，以产生多个匹配通道。匹配的通道通过完全匹配的通道连接以产生 3-D

　　匹配张量。2-D 卷积（使用 3-D 过滤器）将匹配张量映射到查询和文档的相对概率。

　　PACRR：用于相关匹配的位置感知神经 IR 模型

　　在 ad-hoc IR 中，目标是在给定开放域（“ad hoc”）查询和文档集合的情况下生成相关文档的排名。因此，排名模型旨在评估不同文档和查询之间的交互，为与查询更好匹配的文档分配更高的分数。我们推测卷积核和循环层的适当组合可以产生更好地解释这些因素的模型。特别是，我们提出了一种新的重新排序模型，称为 PACRR（位置感知卷积-循环相关匹配）。我们的方法首先生成一个相似度矩阵，该矩阵记录每个查询词与文档中出现的每个单独词之间的语义相似度。然后这些矩阵通过一系列卷积、max-k-pooling、和循环层以捕获对应于例如二元组和三元组匹配的交互，并最终聚合信号以产生全局相关性估计。在我们的模型中，卷积层旨在捕获不同长度文本窗口上的一元匹配和位置信息；沿查询维度的 k-max-pooling 层，保存不同查询词的匹配信号；循环层组合来自不同查询词的信号以产生查询文档相关性分数。保存不同查询词的匹配信号；循环层组合来自不同查询词的信号以产生查询文档相关性分数。保存不同查询词的匹配信号；循环层组合来自不同查询词的信号以产生查询文档相关性分数。

　　该模型由两个主要部分组成：相关性匹配组件，将每个查询-文档对转换为相似度矩阵 sim_{\left| q \right|\times\left| d \right|} 和给定的查询-文档相似度矩阵作为输入，产生查询-文档相关性分数 rel(q,d) 的深度架构。原则上，所提出的模型可以通过词嵌入反向传播进行端到端的训练，但是，在本文中，我们专注于突出旨在捕获位置信息的构建块，并冻结词嵌入层以提高效率。

　　PACRR 的管道

　　首先将每个查询 q 和文档 d 转换为查询-文档相似度矩阵 sim_{\left| q \right|\times\left| d \right|} 。之后，蒸馏方法将原创相似度矩阵转化为一个统一的维度，即 sim_{l_{q}\times l_{d}} 。在这里，l_{g-1} 卷积层 (CNN) 应用于蒸馏相似度矩阵。当显示 l_{g}=3 时，将应用内核大小为 2 和 3 的层。接下来，应用最大值

　　汇集。在此之后，n_{s}-max 池在每个查询词和 n-gram 大小处捕获最强的 n_{s} 信号，此处显示了 n_{s}=2 的情况。最后，连接来自不同 n-gram 大小的相似性信号，添加查询词的归一化 IDF，并且对于每个查询，循环层将这些信号与查询-文档相关性分数 rel(q,d) 结合起来。

　　“将深度学习应用于答案选择：一项研究和一项开放式任务”

　　这篇论文提出了6种网络结构，模型图很清晰，就不赘述了。

　　代码参考：/lyb3b3b/article/details/73521748

　　Q&A 共享一个网络，其中包括：

　　“在基于检索的电子商务回答系统上为迁移学习建模域关系”

　　本文工作由第一作者在阿里实习期间完成。行业内的问答系统，在特定领域的标签数据严重不足，对响应速度有严格的要求。对于第一个问题，作者使用了迁移学习框架，在传统迁移学习框架的基础上引入了一个半正定协方差矩阵来对域内和域间的信息权重进行建模；对于第二个问题，作者放弃了更准确但耗时的基于 LSTM 的模型，使用了精度稍差但速度更快的 CNN 模型。除了在语义识别（Paraphrase Identification）任务和自然语言推理（Natural Language Inference）任务上的离线实验，作者还将其发布在速卖通上进行在线评测。除了本文的模型在准确率和精度方面略逊于state-of-art LSTM模型外，优于其他对比模型，响应时间快，可以满足工业应用的需求利用。

　　行业内的问答系统，在特定领域的标签数据严重不足，对响应速度有严格的要求。对于第一个问题，作者使用了迁移学习框架，在传统迁移学习框架的基础上引入了一个半正定协方差矩阵来对域内和域间的信息权重进行建模；对于第二个问题，作者放弃了更准确但耗时的基于 LSTM 的模型，使用了精度稍差但速度更快的 CNN 模型。

　　除了在语义识别（Paraphrase Identification）任务和自然语言推理（Natural Language Inference）任务上的线下实验，作者还在全球速卖通上发表了在线评测。

　　除了本文的模型在准确率和精度上略逊于state-of-art的基于LSTM的模型外，优于其他对比模型，响应时间快，可以满足需求行业。

　　创新：

　　型号介绍：

　　1.问答系统工作流程

　　如图所示，用户提出一个查询问题。预处理后，使用 Lucene 工具从 QA Pair 数据库中检索出最相关的 k 个 QA 对，然后对相关问题进行排序，返回最相关问题的答案。使用的技术是释义识别和自然语言推理。

　　2. 传统迁移学习的劣势

　　迁移学习旨在应用在源域中获得的知识来帮助目标域[23]。关键问题是如何将共享知识从源域转移到目标域，同时根据域关系排除源域中的特定知识。最近对 NLP 中 TL 的研究通过利用不同的 NN 模型来捕获跨域的共享特征空间来执行多任务特征学习。如图 2a 和 2b 所示，一条工作线采用完全共享的框架来学习共享表示，然后为每个域使用两个不同的全连接层，而另一条工作线使用特定的共享框架来学习不仅两个共享还可以学习领域的表示，以及每个领域的领域特定的表示。然而，第一项工作只是假设两个域共享相同的功能空间，但忽略了特定于域的功能空间。虽然后者能够捕获共享的和特定于域的表示，但它不考虑最终输出层的权重之间的任何关系。一般来说，输出层上的权重应该捕捉域间和域内的关系：（1）对于跨域共享的特征空间，由于它期望是独立于域的，所以在这两个域中对应于这个特征空间的权重域之间应该是正相关的；(2) 对于每个域中共享的和特定于域的特征空间，由于它们被期望分别捕获与域无关和与域相关的特征，它们对应的权重应该是相互独立的。

　　该图显示了两个当前的迁移学习框架。左图是全共享模型，作者认为它忽略了域中的特征信息；右图是specifc-shared模型，虽然考虑了域内和域间的信息，但是没有考虑它们之间的权重关系，即Ws和Wsc的关系是Wt和Wtc之间应该有关联。因此，引入协方差矩阵 Ω 来模拟这种关系。

　　3. 问题定义

　　给定两个句子，预测标签 y。

　　4.模型图

　　在本文中，我们提出了一种新颖的迁移学习方法，通过协方差矩阵对域关系进行显式建模，该协方差矩阵对输出层的权重施加正则化项，以揭示域间和域内域的关系。此外，为了使共享表示在跨域中更加不变，本文遵循最近关于对抗性网络的一些工作，并将共享特征空间的对抗性损失引入模型中。

　　中间部分是具体的共享框架，在sourceNN、sharedNN和targetNN中被右侧方框所示的混合CNN模型（基于句子编码，基于句子交互）所替代。为了提高sharedNN层的抗噪能力，增加了一个分类器，从而引入了对抗性损失函数。

　　左上部分是权重与半正定协方差矩阵的关系。定义为Wi和Wj之间的关系，Wi、Wj是上面提到的Ws、Wsc、Wt和Wtc。

　　文章的损失函数看起来很长，但实际上是两个交叉熵之和，加上所有其他参数的正则化项。作者在训练时使用了一个数学技巧：固定Ω后的损失函数是一个平滑函数，可以很容易地对所有参数进行偏导。然后修复其他参数以更新Ω。

　　“使用结合全局和局部视图的神经答案选择的注意机制”

　　本文提出了一种新的基于神经网络的 QA 系统的注意力机制，它依赖于输入句子的不同粒度。以前的工作主要集中在使用简单的注意力机制来增强 RNN，这是不同时间问题嵌入和答案嵌入之间相似性的函数。作者通过使注意力机制依赖于使用单个网络获得的答案的全局嵌入来扩展这一点。作者在大型问答数据集 InsuranceQA 上评估了他们的系统。我们的模型优于 InsuranceQA 目前最先进的结果。此外，作者可以看到注意力机制关注哪些文本部分，并探索其在不同参数设置下的性能。

　　本文的贡献是：（1）提出了一种新颖的架构来回答这个问题。其高级方法类似于最近提出的 QA 系统 [1]，但该论文通过更复杂的注意力机制增强了这种设计，将答案特定部分的本地信息与整个问答的全局表示相结合; (2) 作者评估他们的模型以在 InsuranceQA 数据集上击败最先进的方法，即使在使用相对较小的网络时也能取得良好的性能。

　　其中，[1]中的模型和本文的模型如下图所示。在问题的embedding上，本文的模型是将问题通过BiLSTM再通过mean pool得到其局部问题embedding，并使用词频向量得到其全局问题embedding，最后连接两者获得问题表示；关于答案的embedding是利用词频向量得到其全局答案embedding，然后结合全局答案embedding和局部问题embedding线性变化计算注意力权重，并对BiLSTM的输出进行加权得到其局部答案嵌入，最后是局部答案嵌入和全局答案嵌入。两者连接后，得到答案表示。

AI时代内容工厂

分享的内容:SEO工作内容就是每天发帖发帖发帖吗

0 个评论

发起人