搜索引擎进行信息检索的优化策略方法

搜索引擎进行信息检索的优化策略方法

AI研习丨专题:知识支撑的信息检索与推荐

网站优化优采云 发表了文章 • 0 个评论 • 61 次浏览 • 2022-05-14 03:23 • 来自相关话题

  AI研习丨专题:知识支撑的信息检索与推荐
  
  摘 要
  本文介绍了目前国内外关于知识支撑的信息检索与推荐的研究进展,主要针对结合知识图谱的信息检索与推荐方法,以及知识支撑的搜索用户行为分析两个主要的研究方向进行了梳理和分析,并对未来工作提出了展望。
  关 键 字
  信息检索;推荐系统;知识图谱;探索式搜索
  
  0 引言
  知识和信息,是两个联系紧密而又有所区别的概念。信息科学领域的 DIKW 体系(DataInformation-Knowledge-Wisdom pyramid)能很好地阐释它们之间的关系。如图 1 所示,DIKW 体系是一个金字塔,从下往上包含数据(data)、信 息 (information)、 知 识(knowledge) 和智慧(wisdom)四个组成部分。其中,数据是信息的基础;信息是知识的基础;知识是智慧的基础。经过一定组织和处理,使其与当前的上下文或者任务相关,因此具有一定的意义、价值和相关性,并对完成当前任务有用,数据就可以被称为信息。当信息被进一步结构化,与其他信息建立联系,或者被吸收和整合现有的知识体系和结构中去,以帮助人们完成当前或未来的任务,信息就被转化为了知识。
  
  图 1 DIKW 体系
  传统信息检索研究主要涉及对非结构化或半结构化的海量数据进行存储、组织、索引和检索,使用户能快捷有效地从中检索和获取相关的信息。即主要涉及如何帮助用户从数据中获取信息。然而随着信息检索研究的不断发展,研究者开始逐渐意识到在信息检索领域中引入知识的重要性。
  一方面,从系统的角度,研究者开始意识到,在传统的文本数据和用户行为数据之外,我们可以利用知识图谱等高质量的结构化知识,进一步改进搜索引擎和推荐系统的排序性能。另一方面,从用户的角度,研究者开始将搜索过程看作是用户学习和获取知识的过程,从这一角度对用户的搜索行为进行分析、理解和建模。因此,本文将从上述两个方面,介绍知识支撑的信息检索与推荐相关研究进展。
  1 结合知识图谱的信息检索与推荐方法
  在信息检索领域,搜索引擎和推荐系统是两个最重要的应用方向。目前已有大量研究工作从不同方面尝试改进搜索排序和推荐排序的效果,包括利用用户的各类交互行为(点击和浏览等)和待排序条目的内容信息(描述和关键词等),也已在不同场景提升了算法表现。随着近些年相关研究的逐渐深入,越来越多的研究者开始意识到,信息检索场景之外的结构化知识对进一步改进搜索和推荐算法有重要作用,这些结构化知识能帮助我们更好地刻画搜索和推荐场景中的待排序条目。
  具体来说,知识图谱中包含了大量的实体和实体间的联系信息,这两类信息都对信息检索系统中的待排序内容的表示有重要帮助。一方面,如果将待排序内容(如搜索引擎中的文档或推荐系统中的商品等)与知识图谱中实体进行链接匹配,我们将能找出待排序内容的关键信息(即包含的实体词);另一方面,实体之间的特殊关系能协助做推理扩散,不管是对搜索场景下查询词的扩展还是推荐场景下待推荐内容的关系发现都将有重要作用。
  近年来,在搜索引擎和推荐系统领域有不少工作已基于类似思路开始了研究。已有学者在搜索场景下尝试在传统查询词-文档内容匹配的基础上借助知识图谱,考虑查询词中包含的实体与文档包含的实体之间的关联关系情况,进一步改进了文档排序的效果;在推荐系统场景中,由于知识信息的引入还能帮助缓解推荐的可解释性问题,因此有不少研究工作从这一角度入手,提升推荐算法表现的同时改进结果的可解释性。相关研究的应用于场景包括在网页搜索、信息流推荐、商品推荐和电影推荐等场景。可以看到,知识增强的信息检索方法研究已成为近年来研究的热点与重点。下面将对两个场景的知识利用分别做具体介绍。
  (1)搜索场景下的知识图谱利用
  在搜索排序算法中,查询词与文档的内容及语义匹配情况不管是在传统的 BM25、TF-IDF 算法和最近的深度排序模型中都起到了重要作用。然而,这些算法在进行匹配时大都赋予查询词中的每个词语以同等权重,没有将更多注意力放在关键信息上。例如,当查询词为“奥巴马的亲属关系”时,用户更关注的是“奥巴马”和“亲属”,而不是“关系”这个词语。为了解决这一问题,近年来,卡内基梅隆大学熊辰炎与清华大学刘知远等提出,可以在现有词语匹配的基础上,引入知识图谱中实体词对查询词和文档中包含的实体词同样进行匹配和相似度计算,以实现对关键实体信息的有效利用和挖掘。更进一步地,他们还考虑了词语和实体词的交叉匹配,即考虑了:① 查询词中词语 - 文档中词语;② 查询词中实体词 - 文档中词语;③ 查询词中词语 - 文档中实体词;④ 查询词中实体词 - 文档中实体词,四个维度的语义匹配情况。然后再使用池化和全连接操作得到最终的排序评分。该算法被命名为 EDRM(Entity-Duet Neural Ranking),框架如图 2 所示。
  
  图 2 EDRM 算法模型图
  在实验过程中,使用 DBPedia 作为额外引入的知识图谱的 EDRM 算法被应用在大规模中文搜索日志数据集上。结果显示,该算法较基准算法在 NDCG@1 上取得了近 20% 的提升。该结果表明,关键实体信息的引入对于改进搜索排序方法起到了重要作用。
  (2)推荐场景下的知识图谱利用
  在推荐场景中,我们注意到待推荐条目可能存在一些特定的关系,例如,特别是在商品推荐场景下,不同商品间存在互补(手机和手机壳)、替代(华为手机和苹果手机)等关系。如果能考虑商品之间的这些关系,我们将可以根据用户的历史行为进一步优化待推荐内容,为用户推荐与历史购买有互补关系的商品,同时避免推荐有替代关系的商品。然而,要获取商品间的关系并不容易,商品数量过于庞大导致不可能通过人工标注的方法获取。考虑到知识图谱中包含着大量的现有知识,这些现有知识可能对挖掘和推理商品间的关系有一定帮助。因此,我们基于商品间的关系(如替代和互补),提出了一种新的联合优化框架,用于从知识图谱中学习到归纳规则,并基于归纳规则生成商品对之间的关联特征,将其应用在推荐算法中。该算法框架被命名RuleRec,框架图见图3。
  
  图 3 RuleRec 算法框架图
  该模型主要包含规则学习模块和推荐模块两个部分。在规则学习模块中,我们通过在知识图谱上进行随机游走,找到对于商品间的替代关系和互补关系有较好预测作用的规则特征(限定了两个节点间随机游走经过的边的类型序列)。通过这些规则能为每个商品对建模学习到它们的相关性紧密程度,进而可以扩展到单个商品与用户之前购买的商品序列的联系情况。在推荐模块中,我们将学习得到的规则特征进行加权后,与其他推荐算法得到的推荐概率相加,以得到新的推荐概率,并依此生成推荐结果。由于该模型具有很好的耦合性,因此可以与现有的推荐算法有效地结合到一起。在实验过程中,我们使用了 Amazon 的手机和电子产品购物历史数据作为用户和商品的消费记录,并将它们链接到了 Freebase 知识图谱上(最大的开源知识图谱数据集)。最终,我们提出的算法较已有的最好算法在 Recall@5 上取得了平均4.4% 的提升。实验说明,图谱中的知识信息能帮助改进推荐排序算法。除了能提升推荐系统的算法表现,推荐结果的可解释性也是相关研究关注的重点问题之一。在本场景下,知识信息的引入所生成的规则就是天然的用户能直接阅读的推荐解释,通过人工标注我们也发现 94% 的推荐解释能被用户接受。这是说明知识图谱的引入还可以用于提高推荐算法的可解释性。从这些研究可以看到,知识图谱的引入能有效帮助刻画信息检索场景下的待排序内容,同时还提升了相应算法的可解释性。外部的知识的引入为相关领域的研究带来了新的方向和更多可能。
  2 知识支撑的搜索用户行为分析
  随着搜索技术的发展和广泛应用,搜索引擎在帮助用户高效检索和获取信息的基础上,进一步成为了人类学习和获取知识不可或缺的工具。然而,与通过使用搜索引擎检索和获取较为具体的信息(例如查询明天的天气预报)不同,进行搜索获取知识(例如理解搜索引擎的工作原理)是一个更为复杂的过程 , 用户往往需要进行多次查询,才能完成相应的学习任务。这一方面是由于知识之间往往存在关联与依赖关系,学习任务具有内在多样性(intrinsic diversity),因此用户需要进行多次查询,获取多方面的信息,构建包含知识间关系的知识体系。另外,在开始进行搜索时,用户常常因对相关领域缺乏了解,而陷入无法组织有效的查询的困境中。因此,用户需要在多次查询迭代的过程中,逐渐探索该领域,进而学习如何组织有效查询,更好地获取构建知识体系所需的相关信息。这种复杂的、高度交互式的搜索过程被概括为探索式搜索(exploratory search)。由于现代搜索引擎已经能较好地满足针对具体信息的检索需求,如何有效地支持探索式搜索已经成为信息检索领域的重要研究方向之一。与此同时,一些学者将搜索过程本身视为一个学习的过程,提出了“搜索即学习”(search as learning)这一概念。通过在搜索与学习过程之间建立类比,一方面可以借助心理学理论和学习理论对用户的搜索行为进行归类、分析、刻画和解释;另一方面可以将知识建模、表示和计算的相关方法,应用于复杂多查询会话的评价和用户意图理解模型等任务中。
  在分析用户搜索行为方面,IP&M 杂志主编Jansen 等利用认知学习(cognitive learning)领域的分类方法将搜索任务按照复杂程度分为了记忆(remembering)、理解(understanding)、应用(applying)、分析(analyzing)、评价(evaluating)和创造(creating)六类,并比较和分析了用户在完成这六类搜索任务时的搜索行为。芬兰坦佩雷大学的 Vakkari 将搜索时的学习概念化为“用户知识结构的改变”(changes in one’s knowledge structure)并提出可以用概念和其之间的关系来表示用户的知识结构。进一步的,Vakkari 基 于知识结构的变化方式,将搜索过程划分为三个阶段。在第一个阶段里,用户会对知识结构进行重构(restructuring),即改变和替换原有知识结构中包含的概念和关系。相应的用户在这一阶段里会使用较为宽泛的查询词进行检索,会从搜索结果中学习到新的查询词,会更多地阅读与问题背景相关的文档。在第二阶段里,用户会对知识结构进行调整(tuning), 即不替换和修改已有概念和关系,而只是调整它们的范围和含义。在这个阶段里,用户会使用相对更长更具体的查询,并且会建立起较为明确的相关性判断准则(relevance criteria)。在第三阶段里,用户会对知识结构进行同化(assimilation),即获取和知识结构中已有概念相关的实例信息和事实类信息。在这个阶段,用户的查询会变得更加具体,会获取大量的具体的事实类信息,并且会重新检查一些之前忽视的信息来源。
  如果将搜索看作是一个学习的过程,除了搜索任务的类型和当前所处的搜索阶段,用户自身具有的领域知识水平(domain expertise)也将会影响不同用户在完成同一个搜索任务时的行为。为了研究用户领域知识水平对其搜索行为和搜索结果的影响,我们组织了一次用户实验。实验中,设置了来自环境、医学、政治学三个领域的六个搜索任务,并从相应的院系招募了 30 个被试参加实验。通过要求每个被试完成两个本领域的搜索任务和四个非本领域搜索任务,我们有效地控制了用户知识水平这一自变量,并系统地分析了自变量对一系列刻画搜索结果和搜索过程的因变量影响。实验结果显示,被试能更好地完成本领域搜索任务,学习到更多的知识并正确回答相关问题,然而,其在完成本领域任务时的搜索满意度并没有显著提升。除此之外,利用眼动仪记录的细粒度用户行为信息,我们发现,用户在完成不熟悉领域的搜索任务时,会更依赖在搜索过程中学到的新查询词,并在阅读搜索结果时花费更多的认知负担(cognitive effort)。
  其次,在具体应用方面,由于用户的搜索过程和知识获取及学习过程存在紧密联系,可以利用一系列知识表示方法,对用户在搜索过程中的知识状态变化进行测量与建模,并以此为基础,改进搜索评价和用户意图理解模型。首先,在搜索评价方面,通过将搜索过程看作是一个学习的过程,可以通过评估学习的效果(learning outcome),对用户搜索过程是否有效、成功进行相对客观评价。日本学者 Yuka Egusa 和Noriko Kando 等首先尝试了使用概念图(concept map)对探索式搜索进行评价。概念图最早在教育领域被用于表示学生掌握的科学知识。一个概念图包含若干个概念节点和若干条表示概念之间关系的有向边。Egusa 等在用户实验中要求参与的被试在开始搜索之前和搜索结束后,分别绘制两张与搜索任务主体相关的概念图。通过比较两张概念图,可以计算新增、删除、共有的节点数和边数等指标,用于评价在搜索过程中,用户获取了多少新知识。注意到与传统的搜索满意度评价不同,上述评价方法能测量用户在搜索过程中是否成功地获取了新的知识。我们进一步尝试探究搜索成功程度与搜索满意度之间的联系与差别,以及能否有效地估计和预测搜索成功程度。为了研究上述问题,我们设计和组织了一次用户实验。在实验中每个被试被要求完成六个不同的搜索任务。每个搜索任务包含一道需要用 100 字左右答案回答的简答题。通过对最终答案的正确性进行打分,来测量用户搜索的成功程度;并通过用户的反馈来测量用户的搜索满意度。通过比较搜索成功程度与搜索满意度,发现存在相当比例的搜索会话出现了“满意但失败”和“不满意但成功”的现象。较为客观的搜索成功程度与主观的搜索满意度并不一致。我们进一步将每个任务的正确答案涉及的关键得分点(key point)进行了提取,并对用户在实验过程中阅读过的所有文档进行了细粒度的标注。标注信息包括文档是否包含每个关键得分点,以及文档的相关性、可靠性(credibility)和可读性(readability)。利用文档包含关键得分点和用户的搜索行为信息,分别构建了搜索成功程度评价指标和搜索成果程度预测模型。实验结果表明,利用文档包含知识点的信息,我们能有效地对搜索成功程度这一较为客观的搜索评价指标进行估计。
  其次,在用户意图理解方面,我们可以利用知识表示方法对用户在会话中搜索意图的变化进行建模,进而更好地预测用户下一个可能提交的查询,改进搜索引擎的查询推荐功能。例如,来自加州大学洛杉矶分校的 Jiang 和 Wang 将查询日志表示为一个包含不同查询、词项和网站三类型节点的异质网络。该网络中包含四种不同类型的边:① 查询内词项指向下一个词项的边;② 会话内上一查询指向下一查询的边;③ 查询指向包含词项的边;④ 查询指向点击网站的边。基于该异质网络,我们可以使用Node2Vec等表示学习算法,获得网络中节点的嵌入表示,并利用得到的嵌入表示进行查询推荐。查询改写还可进一步分为增加查询词、删除查询词和替换查询词等不同的类别。因此,我们可以将查询作为实体,不同类型的查询改写看作关系,利用TransE 等翻译嵌入模型,得到对应于不同类别查询(不同关系)改写的向量表示。我们在购物搜索的环境下进行了实验。针对购物搜索的特点,构建了一个二级的查询改写分类体系。该分类体系在增、删、改查询词之外,还对修改的查询词是针对设计、商品、风格、品牌、样式、功能、材料、渠道、价格和尺寸 10 类属性中的哪一类进行了区分。结合两级分类,该分类体系共涉及 30 类不同的购物搜索查询改写。通过TransE、TransH 和 TransR 模 型,可以训练得到每个查询词和每一类查询改写的嵌入表示。为了验证得到嵌入表示的有效性,我们设计了一个查询改写类别分类任务,即采用查询改写涉及的前后两个查询的嵌入表示的差作为特征,预测查询改写的类别。实验结果显示,采用翻译嵌入模型得到的向量表示,能有效地预测查询改写的类别。这再一次说明了使用知识表示学习方法,能较为有效地捕捉用户进行查询改写时隐含的搜索意图。
  相比于 Xu 等的工作,在模态间隐式对齐的任务上,我们采取了一种反其道而行之的做法。如图 4 所示,从视频图像信息出发,通过注意力机制与时间邻域内的多条文本间建立匹配和对齐。基于这个思想,设计了一种联合图像视觉与用户评论信息的多模态人物重识别模型,并在真实数据集上进行了验证。实验结果证实了模态间的对齐是有效的,使用注意力机制可以在一定程度上识别出那些与视频人物描述更为相关的文本信息,从而有助于更精确地刻画出人物的身份特征,达到更好的人物重识别效果。
  3 结束语
  由于知识与信息之间存在紧密的联系,在信息检索研究中引入知识的概念,以及知识计算方法是一个值得深入探索的研究方向。从系统的角度出发,可以通过构建模型,引入丰富的外部知识,有效地改进信息检索和推荐模型的排序性能。从用户的角度出发,通过将用户的搜索过程视为一个获取知识的过程,可以加深对用户搜索行为的理解,并借助知识计算方法,改进搜索性能评价和搜索用户意图理解。
  
  选自《中国人工智能学会通讯》
  2020年第10卷第9期
  知识工程专题
  
  AI 研习 往期文章
  扫描二维码
  获取更多精彩
  CAAI会员中心
   查看全部

  AI研习丨专题:知识支撑的信息检索与推荐
  
  摘 要
  本文介绍了目前国内外关于知识支撑的信息检索与推荐的研究进展,主要针对结合知识图谱的信息检索与推荐方法,以及知识支撑的搜索用户行为分析两个主要的研究方向进行了梳理和分析,并对未来工作提出了展望。
  关 键 字
  信息检索;推荐系统;知识图谱;探索式搜索
  
  0 引言
  知识和信息,是两个联系紧密而又有所区别的概念。信息科学领域的 DIKW 体系(DataInformation-Knowledge-Wisdom pyramid)能很好地阐释它们之间的关系。如图 1 所示,DIKW 体系是一个金字塔,从下往上包含数据(data)、信 息 (information)、 知 识(knowledge) 和智慧(wisdom)四个组成部分。其中,数据是信息的基础;信息是知识的基础;知识是智慧的基础。经过一定组织和处理,使其与当前的上下文或者任务相关,因此具有一定的意义、价值和相关性,并对完成当前任务有用,数据就可以被称为信息。当信息被进一步结构化,与其他信息建立联系,或者被吸收和整合现有的知识体系和结构中去,以帮助人们完成当前或未来的任务,信息就被转化为了知识。
  
  图 1 DIKW 体系
  传统信息检索研究主要涉及对非结构化或半结构化的海量数据进行存储、组织、索引和检索,使用户能快捷有效地从中检索和获取相关的信息。即主要涉及如何帮助用户从数据中获取信息。然而随着信息检索研究的不断发展,研究者开始逐渐意识到在信息检索领域中引入知识的重要性。
  一方面,从系统的角度,研究者开始意识到,在传统的文本数据和用户行为数据之外,我们可以利用知识图谱等高质量的结构化知识,进一步改进搜索引擎和推荐系统的排序性能。另一方面,从用户的角度,研究者开始将搜索过程看作是用户学习和获取知识的过程,从这一角度对用户的搜索行为进行分析、理解和建模。因此,本文将从上述两个方面,介绍知识支撑的信息检索与推荐相关研究进展。
  1 结合知识图谱的信息检索与推荐方法
  在信息检索领域,搜索引擎和推荐系统是两个最重要的应用方向。目前已有大量研究工作从不同方面尝试改进搜索排序和推荐排序的效果,包括利用用户的各类交互行为(点击和浏览等)和待排序条目的内容信息(描述和关键词等),也已在不同场景提升了算法表现。随着近些年相关研究的逐渐深入,越来越多的研究者开始意识到,信息检索场景之外的结构化知识对进一步改进搜索和推荐算法有重要作用,这些结构化知识能帮助我们更好地刻画搜索和推荐场景中的待排序条目。
  具体来说,知识图谱中包含了大量的实体和实体间的联系信息,这两类信息都对信息检索系统中的待排序内容的表示有重要帮助。一方面,如果将待排序内容(如搜索引擎中的文档或推荐系统中的商品等)与知识图谱中实体进行链接匹配,我们将能找出待排序内容的关键信息(即包含的实体词);另一方面,实体之间的特殊关系能协助做推理扩散,不管是对搜索场景下查询词的扩展还是推荐场景下待推荐内容的关系发现都将有重要作用。
  近年来,在搜索引擎和推荐系统领域有不少工作已基于类似思路开始了研究。已有学者在搜索场景下尝试在传统查询词-文档内容匹配的基础上借助知识图谱,考虑查询词中包含的实体与文档包含的实体之间的关联关系情况,进一步改进了文档排序的效果;在推荐系统场景中,由于知识信息的引入还能帮助缓解推荐的可解释性问题,因此有不少研究工作从这一角度入手,提升推荐算法表现的同时改进结果的可解释性。相关研究的应用于场景包括在网页搜索、信息流推荐、商品推荐和电影推荐等场景。可以看到,知识增强的信息检索方法研究已成为近年来研究的热点与重点。下面将对两个场景的知识利用分别做具体介绍。
  (1)搜索场景下的知识图谱利用
  在搜索排序算法中,查询词与文档的内容及语义匹配情况不管是在传统的 BM25、TF-IDF 算法和最近的深度排序模型中都起到了重要作用。然而,这些算法在进行匹配时大都赋予查询词中的每个词语以同等权重,没有将更多注意力放在关键信息上。例如,当查询词为“奥巴马的亲属关系”时,用户更关注的是“奥巴马”和“亲属”,而不是“关系”这个词语。为了解决这一问题,近年来,卡内基梅隆大学熊辰炎与清华大学刘知远等提出,可以在现有词语匹配的基础上,引入知识图谱中实体词对查询词和文档中包含的实体词同样进行匹配和相似度计算,以实现对关键实体信息的有效利用和挖掘。更进一步地,他们还考虑了词语和实体词的交叉匹配,即考虑了:① 查询词中词语 - 文档中词语;② 查询词中实体词 - 文档中词语;③ 查询词中词语 - 文档中实体词;④ 查询词中实体词 - 文档中实体词,四个维度的语义匹配情况。然后再使用池化和全连接操作得到最终的排序评分。该算法被命名为 EDRM(Entity-Duet Neural Ranking),框架如图 2 所示。
  
  图 2 EDRM 算法模型图
  在实验过程中,使用 DBPedia 作为额外引入的知识图谱的 EDRM 算法被应用在大规模中文搜索日志数据集上。结果显示,该算法较基准算法在 NDCG@1 上取得了近 20% 的提升。该结果表明,关键实体信息的引入对于改进搜索排序方法起到了重要作用。
  (2)推荐场景下的知识图谱利用
  在推荐场景中,我们注意到待推荐条目可能存在一些特定的关系,例如,特别是在商品推荐场景下,不同商品间存在互补(手机和手机壳)、替代(华为手机和苹果手机)等关系。如果能考虑商品之间的这些关系,我们将可以根据用户的历史行为进一步优化待推荐内容,为用户推荐与历史购买有互补关系的商品,同时避免推荐有替代关系的商品。然而,要获取商品间的关系并不容易,商品数量过于庞大导致不可能通过人工标注的方法获取。考虑到知识图谱中包含着大量的现有知识,这些现有知识可能对挖掘和推理商品间的关系有一定帮助。因此,我们基于商品间的关系(如替代和互补),提出了一种新的联合优化框架,用于从知识图谱中学习到归纳规则,并基于归纳规则生成商品对之间的关联特征,将其应用在推荐算法中。该算法框架被命名RuleRec,框架图见图3。
  
  图 3 RuleRec 算法框架图
  该模型主要包含规则学习模块和推荐模块两个部分。在规则学习模块中,我们通过在知识图谱上进行随机游走,找到对于商品间的替代关系和互补关系有较好预测作用的规则特征(限定了两个节点间随机游走经过的边的类型序列)。通过这些规则能为每个商品对建模学习到它们的相关性紧密程度,进而可以扩展到单个商品与用户之前购买的商品序列的联系情况。在推荐模块中,我们将学习得到的规则特征进行加权后,与其他推荐算法得到的推荐概率相加,以得到新的推荐概率,并依此生成推荐结果。由于该模型具有很好的耦合性,因此可以与现有的推荐算法有效地结合到一起。在实验过程中,我们使用了 Amazon 的手机和电子产品购物历史数据作为用户和商品的消费记录,并将它们链接到了 Freebase 知识图谱上(最大的开源知识图谱数据集)。最终,我们提出的算法较已有的最好算法在 Recall@5 上取得了平均4.4% 的提升。实验说明,图谱中的知识信息能帮助改进推荐排序算法。除了能提升推荐系统的算法表现,推荐结果的可解释性也是相关研究关注的重点问题之一。在本场景下,知识信息的引入所生成的规则就是天然的用户能直接阅读的推荐解释,通过人工标注我们也发现 94% 的推荐解释能被用户接受。这是说明知识图谱的引入还可以用于提高推荐算法的可解释性。从这些研究可以看到,知识图谱的引入能有效帮助刻画信息检索场景下的待排序内容,同时还提升了相应算法的可解释性。外部的知识的引入为相关领域的研究带来了新的方向和更多可能。
  2 知识支撑的搜索用户行为分析
  随着搜索技术的发展和广泛应用,搜索引擎在帮助用户高效检索和获取信息的基础上,进一步成为了人类学习和获取知识不可或缺的工具。然而,与通过使用搜索引擎检索和获取较为具体的信息(例如查询明天的天气预报)不同,进行搜索获取知识(例如理解搜索引擎的工作原理)是一个更为复杂的过程 , 用户往往需要进行多次查询,才能完成相应的学习任务。这一方面是由于知识之间往往存在关联与依赖关系,学习任务具有内在多样性(intrinsic diversity),因此用户需要进行多次查询,获取多方面的信息,构建包含知识间关系的知识体系。另外,在开始进行搜索时,用户常常因对相关领域缺乏了解,而陷入无法组织有效的查询的困境中。因此,用户需要在多次查询迭代的过程中,逐渐探索该领域,进而学习如何组织有效查询,更好地获取构建知识体系所需的相关信息。这种复杂的、高度交互式的搜索过程被概括为探索式搜索(exploratory search)。由于现代搜索引擎已经能较好地满足针对具体信息的检索需求,如何有效地支持探索式搜索已经成为信息检索领域的重要研究方向之一。与此同时,一些学者将搜索过程本身视为一个学习的过程,提出了“搜索即学习”(search as learning)这一概念。通过在搜索与学习过程之间建立类比,一方面可以借助心理学理论和学习理论对用户的搜索行为进行归类、分析、刻画和解释;另一方面可以将知识建模、表示和计算的相关方法,应用于复杂多查询会话的评价和用户意图理解模型等任务中。
  在分析用户搜索行为方面,IP&M 杂志主编Jansen 等利用认知学习(cognitive learning)领域的分类方法将搜索任务按照复杂程度分为了记忆(remembering)、理解(understanding)、应用(applying)、分析(analyzing)、评价(evaluating)和创造(creating)六类,并比较和分析了用户在完成这六类搜索任务时的搜索行为。芬兰坦佩雷大学的 Vakkari 将搜索时的学习概念化为“用户知识结构的改变”(changes in one’s knowledge structure)并提出可以用概念和其之间的关系来表示用户的知识结构。进一步的,Vakkari 基 于知识结构的变化方式,将搜索过程划分为三个阶段。在第一个阶段里,用户会对知识结构进行重构(restructuring),即改变和替换原有知识结构中包含的概念和关系。相应的用户在这一阶段里会使用较为宽泛的查询词进行检索,会从搜索结果中学习到新的查询词,会更多地阅读与问题背景相关的文档。在第二阶段里,用户会对知识结构进行调整(tuning), 即不替换和修改已有概念和关系,而只是调整它们的范围和含义。在这个阶段里,用户会使用相对更长更具体的查询,并且会建立起较为明确的相关性判断准则(relevance criteria)。在第三阶段里,用户会对知识结构进行同化(assimilation),即获取和知识结构中已有概念相关的实例信息和事实类信息。在这个阶段,用户的查询会变得更加具体,会获取大量的具体的事实类信息,并且会重新检查一些之前忽视的信息来源。
  如果将搜索看作是一个学习的过程,除了搜索任务的类型和当前所处的搜索阶段,用户自身具有的领域知识水平(domain expertise)也将会影响不同用户在完成同一个搜索任务时的行为。为了研究用户领域知识水平对其搜索行为和搜索结果的影响,我们组织了一次用户实验。实验中,设置了来自环境、医学、政治学三个领域的六个搜索任务,并从相应的院系招募了 30 个被试参加实验。通过要求每个被试完成两个本领域的搜索任务和四个非本领域搜索任务,我们有效地控制了用户知识水平这一自变量,并系统地分析了自变量对一系列刻画搜索结果和搜索过程的因变量影响。实验结果显示,被试能更好地完成本领域搜索任务,学习到更多的知识并正确回答相关问题,然而,其在完成本领域任务时的搜索满意度并没有显著提升。除此之外,利用眼动仪记录的细粒度用户行为信息,我们发现,用户在完成不熟悉领域的搜索任务时,会更依赖在搜索过程中学到的新查询词,并在阅读搜索结果时花费更多的认知负担(cognitive effort)。
  其次,在具体应用方面,由于用户的搜索过程和知识获取及学习过程存在紧密联系,可以利用一系列知识表示方法,对用户在搜索过程中的知识状态变化进行测量与建模,并以此为基础,改进搜索评价和用户意图理解模型。首先,在搜索评价方面,通过将搜索过程看作是一个学习的过程,可以通过评估学习的效果(learning outcome),对用户搜索过程是否有效、成功进行相对客观评价。日本学者 Yuka Egusa 和Noriko Kando 等首先尝试了使用概念图(concept map)对探索式搜索进行评价。概念图最早在教育领域被用于表示学生掌握的科学知识。一个概念图包含若干个概念节点和若干条表示概念之间关系的有向边。Egusa 等在用户实验中要求参与的被试在开始搜索之前和搜索结束后,分别绘制两张与搜索任务主体相关的概念图。通过比较两张概念图,可以计算新增、删除、共有的节点数和边数等指标,用于评价在搜索过程中,用户获取了多少新知识。注意到与传统的搜索满意度评价不同,上述评价方法能测量用户在搜索过程中是否成功地获取了新的知识。我们进一步尝试探究搜索成功程度与搜索满意度之间的联系与差别,以及能否有效地估计和预测搜索成功程度。为了研究上述问题,我们设计和组织了一次用户实验。在实验中每个被试被要求完成六个不同的搜索任务。每个搜索任务包含一道需要用 100 字左右答案回答的简答题。通过对最终答案的正确性进行打分,来测量用户搜索的成功程度;并通过用户的反馈来测量用户的搜索满意度。通过比较搜索成功程度与搜索满意度,发现存在相当比例的搜索会话出现了“满意但失败”和“不满意但成功”的现象。较为客观的搜索成功程度与主观的搜索满意度并不一致。我们进一步将每个任务的正确答案涉及的关键得分点(key point)进行了提取,并对用户在实验过程中阅读过的所有文档进行了细粒度的标注。标注信息包括文档是否包含每个关键得分点,以及文档的相关性、可靠性(credibility)和可读性(readability)。利用文档包含关键得分点和用户的搜索行为信息,分别构建了搜索成功程度评价指标和搜索成果程度预测模型。实验结果表明,利用文档包含知识点的信息,我们能有效地对搜索成功程度这一较为客观的搜索评价指标进行估计。
  其次,在用户意图理解方面,我们可以利用知识表示方法对用户在会话中搜索意图的变化进行建模,进而更好地预测用户下一个可能提交的查询,改进搜索引擎的查询推荐功能。例如,来自加州大学洛杉矶分校的 Jiang 和 Wang 将查询日志表示为一个包含不同查询、词项和网站三类型节点的异质网络。该网络中包含四种不同类型的边:① 查询内词项指向下一个词项的边;② 会话内上一查询指向下一查询的边;③ 查询指向包含词项的边;④ 查询指向点击网站的边。基于该异质网络,我们可以使用Node2Vec等表示学习算法,获得网络中节点的嵌入表示,并利用得到的嵌入表示进行查询推荐。查询改写还可进一步分为增加查询词、删除查询词和替换查询词等不同的类别。因此,我们可以将查询作为实体,不同类型的查询改写看作关系,利用TransE 等翻译嵌入模型,得到对应于不同类别查询(不同关系)改写的向量表示。我们在购物搜索的环境下进行了实验。针对购物搜索的特点,构建了一个二级的查询改写分类体系。该分类体系在增、删、改查询词之外,还对修改的查询词是针对设计、商品、风格、品牌、样式、功能、材料、渠道、价格和尺寸 10 类属性中的哪一类进行了区分。结合两级分类,该分类体系共涉及 30 类不同的购物搜索查询改写。通过TransE、TransH 和 TransR 模 型,可以训练得到每个查询词和每一类查询改写的嵌入表示。为了验证得到嵌入表示的有效性,我们设计了一个查询改写类别分类任务,即采用查询改写涉及的前后两个查询的嵌入表示的差作为特征,预测查询改写的类别。实验结果显示,采用翻译嵌入模型得到的向量表示,能有效地预测查询改写的类别。这再一次说明了使用知识表示学习方法,能较为有效地捕捉用户进行查询改写时隐含的搜索意图。
  相比于 Xu 等的工作,在模态间隐式对齐的任务上,我们采取了一种反其道而行之的做法。如图 4 所示,从视频图像信息出发,通过注意力机制与时间邻域内的多条文本间建立匹配和对齐。基于这个思想,设计了一种联合图像视觉与用户评论信息的多模态人物重识别模型,并在真实数据集上进行了验证。实验结果证实了模态间的对齐是有效的,使用注意力机制可以在一定程度上识别出那些与视频人物描述更为相关的文本信息,从而有助于更精确地刻画出人物的身份特征,达到更好的人物重识别效果。
  3 结束语
  由于知识与信息之间存在紧密的联系,在信息检索研究中引入知识的概念,以及知识计算方法是一个值得深入探索的研究方向。从系统的角度出发,可以通过构建模型,引入丰富的外部知识,有效地改进信息检索和推荐模型的排序性能。从用户的角度出发,通过将用户的搜索过程视为一个获取知识的过程,可以加深对用户搜索行为的理解,并借助知识计算方法,改进搜索性能评价和搜索用户意图理解。
  
  选自《中国人工智能学会通讯》
  2020年第10卷第9期
  知识工程专题
  
  AI 研习 往期文章
  扫描二维码
  获取更多精彩
  CAAI会员中心
  

搜索引擎营销推广的方法有哪些?

网站优化优采云 发表了文章 • 0 个评论 • 90 次浏览 • 2022-05-08 14:46 • 来自相关话题

  搜索引擎营销推广的方法有哪些?
  无论是线上上或是线下推广,营销推广全是必不可缺的有效的方式。由于,伴随着移动互联的迅速发展趋势,已过去了香醇不畏酒香不怕巷的时期,现在是必须主动进攻才有可能完成营销推广目地。因此,企业网络营销全过程中,下列的搜索引擎营销推广的方式务必关键把握,实际向下看一下。
  一、搜索引擎营销推广的方式 有什么?1、SEM营销推广
  SEM是搜索引擎搜索推广,是根据发掘、剖析用户检索的关键词,对该关键词开展竞价来得到需要的排名。一般来说,受欢迎的关键词竞争比较大,要想根据它得到较前的排名,务必出“大格局”才有可能得到较前的排名。
  2、SEO营销推广
  SEO是搜索引擎优化方法,是依据网址主题风格和用户的搜寻习惯性,挑选最好关键词提升而得到排名。一般关键词指数值越高,提升难度系数越高,可是一旦得到排名,排名的可靠性较强,不容易随便发生下挫。
  
  3、关键词广告宣传
  关键词广告是搜索引擎营销推广的一种常见的作法,运用用户点一下关键词开展收费,剖析、发掘出大量相关的新闻资讯。
  二、搜索引擎营销推广包含哪几个方面?
  殊不知,无论应用以上哪一种搜索引擎营销推广,它都包含下列层面:
  想要让降血压广告效果越来越好就一定要做好:1、定位到需求人群2、提高广告创意+针对性文案3、使用多种广告投放方式4、通过平台投放
  1、适合的关键词
  关键词是搜索引擎营销推广推广合理的前提条件。因此,在营销推广的环节中,务必自始至终紧紧围绕着网址主题风格及用户的搜寻习惯性挑选关键词,不必草率的要求受欢迎关键词,反而是采用最适用的关键词。
  2、做好內容的添充
  內容是吸引用户的重要。因此,內容的品质及升级的次数全是十分核心的。可是,有一些公司发觉升级內容真的很难,如不可以剽窃别人內容,又得维持按时升级,总感觉真的很难。实际上,“天地文章内容一片抄”,重要就可以看你是否会抄。
  
  实际上,在编写时必须维持自身网址的有关构思,并且多立在用户的视角去思索一些问题,如她们想在內容掌握到哪些、想从这当中得到什么有一些使用价值的物品这些,那样编写出去的信息不但能遭受用户的爱好,并且还能吸引住搜索引擎的爬取,而搜索引擎爬行越快网址排名越高,营销推广实际效果就会更好。
  3、做好时时刻刻监管的工作中
  网络平台变幻莫测,不可以以不会改变的目光来对待发展趋势。因此,务必做好时时刻刻监管的提前准备,对用户的浏览、搜索引擎蜘蛛的爬取维持相对高度的当心,那样才可以让营销推广工作中高效率。
  总而言之,搜索引擎营销推广是一把双刃刀,用得可以使你的网址排名靠前,总流量暴涨,完成早日赢利就是指日可待,如果是投机取巧也会使你的营销推广职业生涯迈向穷途末路,此后消退在网络的深海里。因此,假如公司没希望能做好搜索引擎营销推广,云浪科技会是你们优秀的挑选。
  可以联系小编
  百度前三,包月推广,独立后台数据抓取,当天上线,不限点击费,1500元/月保证前三,3999元包年托管,需要的请联系小编
   查看全部

  搜索引擎营销推广的方法有哪些?
  无论是线上上或是线下推广,营销推广全是必不可缺的有效的方式。由于,伴随着移动互联的迅速发展趋势,已过去了香醇不畏酒香不怕巷的时期,现在是必须主动进攻才有可能完成营销推广目地。因此,企业网络营销全过程中,下列的搜索引擎营销推广的方式务必关键把握,实际向下看一下。
  一、搜索引擎营销推广的方式 有什么?1、SEM营销推广
  SEM是搜索引擎搜索推广,是根据发掘、剖析用户检索的关键词,对该关键词开展竞价来得到需要的排名。一般来说,受欢迎的关键词竞争比较大,要想根据它得到较前的排名,务必出“大格局”才有可能得到较前的排名。
  2、SEO营销推广
  SEO是搜索引擎优化方法,是依据网址主题风格和用户的搜寻习惯性,挑选最好关键词提升而得到排名。一般关键词指数值越高,提升难度系数越高,可是一旦得到排名,排名的可靠性较强,不容易随便发生下挫。
  
  3、关键词广告宣传
  关键词广告是搜索引擎营销推广的一种常见的作法,运用用户点一下关键词开展收费,剖析、发掘出大量相关的新闻资讯。
  二、搜索引擎营销推广包含哪几个方面?
  殊不知,无论应用以上哪一种搜索引擎营销推广,它都包含下列层面:
  想要让降血压广告效果越来越好就一定要做好:1、定位到需求人群2、提高广告创意+针对性文案3、使用多种广告投放方式4、通过平台投放
  1、适合的关键词
  关键词是搜索引擎营销推广推广合理的前提条件。因此,在营销推广的环节中,务必自始至终紧紧围绕着网址主题风格及用户的搜寻习惯性挑选关键词,不必草率的要求受欢迎关键词,反而是采用最适用的关键词。
  2、做好內容的添充
  內容是吸引用户的重要。因此,內容的品质及升级的次数全是十分核心的。可是,有一些公司发觉升级內容真的很难,如不可以剽窃别人內容,又得维持按时升级,总感觉真的很难。实际上,“天地文章内容一片抄”,重要就可以看你是否会抄。
  
  实际上,在编写时必须维持自身网址的有关构思,并且多立在用户的视角去思索一些问题,如她们想在內容掌握到哪些、想从这当中得到什么有一些使用价值的物品这些,那样编写出去的信息不但能遭受用户的爱好,并且还能吸引住搜索引擎的爬取,而搜索引擎爬行越快网址排名越高,营销推广实际效果就会更好。
  3、做好时时刻刻监管的工作中
  网络平台变幻莫测,不可以以不会改变的目光来对待发展趋势。因此,务必做好时时刻刻监管的提前准备,对用户的浏览、搜索引擎蜘蛛的爬取维持相对高度的当心,那样才可以让营销推广工作中高效率。
  总而言之,搜索引擎营销推广是一把双刃刀,用得可以使你的网址排名靠前,总流量暴涨,完成早日赢利就是指日可待,如果是投机取巧也会使你的营销推广职业生涯迈向穷途末路,此后消退在网络的深海里。因此,假如公司没希望能做好搜索引擎营销推广,云浪科技会是你们优秀的挑选。
  可以联系小编
  百度前三,包月推广,独立后台数据抓取,当天上线,不限点击费,1500元/月保证前三,3999元包年托管,需要的请联系小编
  

【实例】网页搜索策略思考方法

网站优化优采云 发表了文章 • 0 个评论 • 115 次浏览 • 2022-05-05 22:24 • 来自相关话题

  【实例】网页搜索策略思考方法
  
  功能导向型核心业务的策略框架
  
  
  网页搜索策略思考方法
  1
  产品目标
  
  产品目标:高效地获取信息
  1)需求复杂又多变
  2)从浩瀚的候选集合里找到正确的信息
  不同用户输入同一query表达的需求可能不一致;
  同一用户在不同场景输入同一query表达的需求也可能不一致。
  2
  需求理解
  这里的需求理解其实就是广义的query解析
  分为三类:
  1)需求明确
  A)结构简单清晰的query:经过切词处理即可进行后续检索
  例如:黄山优采云站订票电话——>黄山 优采云站 订 票 电话
  B)口语化的query:需要进行纠错、同义转换等语义处理
  例如:杭州至盐城高速怎么走
  ——>杭州|至|盐城|高速|怎么|走
  ——>【map】 【from:杭州】 【to:盐城】 【type:驾车】
  C)表达方式很复杂的query:需要进行更加unique的语义处理
  例如:
  披星()月
  吾尝终日而思矣,后面
  2)需求明确,对答案有特殊要求
  除了统一的query变换外,需要将特定要求转换成搜索引擎可理解的特征
  例如:
  猪肉最新价格——>资源时效性
  3)需求不明确,需要进行需求扩展和预测
  例如:
  欢乐颂——>欢乐颂视频、剧情介绍、演员表、评论。。。
  猩球崛起3——>上映前需要预告片上映时间、上映中需要介绍评价在线购票、下映后需要介绍评论视频
  三类扩展维度:
  上下文数据:搜了欢乐颂后,用户是否主动更改query搜索欢乐颂视频
  类目数据:对于【欢乐颂】这种电视剧专名,天然就有视频、剧情等需求。PM可以提前梳理针对各类目的需求扩展list。
  个性化数据:对于特定类目可以进行地域扩展,家乐福——>北京家乐福;电影专名,有的用户更倾向于看剧情,有的倾向看评论。
  一个query经过以上分类处理后,会统一成这样的输出,来进行接下来的检索:
  【需求类目/需求词】
  【需求强度】
  【待检索term/pattern】
  【其他限定特征(地域等)】
  衡量指标:
  1)每个query分析规则的召回率和准确率
  2)各需求的召回率和准确率
  3
  解决方案
  分为两部分:排序和展现
  1.排序
  不同需求间:根据需求强度(命中需求的概率)
  同一需求间:根据结果质量(相关性、权威性、时效性、可用性)
  根据用户的点击行为进行调整
  实际上,会把需求强度、结果质量、用户点击行为统一成【唯一指标】决定首页结果的排序
  LTR:learningtorank机器学习排序
  
  2.展现
  通用策略:将结果页中与query相关的信息提取为标题/摘要,进行飘红等处理帮助用户筛选信息
  (对所有搜索引擎,都是将检索对象中用户最关心的内容提取至检索结果列表页,并根据情况以各种强化的样式展现)
  细化策略:针对不同需求,又有如下细化策略:
  A)对于单一明确信息需求,可以将答案信息之间在摘要中展现
  例如:天气、客服电话
  B)对于用户接下来路径相对收敛的需求,可以将下一步需求前置,缩短步骤
  例如:网易邮箱(登录)、欢乐颂视频(集数)、凡人歌(播放)
  C)对于不同资源类型结果,可以针对性优化摘要
  例如:视频类、图片类、新闻类、地图类
  3.衡量指标
  1)每个需求打分、质量打分、展现策略的召回率和准确率
  2)用户角度的搜索的满足度
  A)基于用户行为的搜索满足度:
  摘要满足型需求——>无/很少点击行为
  单结果满足型需求——>点击集中于收条结果
  主动变换query比例低
  翻页比例低等等
  B)基于人为评估的搜索满足度:
  query前3/5/10结果相关性->基于人为需求判断,当前结果是否能满足;与竞品相比,是否有更好结果未收录、排序是否更优等
  session满足度->从用户一个行为片段分析其是否得到满足
  4
  资源支撑
  1.自然语言相关
  各类基础词库:用于query切词处理、同义转换、纠错等
  语义理解和处理规则:用于query解析
  2.网页相关
  网页收录(spider):
  1)保证各类网页收录覆盖度
  2)保证各类网页收录时效性:根据网页类型定义更新频率,重要或时效性要求高的资源可选择站长主动提交的方式
  页面分析:
  对页面类型进行识别,页面中内容解析、为term附权等等
  衡量指标
  1)对于NLP相关:各类词库、处理策略的准确率、召回率等;
  2)对于网页收录:收录覆盖率、更新时效性等;
  3)对于页面分析:各类准确率、召回率等。
  5
  总结
  
  以上为三节课策略产品课程个人学习笔记。 查看全部

  【实例】网页搜索策略思考方法
  
  功能导向型核心业务的策略框架
  
  
  网页搜索策略思考方法
  1
  产品目标
  
  产品目标:高效地获取信息
  1)需求复杂又多变
  2)从浩瀚的候选集合里找到正确的信息
  不同用户输入同一query表达的需求可能不一致;
  同一用户在不同场景输入同一query表达的需求也可能不一致。
  2
  需求理解
  这里的需求理解其实就是广义的query解析
  分为三类:
  1)需求明确
  A)结构简单清晰的query:经过切词处理即可进行后续检索
  例如:黄山优采云站订票电话——>黄山 优采云站 订 票 电话
  B)口语化的query:需要进行纠错、同义转换等语义处理
  例如:杭州至盐城高速怎么走
  ——>杭州|至|盐城|高速|怎么|走
  ——>【map】 【from:杭州】 【to:盐城】 【type:驾车】
  C)表达方式很复杂的query:需要进行更加unique的语义处理
  例如:
  披星()月
  吾尝终日而思矣,后面
  2)需求明确,对答案有特殊要求
  除了统一的query变换外,需要将特定要求转换成搜索引擎可理解的特征
  例如:
  猪肉最新价格——>资源时效性
  3)需求不明确,需要进行需求扩展和预测
  例如:
  欢乐颂——>欢乐颂视频、剧情介绍、演员表、评论。。。
  猩球崛起3——>上映前需要预告片上映时间、上映中需要介绍评价在线购票、下映后需要介绍评论视频
  三类扩展维度:
  上下文数据:搜了欢乐颂后,用户是否主动更改query搜索欢乐颂视频
  类目数据:对于【欢乐颂】这种电视剧专名,天然就有视频、剧情等需求。PM可以提前梳理针对各类目的需求扩展list。
  个性化数据:对于特定类目可以进行地域扩展,家乐福——>北京家乐福;电影专名,有的用户更倾向于看剧情,有的倾向看评论。
  一个query经过以上分类处理后,会统一成这样的输出,来进行接下来的检索:
  【需求类目/需求词】
  【需求强度】
  【待检索term/pattern】
  【其他限定特征(地域等)】
  衡量指标:
  1)每个query分析规则的召回率和准确率
  2)各需求的召回率和准确率
  3
  解决方案
  分为两部分:排序和展现
  1.排序
  不同需求间:根据需求强度(命中需求的概率)
  同一需求间:根据结果质量(相关性、权威性、时效性、可用性)
  根据用户的点击行为进行调整
  实际上,会把需求强度、结果质量、用户点击行为统一成【唯一指标】决定首页结果的排序
  LTR:learningtorank机器学习排序
  
  2.展现
  通用策略:将结果页中与query相关的信息提取为标题/摘要,进行飘红等处理帮助用户筛选信息
  (对所有搜索引擎,都是将检索对象中用户最关心的内容提取至检索结果列表页,并根据情况以各种强化的样式展现)
  细化策略:针对不同需求,又有如下细化策略:
  A)对于单一明确信息需求,可以将答案信息之间在摘要中展现
  例如:天气、客服电话
  B)对于用户接下来路径相对收敛的需求,可以将下一步需求前置,缩短步骤
  例如:网易邮箱(登录)、欢乐颂视频(集数)、凡人歌(播放)
  C)对于不同资源类型结果,可以针对性优化摘要
  例如:视频类、图片类、新闻类、地图类
  3.衡量指标
  1)每个需求打分、质量打分、展现策略的召回率和准确率
  2)用户角度的搜索的满足度
  A)基于用户行为的搜索满足度:
  摘要满足型需求——>无/很少点击行为
  单结果满足型需求——>点击集中于收条结果
  主动变换query比例低
  翻页比例低等等
  B)基于人为评估的搜索满足度:
  query前3/5/10结果相关性->基于人为需求判断,当前结果是否能满足;与竞品相比,是否有更好结果未收录、排序是否更优等
  session满足度->从用户一个行为片段分析其是否得到满足
  4
  资源支撑
  1.自然语言相关
  各类基础词库:用于query切词处理、同义转换、纠错等
  语义理解和处理规则:用于query解析
  2.网页相关
  网页收录(spider):
  1)保证各类网页收录覆盖度
  2)保证各类网页收录时效性:根据网页类型定义更新频率,重要或时效性要求高的资源可选择站长主动提交的方式
  页面分析:
  对页面类型进行识别,页面中内容解析、为term附权等等
  衡量指标
  1)对于NLP相关:各类词库、处理策略的准确率、召回率等;
  2)对于网页收录:收录覆盖率、更新时效性等;
  3)对于页面分析:各类准确率、召回率等。
  5
  总结
  
  以上为三节课策略产品课程个人学习笔记。

SEM(搜索引擎营销)是什么?

网站优化优采云 发表了文章 • 0 个评论 • 121 次浏览 • 2022-05-05 22:20 • 来自相关话题

  SEM(搜索引擎营销)是什么?
  
  SEM是Search Engine Marketing的缩写,中文意思是搜索引擎营销。就是根据用户使用搜索引擎的方式,利用用户检索信息的机会尽可能将营销信息传递给目标用户。简单来说,搜索引擎营销就是基于搜索引擎平台的网络营销,利用人们对搜索引擎的依赖和使用习惯,在人们检索信息的时候尽可能将营销信息传递给目标客户。
  
  搜索引擎营销的基本思想是让用户发现信息,并通过(搜索引擎)搜索点击进入网站/网页进一步了解他所需要的信息。SEM可以在搜索引擎中进行品牌的维护,将品牌的负面信息尽可能少的呈现在搜索用户面前,可以预防竞争对手在网络上恶意的诬陷。同时可以在进行正面和商业信息的推广,进而达到品牌推广的目标。
  SEM目标层次原理
  SEM搜索引擎营销可分为四个层次,可分别简单描述为:存在层、表现层、关注层和转化层。
  第一层的目标是搜索引擎营销的存在层,其目标是在主要的搜索引擎/分类目录中获得被收录的机会,这是搜索引擎营销的基础之一,第二个基础是通过竞价排名方式出现在搜索引擎中,离开这两个层次,搜索引擎营销的其他目标也就不可能实现。搜索引擎登录包括免费登录、付费登录、搜索引擎关键词广告等形式。存在层的含义就是让网站中尽可能多的网页获得被搜索引擎收录(而不仅仅是网站首页),也就是为增加网页的搜索引擎可见性。
  第二层的目标则是在被搜索引擎收录的基础上尽可能获得好的排名,即在搜索结果中有良好的表现,因而可称为表现层。因为用户关心的只是搜索结果中靠前的少量内容,如果利用主要的关键词检索时网站在搜索结果中的排名靠后,那么还有必要利用关键词广告、竞价广告等形式作为补充手段来实现这一目标。同样,如果在分类目录中的位置不理想,则需要同时考虑在分类目录中利用付费等方式获得排名靠前。
  第三层的目标则直接表现为网站访问量指标方面,也就是通过搜索结果点击率的增加来达到提高网站访问量的目的。由于只有受到用户关注,经过用户选择后的信息才可能被点击,因此可称为关注层。从搜索引擎的实际情况来看,仅仅做到被搜索引擎收录并且在搜索结果中排名靠前是不够的,这样并不一定能增加用户的点击率,更不能保证将访问者转化为顾客。要通过搜索引擎营销实现访问量增加的目标,则需要从整体上进行网站优化设计,并充分利用关键词广告等有价值的搜索引擎营销专业服务。
  第四层的目标,即通过访问量的增加转化为企业最终实现收益的提高,可称为转化层。转化层是前面三个目标层次的进一步提升,是各种搜索引擎方法所实现效果的集中体现,但并不是搜索引擎营销的直接效果。从各种搜索引擎策略到产生收益,期间的中间效果表现为网站访问量的增加,网站的收益是由访问量转化所形成的,从访问量转化为收益则是由网站的功能、服务、产品等多种因素共同作用而决定的。因此,第四个目标在搜索引擎营销中属于战略层次的目标。其他三个层次的目标则属于策略范畴,具有可操作性和可控制性的特征,实现这些基本目标是搜索引擎营销的主要任务。目前搜索营销,逐步被人们认识和运用。
  SEM基本要素
  根据搜索引擎营销的基本原理,搜索引擎营销之所以能够实现,需要有五个基本要素:信息源(网页)、搜索引擎信息索引数据库、用户的检索行为和检索结果、用户对检索结果的分析判断、对选中检索结果的点击。对这些要素以及搜索引擎营销信息传递过程的研究和有效实现就构成了搜索引擎营销的基本任务和内容。
  
  SEM的优势
  SEM是一种新的网络营销形式。SEM所做的就是全面而有效的利用搜索引擎来进行网络营销和推广。SEM追求最高的性价比,以最小的投入,获最大的来自搜索引擎的访问量,并产生商业价值。SEM可以在搜索引擎中进行品牌的维护,将品牌的负面信息尽可能少的呈现在搜索用户面前,可以预防竞争对手在网络上恶意的诬陷。同时可以在进行正面和商业信息的推广,进而达到品牌推广的目标。
  SEM与SEO、SMO的区别
  SEM是网络营销,SEO是技术,SMO是通过社会化媒体一整套方法。
  通俗的讲SEO是搜索引擎优化,是通过优化网站让其在搜索引擎上有良好的排名,主要是技术层面的。SEM是搜索引擎营销,SEO只是SEM的一部分。SEM主要是通过搜索引擎进行营销的。SMO是通过社会化媒体、在线组织及社区网站获得公共传播的一整套方法,是社会化媒体优化是网络营销的一种最新形式。
  SEM网络营销常用方法
  1、搜索引擎营销
  搜索引擎营销是指搜索引擎优化、关键词广告、关键词竞价排名、搜索引擎定位广告搜索引擎在网络营销中的地位尤其重要,每天各行各业的人使用搜索引擎搜索信息。通过搜索引擎营销能直接带来流量与终端客户。
  2、电子邮件营销方法
  以电子邮件为产品资料、刊物、介绍等方向发送到电子邮件广告等。基于用户许可的电子邮件营销的推广方式可以增加用户对产品的了解。
  3、资源合作营销方法
  网站交换链接、交换广告、内容合作、信息推广、信息合作、用户资源合作等方式,正所谓“人人为我,我为人人”,合作共赢,利益共享,共同发展。
  4、网络广告营销方法
  网络广告是常用的网络营销方式之一,直接通过网站的广告位置进行投放推广,可以直接借用其他网络媒体推广,网站广告的优势在于:范围广、形式多样、适用性强、投放及时等优点,适合于网站初期营销推广。
  5、信息推广营销方法
  把网站的信息发布相关行业网站中,利用用户在访问这些网站同时,了解你网站信息,达到凿壁借光,可以把信息推广发布到黄页、分类广告、论坛、博客网站、供求信息平台、行业网站等,这也是免费网站推广的常用方法之一。
  6、网址营销方法
  通过把一些网站信息提交到相关网址导航中,来获取巨大流量,有些网络用户常进入一些网址导航中来查询相关网站信息,而且此种推广,对网站的作用也显而易见。 查看全部

  SEM(搜索引擎营销)是什么?
  
  SEM是Search Engine Marketing的缩写,中文意思是搜索引擎营销。就是根据用户使用搜索引擎的方式,利用用户检索信息的机会尽可能将营销信息传递给目标用户。简单来说,搜索引擎营销就是基于搜索引擎平台的网络营销,利用人们对搜索引擎的依赖和使用习惯,在人们检索信息的时候尽可能将营销信息传递给目标客户。
  
  搜索引擎营销的基本思想是让用户发现信息,并通过(搜索引擎)搜索点击进入网站/网页进一步了解他所需要的信息。SEM可以在搜索引擎中进行品牌的维护,将品牌的负面信息尽可能少的呈现在搜索用户面前,可以预防竞争对手在网络上恶意的诬陷。同时可以在进行正面和商业信息的推广,进而达到品牌推广的目标。
  SEM目标层次原理
  SEM搜索引擎营销可分为四个层次,可分别简单描述为:存在层、表现层、关注层和转化层。
  第一层的目标是搜索引擎营销的存在层,其目标是在主要的搜索引擎/分类目录中获得被收录的机会,这是搜索引擎营销的基础之一,第二个基础是通过竞价排名方式出现在搜索引擎中,离开这两个层次,搜索引擎营销的其他目标也就不可能实现。搜索引擎登录包括免费登录、付费登录、搜索引擎关键词广告等形式。存在层的含义就是让网站中尽可能多的网页获得被搜索引擎收录(而不仅仅是网站首页),也就是为增加网页的搜索引擎可见性。
  第二层的目标则是在被搜索引擎收录的基础上尽可能获得好的排名,即在搜索结果中有良好的表现,因而可称为表现层。因为用户关心的只是搜索结果中靠前的少量内容,如果利用主要的关键词检索时网站在搜索结果中的排名靠后,那么还有必要利用关键词广告、竞价广告等形式作为补充手段来实现这一目标。同样,如果在分类目录中的位置不理想,则需要同时考虑在分类目录中利用付费等方式获得排名靠前。
  第三层的目标则直接表现为网站访问量指标方面,也就是通过搜索结果点击率的增加来达到提高网站访问量的目的。由于只有受到用户关注,经过用户选择后的信息才可能被点击,因此可称为关注层。从搜索引擎的实际情况来看,仅仅做到被搜索引擎收录并且在搜索结果中排名靠前是不够的,这样并不一定能增加用户的点击率,更不能保证将访问者转化为顾客。要通过搜索引擎营销实现访问量增加的目标,则需要从整体上进行网站优化设计,并充分利用关键词广告等有价值的搜索引擎营销专业服务。
  第四层的目标,即通过访问量的增加转化为企业最终实现收益的提高,可称为转化层。转化层是前面三个目标层次的进一步提升,是各种搜索引擎方法所实现效果的集中体现,但并不是搜索引擎营销的直接效果。从各种搜索引擎策略到产生收益,期间的中间效果表现为网站访问量的增加,网站的收益是由访问量转化所形成的,从访问量转化为收益则是由网站的功能、服务、产品等多种因素共同作用而决定的。因此,第四个目标在搜索引擎营销中属于战略层次的目标。其他三个层次的目标则属于策略范畴,具有可操作性和可控制性的特征,实现这些基本目标是搜索引擎营销的主要任务。目前搜索营销,逐步被人们认识和运用。
  SEM基本要素
  根据搜索引擎营销的基本原理,搜索引擎营销之所以能够实现,需要有五个基本要素:信息源(网页)、搜索引擎信息索引数据库、用户的检索行为和检索结果、用户对检索结果的分析判断、对选中检索结果的点击。对这些要素以及搜索引擎营销信息传递过程的研究和有效实现就构成了搜索引擎营销的基本任务和内容。
  
  SEM的优势
  SEM是一种新的网络营销形式。SEM所做的就是全面而有效的利用搜索引擎来进行网络营销和推广。SEM追求最高的性价比,以最小的投入,获最大的来自搜索引擎的访问量,并产生商业价值。SEM可以在搜索引擎中进行品牌的维护,将品牌的负面信息尽可能少的呈现在搜索用户面前,可以预防竞争对手在网络上恶意的诬陷。同时可以在进行正面和商业信息的推广,进而达到品牌推广的目标。
  SEM与SEO、SMO的区别
  SEM是网络营销,SEO是技术,SMO是通过社会化媒体一整套方法。
  通俗的讲SEO是搜索引擎优化,是通过优化网站让其在搜索引擎上有良好的排名,主要是技术层面的。SEM是搜索引擎营销,SEO只是SEM的一部分。SEM主要是通过搜索引擎进行营销的。SMO是通过社会化媒体、在线组织及社区网站获得公共传播的一整套方法,是社会化媒体优化是网络营销的一种最新形式。
  SEM网络营销常用方法
  1、搜索引擎营销
  搜索引擎营销是指搜索引擎优化、关键词广告、关键词竞价排名、搜索引擎定位广告搜索引擎在网络营销中的地位尤其重要,每天各行各业的人使用搜索引擎搜索信息。通过搜索引擎营销能直接带来流量与终端客户。
  2、电子邮件营销方法
  以电子邮件为产品资料、刊物、介绍等方向发送到电子邮件广告等。基于用户许可的电子邮件营销的推广方式可以增加用户对产品的了解。
  3、资源合作营销方法
  网站交换链接、交换广告、内容合作、信息推广、信息合作、用户资源合作等方式,正所谓“人人为我,我为人人”,合作共赢,利益共享,共同发展。
  4、网络广告营销方法
  网络广告是常用的网络营销方式之一,直接通过网站的广告位置进行投放推广,可以直接借用其他网络媒体推广,网站广告的优势在于:范围广、形式多样、适用性强、投放及时等优点,适合于网站初期营销推广。
  5、信息推广营销方法
  把网站的信息发布相关行业网站中,利用用户在访问这些网站同时,了解你网站信息,达到凿壁借光,可以把信息推广发布到黄页、分类广告、论坛、博客网站、供求信息平台、行业网站等,这也是免费网站推广的常用方法之一。
  6、网址营销方法
  通过把一些网站信息提交到相关网址导航中,来获取巨大流量,有些网络用户常进入一些网址导航中来查询相关网站信息,而且此种推广,对网站的作用也显而易见。

搜索引擎进行信息检索的优化策略方法 什么是SEM?

网站优化优采云 发表了文章 • 0 个评论 • 135 次浏览 • 2022-05-04 05:23 • 来自相关话题

  搜索引擎进行信息检索的优化策略方法 什么是SEM?
  
  搜索引擎营销:英文Search Engine Marketing ,我们通常简称为“SEM”。简单来说,搜索引擎营销就是基于搜索引擎平台的网络营销,利用人们对搜索引擎的依赖和使用习惯,在人们检索信息的时候将信息传递给目标用户。搜索引擎营销的基本思想是让用户发现信息,并通过点击进入网页,进一步了解所需要的信息。企业通过搜索引擎付费推广,让用户可以直接与公司客服进行交流、了解,实现交易。
  定义
  搜索引擎营销的基本思想是让用户发现信息,并通过(搜索引擎)搜索点击进入网站/网页进一步了解他所需要的信息。在介绍搜索引擎策略时,一般认为,搜索引擎优化设计主要目标有2个层次:被搜索引擎收录、在搜索结果中排名靠前。这已经是常识问题,简单来说SEM所做的就是以最小的投入在搜索引擎中获最大的访问量并产生商业价值。多数网络营销人员和专业服务商对搜索引擎的目标设定也基本处于这个水平。但从实际情况来看,仅仅做到被搜索引擎收录并且在搜索结果中排名靠前还很不够,因为取得这样的效果实际上并不一定能增加用户的点击率,更不能保证将访问者转化为顾客或者潜在顾客,因此只能说是搜索引擎营销策略中两个最基本的目标。
  SEM的方法包括SEO、付费排名、精准广告以及付费收录等
  价值
  1、带来更多的点击与关注;
  2、带来更多的商业机会;
  3、树立行业品牌;
  4、增加网站广度;
  5、提升品牌知名度;
  6、增加网站曝光度;
  7、根据关键词,通过创意和描述提供相关介绍。
  内涵
  搜索引擎营销(Search Engine Marking简称 SEM)就是根据用户使用搜索引擎的方式,利用用户检索信息的机会尽可能将营销信息传递给目标用户。
  工作原理
  1、用户搜索;
  2、返回结果;
  3、查看结果;
  4、点击内容;
  5、浏览网站;
  6、咨询搜索
  搜索引擎工作原理
  抓取-数据库-分析搜索请求-计算排列顺序
  基本要素
  根据搜索引擎推广的原理,搜索引擎推广之所以能够实现,需要有五个基本要素:信息源(网页)、搜索引擎信息索引数据库、用户的检索行为和检索结果、用户对检索结果的分析判断、对选中检索结果的点击。对这些要素以及搜索引擎推广信息传递过程的研究和有效实现就构成了搜索引擎推广的基本任务和内容。
  其实最主要的还是需要做好用户体验,百度算法进步升级,更加重视了用户体验这一块,做好内容,做优质内容才是王道。
  基本过程
  1、企业信息发布在网站上成为以网页形式存在的信息源(包括企业内部信息源及外部信息源);
  2、搜索引擎将网站/网页信息收录到索引数据库;
  3、用户利用关键词进行检索(对于分类目录则是逐级目录查询);
  4、检索结果中罗列相关的索引信息及其链接URL;
  5、根据用户对检索结果的判断选择有兴趣的信息并点击URL进入信息源所在网页;
  6、搜索关键词;
  7、看到搜索结果;
  8、点击链接;
  9、浏览企业网站;
  10、实现转化。
  基本内容
  1、构造适合于搜索引擎检索的信息源;
  2、创造网站/网页被搜索引擎收录的机会;
  3、让网站信息出现在搜索结果中靠前位置;
  4、以搜索结果中有限的信息获得用户关注;
  5、为用户获取信息提供方便。
  营销特点
  1、使用广泛;
  2、用户主动查询;
  3、获取新客户;
  4、竞争性强;
  5、动态更新,随时调整;
  6、投资回报率高;
  7、搜索引擎营销的基础是企业网络营销的信息源;
  8、搜索引擎传递的信息只发挥向导作用;
  9、搜索引擎营销是用户主导的网络营销方式;
  10、搜索引擎营销可实现较高程度的定位;
  11、搜索引擎营销需要适应网络服务环境的发展变化。
  营销宗旨
  1、被收录;
  2、排名靠前;
  3、常被点击;
  4、客户转化;
  5、提高品牌知名度。
  标题标签
  通过对客户网站进行整站优化,挑选出部分主关键词,配合其他营销方式,使其达到搜索引擎的首页位置,同时提高网站的权重,并带动更多长尾关键词的自然排名的提升。再结合ppc竞价,制定出精确的竞价关键词和优秀的创意内容,给公司带来更多的订单。
  在网页的优化上最重要的因素之一就是网页的标题标签。通常在写标题标签时应该考虑几个因素。
  1、所有网页都应该有适合自己的独特的Title或Tag。有很多网站都犯了一个很低级的错误,也就是所有网页都有同一个标题。可能设计师在设计网页的时候把整个模版来回复制,所以HTML文件里面的头信息也都被复制过去,没有再被改动。
  2、标题标签应该对用户的需求有足够的吸引力。网页在搜索引擎结果中列出,网页的标题就是来自于标题标签。
  3、标题标签中应该含有关键词。
  营销目标
  第一层是搜索引擎的存在层,其目标是在主要的搜索引擎/分类目录中获得被收录的机会,这是搜索引擎营销的基础,离开这个层次,搜索引擎营销的其他目标也就不可能实现。搜索引擎登录包括免费登录、付费登录、搜索引擎关键词广告等形式。存在层的含义就是让网站中尽可能多的网页获得被搜索引擎收录(而不仅仅是网站首页),也就是为增加网页的搜索引擎可见性。
  第二层的目标则是在被搜索引擎收录的基础上尽可能获得好的排名,即在搜索结果中有良好的表现,因而可称为表现层。因为用户关心的只是搜索结果中靠前的少量内容,如果利用主要的关键词检索时网站在搜索结果中的排名靠后,那么还有必要利用关键词广告、竞价广告等形式作为补充手段来实现这一目标。同样,如果在分类目录中的位置不理想,则需要同时考虑在分类目录中利用付费等方式获得排名靠前。
  搜索引擎营销的第三个目标则直接表现为网站访问量指标方面,也就是通过搜索结果点击率的增加来达到提高网站访问量的目的。由于只有受到用户关注,经过用户选择后的信息才可能被点击,因此可称为关注层。从搜索引擎的实际情况来看,仅仅做到被搜索引擎收录并且在搜索结果中排名靠前是不够的,这样并不一定能增加用户的点击率,更不能保证将访问者转化为顾客。要通过搜索引擎营销实现访问量增加的目标,则需要从整体上进行网站优化设计,并充分利用关键词广告等有价值的搜索引擎营销专业服务。
  搜索引擎推广的第四个目标,即通过访问量的增加转化为企业最终实现收益的提高,可称为转化层。转化层是前面三个目标层次的进一步提升,是各种搜索引擎方法所实现效果的集中体现,但并不是搜索引擎营销的直接效果。从各种搜索引擎策略到产生收益,期间的中间效果表现为网站访问量的增加,网站的收益是由访问量转化所形成的,从访问量转化为收益则是由网站的功能、服务、产品等多种因素共同作用而决定的。因此,第四个目标在搜索引擎营销中属于战略层次的目标。其他三个层次的目标则属于策略范畴,具有可操作性和可控制性的特征,实现这些基本目标是搜索引擎营销的主要任务。
  搜索引擎推广追求最高的性价比,以最小的投入,获最大的来自搜索引擎的访问量,并产生商业价值。用户在检索信息所使用的关键字反映出用户对该问题(产品)的关注,这种关注是搜索引擎之所以被应用于网络营销的根本原因。
  网络整合营销四大特性
  传染特性、互动特性、重合特性、背书特性
  确立营销需求
  确立营销标的物(产品属性)
  确立营销标准(消费人群)
  确立目标场景
  云浪网络推广,一直以低成本、有效果为各大企业及广告营销策划公司提供网络推广服务多年,擅长利用百度营销软文首页推广、百度爱采购,百度竞价前三推广(1500一个月,三个月2800,包点击费),官网推广至百度搜索关键词首页有排名为目标。
  【百度快照、百度竞价,百度爱采购、360竞价、、信息流开户,抖音短视频,全网推广咨询:度晓晓】
   查看全部

  搜索引擎进行信息检索的优化策略方法 什么是SEM?
  
  搜索引擎营销:英文Search Engine Marketing ,我们通常简称为“SEM”。简单来说,搜索引擎营销就是基于搜索引擎平台的网络营销,利用人们对搜索引擎的依赖和使用习惯,在人们检索信息的时候将信息传递给目标用户。搜索引擎营销的基本思想是让用户发现信息,并通过点击进入网页,进一步了解所需要的信息。企业通过搜索引擎付费推广,让用户可以直接与公司客服进行交流、了解,实现交易。
  定义
  搜索引擎营销的基本思想是让用户发现信息,并通过(搜索引擎)搜索点击进入网站/网页进一步了解他所需要的信息。在介绍搜索引擎策略时,一般认为,搜索引擎优化设计主要目标有2个层次:被搜索引擎收录、在搜索结果中排名靠前。这已经是常识问题,简单来说SEM所做的就是以最小的投入在搜索引擎中获最大的访问量并产生商业价值。多数网络营销人员和专业服务商对搜索引擎的目标设定也基本处于这个水平。但从实际情况来看,仅仅做到被搜索引擎收录并且在搜索结果中排名靠前还很不够,因为取得这样的效果实际上并不一定能增加用户的点击率,更不能保证将访问者转化为顾客或者潜在顾客,因此只能说是搜索引擎营销策略中两个最基本的目标。
  SEM的方法包括SEO、付费排名、精准广告以及付费收录等
  价值
  1、带来更多的点击与关注;
  2、带来更多的商业机会;
  3、树立行业品牌;
  4、增加网站广度;
  5、提升品牌知名度;
  6、增加网站曝光度;
  7、根据关键词,通过创意和描述提供相关介绍。
  内涵
  搜索引擎营销(Search Engine Marking简称 SEM)就是根据用户使用搜索引擎的方式,利用用户检索信息的机会尽可能将营销信息传递给目标用户。
  工作原理
  1、用户搜索;
  2、返回结果;
  3、查看结果;
  4、点击内容;
  5、浏览网站;
  6、咨询搜索
  搜索引擎工作原理
  抓取-数据库-分析搜索请求-计算排列顺序
  基本要素
  根据搜索引擎推广的原理,搜索引擎推广之所以能够实现,需要有五个基本要素:信息源(网页)、搜索引擎信息索引数据库、用户的检索行为和检索结果、用户对检索结果的分析判断、对选中检索结果的点击。对这些要素以及搜索引擎推广信息传递过程的研究和有效实现就构成了搜索引擎推广的基本任务和内容。
  其实最主要的还是需要做好用户体验,百度算法进步升级,更加重视了用户体验这一块,做好内容,做优质内容才是王道。
  基本过程
  1、企业信息发布在网站上成为以网页形式存在的信息源(包括企业内部信息源及外部信息源);
  2、搜索引擎将网站/网页信息收录到索引数据库;
  3、用户利用关键词进行检索(对于分类目录则是逐级目录查询);
  4、检索结果中罗列相关的索引信息及其链接URL;
  5、根据用户对检索结果的判断选择有兴趣的信息并点击URL进入信息源所在网页;
  6、搜索关键词;
  7、看到搜索结果;
  8、点击链接;
  9、浏览企业网站;
  10、实现转化。
  基本内容
  1、构造适合于搜索引擎检索的信息源;
  2、创造网站/网页被搜索引擎收录的机会;
  3、让网站信息出现在搜索结果中靠前位置;
  4、以搜索结果中有限的信息获得用户关注;
  5、为用户获取信息提供方便。
  营销特点
  1、使用广泛;
  2、用户主动查询;
  3、获取新客户;
  4、竞争性强;
  5、动态更新,随时调整;
  6、投资回报率高;
  7、搜索引擎营销的基础是企业网络营销的信息源;
  8、搜索引擎传递的信息只发挥向导作用;
  9、搜索引擎营销是用户主导的网络营销方式;
  10、搜索引擎营销可实现较高程度的定位;
  11、搜索引擎营销需要适应网络服务环境的发展变化。
  营销宗旨
  1、被收录;
  2、排名靠前;
  3、常被点击;
  4、客户转化;
  5、提高品牌知名度。
  标题标签
  通过对客户网站进行整站优化,挑选出部分主关键词,配合其他营销方式,使其达到搜索引擎的首页位置,同时提高网站的权重,并带动更多长尾关键词的自然排名的提升。再结合ppc竞价,制定出精确的竞价关键词和优秀的创意内容,给公司带来更多的订单。
  在网页的优化上最重要的因素之一就是网页的标题标签。通常在写标题标签时应该考虑几个因素。
  1、所有网页都应该有适合自己的独特的Title或Tag。有很多网站都犯了一个很低级的错误,也就是所有网页都有同一个标题。可能设计师在设计网页的时候把整个模版来回复制,所以HTML文件里面的头信息也都被复制过去,没有再被改动。
  2、标题标签应该对用户的需求有足够的吸引力。网页在搜索引擎结果中列出,网页的标题就是来自于标题标签。
  3、标题标签中应该含有关键词。
  营销目标
  第一层是搜索引擎的存在层,其目标是在主要的搜索引擎/分类目录中获得被收录的机会,这是搜索引擎营销的基础,离开这个层次,搜索引擎营销的其他目标也就不可能实现。搜索引擎登录包括免费登录、付费登录、搜索引擎关键词广告等形式。存在层的含义就是让网站中尽可能多的网页获得被搜索引擎收录(而不仅仅是网站首页),也就是为增加网页的搜索引擎可见性。
  第二层的目标则是在被搜索引擎收录的基础上尽可能获得好的排名,即在搜索结果中有良好的表现,因而可称为表现层。因为用户关心的只是搜索结果中靠前的少量内容,如果利用主要的关键词检索时网站在搜索结果中的排名靠后,那么还有必要利用关键词广告、竞价广告等形式作为补充手段来实现这一目标。同样,如果在分类目录中的位置不理想,则需要同时考虑在分类目录中利用付费等方式获得排名靠前。
  搜索引擎营销的第三个目标则直接表现为网站访问量指标方面,也就是通过搜索结果点击率的增加来达到提高网站访问量的目的。由于只有受到用户关注,经过用户选择后的信息才可能被点击,因此可称为关注层。从搜索引擎的实际情况来看,仅仅做到被搜索引擎收录并且在搜索结果中排名靠前是不够的,这样并不一定能增加用户的点击率,更不能保证将访问者转化为顾客。要通过搜索引擎营销实现访问量增加的目标,则需要从整体上进行网站优化设计,并充分利用关键词广告等有价值的搜索引擎营销专业服务。
  搜索引擎推广的第四个目标,即通过访问量的增加转化为企业最终实现收益的提高,可称为转化层。转化层是前面三个目标层次的进一步提升,是各种搜索引擎方法所实现效果的集中体现,但并不是搜索引擎营销的直接效果。从各种搜索引擎策略到产生收益,期间的中间效果表现为网站访问量的增加,网站的收益是由访问量转化所形成的,从访问量转化为收益则是由网站的功能、服务、产品等多种因素共同作用而决定的。因此,第四个目标在搜索引擎营销中属于战略层次的目标。其他三个层次的目标则属于策略范畴,具有可操作性和可控制性的特征,实现这些基本目标是搜索引擎营销的主要任务。
  搜索引擎推广追求最高的性价比,以最小的投入,获最大的来自搜索引擎的访问量,并产生商业价值。用户在检索信息所使用的关键字反映出用户对该问题(产品)的关注,这种关注是搜索引擎之所以被应用于网络营销的根本原因。
  网络整合营销四大特性
  传染特性、互动特性、重合特性、背书特性
  确立营销需求
  确立营销标的物(产品属性)
  确立营销标准(消费人群)
  确立目标场景
  云浪网络推广,一直以低成本、有效果为各大企业及广告营销策划公司提供网络推广服务多年,擅长利用百度营销软文首页推广、百度爱采购,百度竞价前三推广(1500一个月,三个月2800,包点击费),官网推广至百度搜索关键词首页有排名为目标。
  【百度快照、百度竞价,百度爱采购、360竞价、、信息流开户,抖音短视频,全网推广咨询:度晓晓】
  

QA问答场景算法实践

网站优化优采云 发表了文章 • 0 个评论 • 94 次浏览 • 2022-05-02 18:20 • 来自相关话题

  QA问答场景算法实践
  1.背景
  我们的游戏客服场景中包含大量玩家与客服交互问答的文本语料,人工客服在面对玩家时会遇到诸如账号密码、充值福利、玩法攻略等很多方面的问题,经过长期的积累,运营人员根据线上用户的提问做总结,沉淀下来的知识形成了游戏问答领域的FAQ库(知识库)。我们的智能客服场景致力于解决人工客服需要应对的玩家提问,提供一个便捷的搜索入口,以便后续有人再有相同或相似问题时可以直接搜到答案。
  智能客服相比于人工客服具有响应速度快、always online、维护成本低等优势,在有知识库库的前提下,通过智能化手段辅助人工解决玩家问题,已经作为一种效率提升手段覆盖到越来越多的游戏当中。
  2.智能客服的实践及探索2.1 智能客服架构
  整个智能客服的架构如下图所示:
  
  2.2 Query理解2.2.1 为什么需要query理解
  query理解是整个智能客服中最上游的一环,负责的是从query中提取到有效的信息,从而了解用户希望这个query在问什么内容。query理解,决定了下游的问答召回策略:
  quey理解需要做哪些内容短语改写
  短语改写的背景很容易理解,因为输入法等方面的问题,用户输入会有笔误操作类
  这里提供两个思路:
  简单说,短语改写的目的是为了纠错,比如“充值到账”手误输入成了“充直到账”,短语改写便能将其纠正,query改写后能更容易召回正确答案。
  意图识别
  意图识别模块通常是一个分类任务,目的是识别用户要查询的类目,再输出给召回和排序模块,保证最后结果的类目相关性,具体实现方式可以从传统方法和NLP两方面考虑。
  传统方法:通过规则、词典、正则等方式进行识别,准确率高、速度快。
  NLP:通过语义分析的手段,文本分类,达到语义分析的目的。
  这里的意图识别模型用的是fastText,FastText是由FaceBook于2016年发布的文本分类模型,具有结构简单,训练及推理速度较快的特点。FastText与生成词向量的CBOW方法结构很像,并且采用了N-gram的方法,在预测过程中使用了分层SoftMax来加速训练。
  
  FastText能够在文本分类任务中迅速达成baseline,达到相对较好的效果,并且推理耗时较少,适用于项目启动时期的快速上线。总的来说,该模型有高效的训练速度和较高的识别准确率,做出来的结果也可以达到上线使用的标准。词法分析维护了一些词典,通过词典匹配能获得query中的关键词和关键短语。
  实体识别
  实体识别的实现方法可以概括为词典匹配和机器学习方法。
  词典匹配
  这个任务虽说是命名实体识别任务,但是却不见得需要建立一个模型才能解决,要进行一个初步的处理,快速上线,其实词典匹配的方法可能是最简单的,而实际上,即使是其他方法,我也很建议大家用这个方式去做一遍,理由后面会谈。
  词典匹配的便捷性体现在你真的很容易就能拿到这个词典资源,因为你做搜索,所需要的数据,其实已经在数据库或者底层搜索引擎里面了(没有资源你怎么做搜索推荐?),你可以将数据库内的数据按照字段提取,然后通过n-gram的方式切词,即可完成一个初步的词典,复杂的,进一步,为了保证词典的可靠性,你可能需要删除一些不适合再次点出现的词汇,举例,酒店名字段中,其实没有必要存“酒店”做为词条,首先召回的时候,大部分酒店都有“酒店”一词,他没有明显地指向性,然后,这种召回也会增加排序的负担。
  有了词典之后,就可以通过词典匹配的形式进行命名实体识别。上面给出的例子:“北京的温泉”,就可以快速标记“city-object-type”,然后就可以通过这个实体识别结果,拼好检索语法,完成召回。
  机器学习方法
  器学习方法,包括深度学习,是现行的主流方法,我也最建议用这种方法上线。
  词权重问题
  词权重可以简单理解为一个词在我们问题句子当中的权重,为什么要考虑词权重?
  我们有了一段文本,抽取比较重要的关键词,这些关键词在一定程度上可以代表文本的语义,这种任务就被称为关键词抽取。如果从抽象的角度去解释,我们会把句子转成0和1组成序列,序列的长度跟句子长度相等,对于这个01序列,为1的位置对应句子的位置的词汇就是关键词,为0的则为为关键词。
  按照这个思路,我们用01来表示句子序列,0和1分别对应句子当中的词汇,如果按照等级划分,比如分层5个级别,01234,4代表最重要,3次之,以此类推,形成一个分等级的词重要性分析。
  概括来说,就是给句子中每个词汇打分,体现他们的重要性,这种问题就被称为词权重问题。
  处理方法:
  TFIDF是很强的baseline,具有较强的普适性,如果没有太多经验的话,可以实现该算法基本能应付大部分关键词抽取的场景了
  有监督方法,其实就会比较多样了,小到用基础统计特征做机器学习,序列标注下的HMM、CRF,大到用语义模型做深度学习,其实都有不错的效果。
  我这里重点谈小型机器学习方法,这似乎也是目前工业界常用的。LR和GBDT体系是目前浅层学习的重要方法,当然序列标注的CRF和HMM也可以参考,因此在模型选型上,主要就是这些,那么,剩下的问题就是特征怎么放了。
  常用的特征如下,这个和上面提到的可能会重复。
  2.3 召回层
  召回层是将候选答案从FAQ库中拿回,获得待排序的候选集。此处用了两种召回方式:检索召回和语义召回。
  
  2.4 排序层
  排序层是将召回层拿到的候选知识进行排序,将和query最相关的知识尽可能往前排。排序模型采用了GBDT,GBDT作为一种常用的树模型,可天然地对原始特征进行特征划分、特征组合和特征选择,并得到高阶特征属性和非线性映射。我们考虑用GBDT可以组合多种特征,可扩展性强,并且后期验证GBDT的效果好于单独使用匹配算法效果,因此,当前匹配算法在排序层中作为一种特征来使用。
  匹配算法用到的是LSTM-DSSM,DSSM即Deep Structured Semantic Model,模型出自微软研究院,主要方法是将query和doc通过深度网络映射到相同维度的空间中,通过最大化其余弦相似度来进行训练。
  
  LSTM-DSSM是对DSSM的优化,原生DSSM的基础上,引入LSTM作为句子表征,提取更多的语义级别的信息。
  2.5 返回层:
  query经过上述处理之后会对处理结果进行返回,目前主要是QA-Bot。
  三、总结与展望
  当前的智能客服已经覆盖了多个业务线的游戏场景中,上线后,QA-bot的列表点击率也有一定的提升,对于一些简单的问题已经能够将较匹配的答案排到较前的位置。但是对于需要深度语义及具有知识背景的问题,如:“VIP5到VIP6需要多少钱”的问题,现有办法将答案“充值”排在靠前的位置时还有一定的badcase。当前正在考虑参考知识图谱等方向的解决方案,对知识库内的知识进行结构化的梳理,希望在匹配的同时能够具有简单的推理,来更好的理解用户语言背后的需求。
  展望和计划:
  数据是效果的基础,智能客服效果所依赖的知识库库也需要不断的知识扩充,如何通过自动或半自动的方法挖出更多高质量的相似问或者标准问,为知识运营人员提效,也是我们现阶段正在探索的方向。
  当前的匹配算法仅作为一种特征使用在gbdt排序模型中,后期随着匹配算法的不断积累,会将所有的匹配模型进行整合,以一种更通用的模块化的方式,为有文本匹配需求的各个业务场景提供匹配算法的支持。
  算法服务模块会进一步拆解,比如Query理解等方面的服务可以集成到开放平台,并提供服务,为更多相关的业务提供算法支持。
  参考文献 查看全部

  QA问答场景算法实践
  1.背景
  我们的游戏客服场景中包含大量玩家与客服交互问答的文本语料,人工客服在面对玩家时会遇到诸如账号密码、充值福利、玩法攻略等很多方面的问题,经过长期的积累,运营人员根据线上用户的提问做总结,沉淀下来的知识形成了游戏问答领域的FAQ库(知识库)。我们的智能客服场景致力于解决人工客服需要应对的玩家提问,提供一个便捷的搜索入口,以便后续有人再有相同或相似问题时可以直接搜到答案。
  智能客服相比于人工客服具有响应速度快、always online、维护成本低等优势,在有知识库库的前提下,通过智能化手段辅助人工解决玩家问题,已经作为一种效率提升手段覆盖到越来越多的游戏当中。
  2.智能客服的实践及探索2.1 智能客服架构
  整个智能客服的架构如下图所示:
  
  2.2 Query理解2.2.1 为什么需要query理解
  query理解是整个智能客服中最上游的一环,负责的是从query中提取到有效的信息,从而了解用户希望这个query在问什么内容。query理解,决定了下游的问答召回策略:
  quey理解需要做哪些内容短语改写
  短语改写的背景很容易理解,因为输入法等方面的问题,用户输入会有笔误操作类
  这里提供两个思路:
  简单说,短语改写的目的是为了纠错,比如“充值到账”手误输入成了“充直到账”,短语改写便能将其纠正,query改写后能更容易召回正确答案。
  意图识别
  意图识别模块通常是一个分类任务,目的是识别用户要查询的类目,再输出给召回和排序模块,保证最后结果的类目相关性,具体实现方式可以从传统方法和NLP两方面考虑。
  传统方法:通过规则、词典、正则等方式进行识别,准确率高、速度快。
  NLP:通过语义分析的手段,文本分类,达到语义分析的目的。
  这里的意图识别模型用的是fastText,FastText是由FaceBook于2016年发布的文本分类模型,具有结构简单,训练及推理速度较快的特点。FastText与生成词向量的CBOW方法结构很像,并且采用了N-gram的方法,在预测过程中使用了分层SoftMax来加速训练。
  
  FastText能够在文本分类任务中迅速达成baseline,达到相对较好的效果,并且推理耗时较少,适用于项目启动时期的快速上线。总的来说,该模型有高效的训练速度和较高的识别准确率,做出来的结果也可以达到上线使用的标准。词法分析维护了一些词典,通过词典匹配能获得query中的关键词和关键短语。
  实体识别
  实体识别的实现方法可以概括为词典匹配和机器学习方法。
  词典匹配
  这个任务虽说是命名实体识别任务,但是却不见得需要建立一个模型才能解决,要进行一个初步的处理,快速上线,其实词典匹配的方法可能是最简单的,而实际上,即使是其他方法,我也很建议大家用这个方式去做一遍,理由后面会谈。
  词典匹配的便捷性体现在你真的很容易就能拿到这个词典资源,因为你做搜索,所需要的数据,其实已经在数据库或者底层搜索引擎里面了(没有资源你怎么做搜索推荐?),你可以将数据库内的数据按照字段提取,然后通过n-gram的方式切词,即可完成一个初步的词典,复杂的,进一步,为了保证词典的可靠性,你可能需要删除一些不适合再次点出现的词汇,举例,酒店名字段中,其实没有必要存“酒店”做为词条,首先召回的时候,大部分酒店都有“酒店”一词,他没有明显地指向性,然后,这种召回也会增加排序的负担。
  有了词典之后,就可以通过词典匹配的形式进行命名实体识别。上面给出的例子:“北京的温泉”,就可以快速标记“city-object-type”,然后就可以通过这个实体识别结果,拼好检索语法,完成召回。
  机器学习方法
  器学习方法,包括深度学习,是现行的主流方法,我也最建议用这种方法上线。
  词权重问题
  词权重可以简单理解为一个词在我们问题句子当中的权重,为什么要考虑词权重?
  我们有了一段文本,抽取比较重要的关键词,这些关键词在一定程度上可以代表文本的语义,这种任务就被称为关键词抽取。如果从抽象的角度去解释,我们会把句子转成0和1组成序列,序列的长度跟句子长度相等,对于这个01序列,为1的位置对应句子的位置的词汇就是关键词,为0的则为为关键词。
  按照这个思路,我们用01来表示句子序列,0和1分别对应句子当中的词汇,如果按照等级划分,比如分层5个级别,01234,4代表最重要,3次之,以此类推,形成一个分等级的词重要性分析。
  概括来说,就是给句子中每个词汇打分,体现他们的重要性,这种问题就被称为词权重问题。
  处理方法:
  TFIDF是很强的baseline,具有较强的普适性,如果没有太多经验的话,可以实现该算法基本能应付大部分关键词抽取的场景了
  有监督方法,其实就会比较多样了,小到用基础统计特征做机器学习,序列标注下的HMM、CRF,大到用语义模型做深度学习,其实都有不错的效果。
  我这里重点谈小型机器学习方法,这似乎也是目前工业界常用的。LR和GBDT体系是目前浅层学习的重要方法,当然序列标注的CRF和HMM也可以参考,因此在模型选型上,主要就是这些,那么,剩下的问题就是特征怎么放了。
  常用的特征如下,这个和上面提到的可能会重复。
  2.3 召回层
  召回层是将候选答案从FAQ库中拿回,获得待排序的候选集。此处用了两种召回方式:检索召回和语义召回。
  
  2.4 排序层
  排序层是将召回层拿到的候选知识进行排序,将和query最相关的知识尽可能往前排。排序模型采用了GBDT,GBDT作为一种常用的树模型,可天然地对原始特征进行特征划分、特征组合和特征选择,并得到高阶特征属性和非线性映射。我们考虑用GBDT可以组合多种特征,可扩展性强,并且后期验证GBDT的效果好于单独使用匹配算法效果,因此,当前匹配算法在排序层中作为一种特征来使用。
  匹配算法用到的是LSTM-DSSM,DSSM即Deep Structured Semantic Model,模型出自微软研究院,主要方法是将query和doc通过深度网络映射到相同维度的空间中,通过最大化其余弦相似度来进行训练。
  
  LSTM-DSSM是对DSSM的优化,原生DSSM的基础上,引入LSTM作为句子表征,提取更多的语义级别的信息。
  2.5 返回层:
  query经过上述处理之后会对处理结果进行返回,目前主要是QA-Bot。
  三、总结与展望
  当前的智能客服已经覆盖了多个业务线的游戏场景中,上线后,QA-bot的列表点击率也有一定的提升,对于一些简单的问题已经能够将较匹配的答案排到较前的位置。但是对于需要深度语义及具有知识背景的问题,如:“VIP5到VIP6需要多少钱”的问题,现有办法将答案“充值”排在靠前的位置时还有一定的badcase。当前正在考虑参考知识图谱等方向的解决方案,对知识库内的知识进行结构化的梳理,希望在匹配的同时能够具有简单的推理,来更好的理解用户语言背后的需求。
  展望和计划:
  数据是效果的基础,智能客服效果所依赖的知识库库也需要不断的知识扩充,如何通过自动或半自动的方法挖出更多高质量的相似问或者标准问,为知识运营人员提效,也是我们现阶段正在探索的方向。
  当前的匹配算法仅作为一种特征使用在gbdt排序模型中,后期随着匹配算法的不断积累,会将所有的匹配模型进行整合,以一种更通用的模块化的方式,为有文本匹配需求的各个业务场景提供匹配算法的支持。
  算法服务模块会进一步拆解,比如Query理解等方面的服务可以集成到开放平台,并提供服务,为更多相关的业务提供算法支持。
  参考文献

搜索引擎进行信息检索的优化策略方法 什么是SEM?

网站优化优采云 发表了文章 • 0 个评论 • 136 次浏览 • 2022-05-01 18:04 • 来自相关话题

  搜索引擎进行信息检索的优化策略方法 什么是SEM?
  
  搜索引擎营销:英文Search Engine Marketing ,我们通常简称为“SEM”。简单来说,搜索引擎营销就是基于搜索引擎平台的网络营销,利用人们对搜索引擎的依赖和使用习惯,在人们检索信息的时候将信息传递给目标用户。搜索引擎营销的基本思想是让用户发现信息,并通过点击进入网页,进一步了解所需要的信息。企业通过搜索引擎付费推广,让用户可以直接与公司客服进行交流、了解,实现交易。
  定义
  搜索引擎营销的基本思想是让用户发现信息,并通过(搜索引擎)搜索点击进入网站/网页进一步了解他所需要的信息。在介绍搜索引擎策略时,一般认为,搜索引擎优化设计主要目标有2个层次:被搜索引擎收录、在搜索结果中排名靠前。这已经是常识问题,简单来说SEM所做的就是以最小的投入在搜索引擎中获最大的访问量并产生商业价值。多数网络营销人员和专业服务商对搜索引擎的目标设定也基本处于这个水平。但从实际情况来看,仅仅做到被搜索引擎收录并且在搜索结果中排名靠前还很不够,因为取得这样的效果实际上并不一定能增加用户的点击率,更不能保证将访问者转化为顾客或者潜在顾客,因此只能说是搜索引擎营销策略中两个最基本的目标。
  SEM的方法包括SEO、付费排名、精准广告以及付费收录等
  价值
  1、带来更多的点击与关注;
  2、带来更多的商业机会;
  3、树立行业品牌;
  4、增加网站广度;
  5、提升品牌知名度;
  6、增加网站曝光度;
  7、根据关键词,通过创意和描述提供相关介绍。
  内涵
  搜索引擎营销(Search Engine Marking简称 SEM)就是根据用户使用搜索引擎的方式,利用用户检索信息的机会尽可能将营销信息传递给目标用户。
  工作原理
  1、用户搜索;
  2、返回结果;
  3、查看结果;
  4、点击内容;
  5、浏览网站;
  6、咨询搜索
  搜索引擎工作原理
  抓取-数据库-分析搜索请求-计算排列顺序
  基本要素
  根据搜索引擎推广的原理,搜索引擎推广之所以能够实现,需要有五个基本要素:信息源(网页)、搜索引擎信息索引数据库、用户的检索行为和检索结果、用户对检索结果的分析判断、对选中检索结果的点击。对这些要素以及搜索引擎推广信息传递过程的研究和有效实现就构成了搜索引擎推广的基本任务和内容。
  其实最主要的还是需要做好用户体验,百度算法进步升级,更加重视了用户体验这一块,做好内容,做优质内容才是王道。
  基本过程
  1、企业信息发布在网站上成为以网页形式存在的信息源(包括企业内部信息源及外部信息源);
  2、搜索引擎将网站/网页信息收录到索引数据库;
  3、用户利用关键词进行检索(对于分类目录则是逐级目录查询);
  4、检索结果中罗列相关的索引信息及其链接URL;
  5、根据用户对检索结果的判断选择有兴趣的信息并点击URL进入信息源所在网页;
  6、搜索关键词;
  7、看到搜索结果;
  8、点击链接;
  9、浏览企业网站;
  10、实现转化。
  基本内容
  1、构造适合于搜索引擎检索的信息源;
  2、创造网站/网页被搜索引擎收录的机会;
  3、让网站信息出现在搜索结果中靠前位置;
  4、以搜索结果中有限的信息获得用户关注;
  5、为用户获取信息提供方便。
  营销特点
  1、使用广泛;
  2、用户主动查询;
  3、获取新客户;
  4、竞争性强;
  5、动态更新,随时调整;
  6、投资回报率高;
  7、搜索引擎营销的基础是企业网络营销的信息源;
  8、搜索引擎传递的信息只发挥向导作用;
  9、搜索引擎营销是用户主导的网络营销方式;
  10、搜索引擎营销可实现较高程度的定位;
  11、搜索引擎营销需要适应网络服务环境的发展变化。
  营销宗旨
  1、被收录;
  2、排名靠前;
  3、常被点击;
  4、客户转化;
  5、提高品牌知名度。
  标题标签
  通过对客户网站进行整站优化,挑选出部分主关键词,配合其他营销方式,使其达到搜索引擎的首页位置,同时提高网站的权重,并带动更多长尾关键词的自然排名的提升。再结合ppc竞价,制定出精确的竞价关键词和优秀的创意内容,给公司带来更多的订单。
  在网页的优化上最重要的因素之一就是网页的标题标签。通常在写标题标签时应该考虑几个因素。
  1、所有网页都应该有适合自己的独特的Title或Tag。有很多网站都犯了一个很低级的错误,也就是所有网页都有同一个标题。可能设计师在设计网页的时候把整个模版来回复制,所以HTML文件里面的头信息也都被复制过去,没有再被改动。
  2、标题标签应该对用户的需求有足够的吸引力。网页在搜索引擎结果中列出,网页的标题就是来自于标题标签。
  3、标题标签中应该含有关键词。
  营销目标
  第一层是搜索引擎的存在层,其目标是在主要的搜索引擎/分类目录中获得被收录的机会,这是搜索引擎营销的基础,离开这个层次,搜索引擎营销的其他目标也就不可能实现。搜索引擎登录包括免费登录、付费登录、搜索引擎关键词广告等形式。存在层的含义就是让网站中尽可能多的网页获得被搜索引擎收录(而不仅仅是网站首页),也就是为增加网页的搜索引擎可见性。
  第二层的目标则是在被搜索引擎收录的基础上尽可能获得好的排名,即在搜索结果中有良好的表现,因而可称为表现层。因为用户关心的只是搜索结果中靠前的少量内容,如果利用主要的关键词检索时网站在搜索结果中的排名靠后,那么还有必要利用关键词广告、竞价广告等形式作为补充手段来实现这一目标。同样,如果在分类目录中的位置不理想,则需要同时考虑在分类目录中利用付费等方式获得排名靠前。
  搜索引擎营销的第三个目标则直接表现为网站访问量指标方面,也就是通过搜索结果点击率的增加来达到提高网站访问量的目的。由于只有受到用户关注,经过用户选择后的信息才可能被点击,因此可称为关注层。从搜索引擎的实际情况来看,仅仅做到被搜索引擎收录并且在搜索结果中排名靠前是不够的,这样并不一定能增加用户的点击率,更不能保证将访问者转化为顾客。要通过搜索引擎营销实现访问量增加的目标,则需要从整体上进行网站优化设计,并充分利用关键词广告等有价值的搜索引擎营销专业服务。
  搜索引擎推广的第四个目标,即通过访问量的增加转化为企业最终实现收益的提高,可称为转化层。转化层是前面三个目标层次的进一步提升,是各种搜索引擎方法所实现效果的集中体现,但并不是搜索引擎营销的直接效果。从各种搜索引擎策略到产生收益,期间的中间效果表现为网站访问量的增加,网站的收益是由访问量转化所形成的,从访问量转化为收益则是由网站的功能、服务、产品等多种因素共同作用而决定的。因此,第四个目标在搜索引擎营销中属于战略层次的目标。其他三个层次的目标则属于策略范畴,具有可操作性和可控制性的特征,实现这些基本目标是搜索引擎营销的主要任务。
  搜索引擎推广追求最高的性价比,以最小的投入,获最大的来自搜索引擎的访问量,并产生商业价值。用户在检索信息所使用的关键字反映出用户对该问题(产品)的关注,这种关注是搜索引擎之所以被应用于网络营销的根本原因。
  网络整合营销四大特性
  传染特性、互动特性、重合特性、背书特性
  确立营销需求
  确立营销标的物(产品属性)
  确立营销标准(消费人群)
  确立目标场景
  云浪网络推广,一直以低成本、有效果为各大企业及广告营销策划公司提供网络推广服务多年,擅长利用百度营销软文首页推广、百度爱采购,百度竞价前三推广(1500一个月,三个月2800,包点击费),官网推广至百度搜索关键词首页有排名为目标。
  【百度快照、百度竞价,百度爱采购、360竞价、、信息流开户,抖音短视频,全网推广咨询:度晓晓】
   查看全部

  搜索引擎进行信息检索的优化策略方法 什么是SEM?
  
  搜索引擎营销:英文Search Engine Marketing ,我们通常简称为“SEM”。简单来说,搜索引擎营销就是基于搜索引擎平台的网络营销,利用人们对搜索引擎的依赖和使用习惯,在人们检索信息的时候将信息传递给目标用户。搜索引擎营销的基本思想是让用户发现信息,并通过点击进入网页,进一步了解所需要的信息。企业通过搜索引擎付费推广,让用户可以直接与公司客服进行交流、了解,实现交易。
  定义
  搜索引擎营销的基本思想是让用户发现信息,并通过(搜索引擎)搜索点击进入网站/网页进一步了解他所需要的信息。在介绍搜索引擎策略时,一般认为,搜索引擎优化设计主要目标有2个层次:被搜索引擎收录、在搜索结果中排名靠前。这已经是常识问题,简单来说SEM所做的就是以最小的投入在搜索引擎中获最大的访问量并产生商业价值。多数网络营销人员和专业服务商对搜索引擎的目标设定也基本处于这个水平。但从实际情况来看,仅仅做到被搜索引擎收录并且在搜索结果中排名靠前还很不够,因为取得这样的效果实际上并不一定能增加用户的点击率,更不能保证将访问者转化为顾客或者潜在顾客,因此只能说是搜索引擎营销策略中两个最基本的目标。
  SEM的方法包括SEO、付费排名、精准广告以及付费收录等
  价值
  1、带来更多的点击与关注;
  2、带来更多的商业机会;
  3、树立行业品牌;
  4、增加网站广度;
  5、提升品牌知名度;
  6、增加网站曝光度;
  7、根据关键词,通过创意和描述提供相关介绍。
  内涵
  搜索引擎营销(Search Engine Marking简称 SEM)就是根据用户使用搜索引擎的方式,利用用户检索信息的机会尽可能将营销信息传递给目标用户。
  工作原理
  1、用户搜索;
  2、返回结果;
  3、查看结果;
  4、点击内容;
  5、浏览网站;
  6、咨询搜索
  搜索引擎工作原理
  抓取-数据库-分析搜索请求-计算排列顺序
  基本要素
  根据搜索引擎推广的原理,搜索引擎推广之所以能够实现,需要有五个基本要素:信息源(网页)、搜索引擎信息索引数据库、用户的检索行为和检索结果、用户对检索结果的分析判断、对选中检索结果的点击。对这些要素以及搜索引擎推广信息传递过程的研究和有效实现就构成了搜索引擎推广的基本任务和内容。
  其实最主要的还是需要做好用户体验,百度算法进步升级,更加重视了用户体验这一块,做好内容,做优质内容才是王道。
  基本过程
  1、企业信息发布在网站上成为以网页形式存在的信息源(包括企业内部信息源及外部信息源);
  2、搜索引擎将网站/网页信息收录到索引数据库;
  3、用户利用关键词进行检索(对于分类目录则是逐级目录查询);
  4、检索结果中罗列相关的索引信息及其链接URL;
  5、根据用户对检索结果的判断选择有兴趣的信息并点击URL进入信息源所在网页;
  6、搜索关键词;
  7、看到搜索结果;
  8、点击链接;
  9、浏览企业网站;
  10、实现转化。
  基本内容
  1、构造适合于搜索引擎检索的信息源;
  2、创造网站/网页被搜索引擎收录的机会;
  3、让网站信息出现在搜索结果中靠前位置;
  4、以搜索结果中有限的信息获得用户关注;
  5、为用户获取信息提供方便。
  营销特点
  1、使用广泛;
  2、用户主动查询;
  3、获取新客户;
  4、竞争性强;
  5、动态更新,随时调整;
  6、投资回报率高;
  7、搜索引擎营销的基础是企业网络营销的信息源;
  8、搜索引擎传递的信息只发挥向导作用;
  9、搜索引擎营销是用户主导的网络营销方式;
  10、搜索引擎营销可实现较高程度的定位;
  11、搜索引擎营销需要适应网络服务环境的发展变化。
  营销宗旨
  1、被收录;
  2、排名靠前;
  3、常被点击;
  4、客户转化;
  5、提高品牌知名度。
  标题标签
  通过对客户网站进行整站优化,挑选出部分主关键词,配合其他营销方式,使其达到搜索引擎的首页位置,同时提高网站的权重,并带动更多长尾关键词的自然排名的提升。再结合ppc竞价,制定出精确的竞价关键词和优秀的创意内容,给公司带来更多的订单。
  在网页的优化上最重要的因素之一就是网页的标题标签。通常在写标题标签时应该考虑几个因素。
  1、所有网页都应该有适合自己的独特的Title或Tag。有很多网站都犯了一个很低级的错误,也就是所有网页都有同一个标题。可能设计师在设计网页的时候把整个模版来回复制,所以HTML文件里面的头信息也都被复制过去,没有再被改动。
  2、标题标签应该对用户的需求有足够的吸引力。网页在搜索引擎结果中列出,网页的标题就是来自于标题标签。
  3、标题标签中应该含有关键词。
  营销目标
  第一层是搜索引擎的存在层,其目标是在主要的搜索引擎/分类目录中获得被收录的机会,这是搜索引擎营销的基础,离开这个层次,搜索引擎营销的其他目标也就不可能实现。搜索引擎登录包括免费登录、付费登录、搜索引擎关键词广告等形式。存在层的含义就是让网站中尽可能多的网页获得被搜索引擎收录(而不仅仅是网站首页),也就是为增加网页的搜索引擎可见性。
  第二层的目标则是在被搜索引擎收录的基础上尽可能获得好的排名,即在搜索结果中有良好的表现,因而可称为表现层。因为用户关心的只是搜索结果中靠前的少量内容,如果利用主要的关键词检索时网站在搜索结果中的排名靠后,那么还有必要利用关键词广告、竞价广告等形式作为补充手段来实现这一目标。同样,如果在分类目录中的位置不理想,则需要同时考虑在分类目录中利用付费等方式获得排名靠前。
  搜索引擎营销的第三个目标则直接表现为网站访问量指标方面,也就是通过搜索结果点击率的增加来达到提高网站访问量的目的。由于只有受到用户关注,经过用户选择后的信息才可能被点击,因此可称为关注层。从搜索引擎的实际情况来看,仅仅做到被搜索引擎收录并且在搜索结果中排名靠前是不够的,这样并不一定能增加用户的点击率,更不能保证将访问者转化为顾客。要通过搜索引擎营销实现访问量增加的目标,则需要从整体上进行网站优化设计,并充分利用关键词广告等有价值的搜索引擎营销专业服务。
  搜索引擎推广的第四个目标,即通过访问量的增加转化为企业最终实现收益的提高,可称为转化层。转化层是前面三个目标层次的进一步提升,是各种搜索引擎方法所实现效果的集中体现,但并不是搜索引擎营销的直接效果。从各种搜索引擎策略到产生收益,期间的中间效果表现为网站访问量的增加,网站的收益是由访问量转化所形成的,从访问量转化为收益则是由网站的功能、服务、产品等多种因素共同作用而决定的。因此,第四个目标在搜索引擎营销中属于战略层次的目标。其他三个层次的目标则属于策略范畴,具有可操作性和可控制性的特征,实现这些基本目标是搜索引擎营销的主要任务。
  搜索引擎推广追求最高的性价比,以最小的投入,获最大的来自搜索引擎的访问量,并产生商业价值。用户在检索信息所使用的关键字反映出用户对该问题(产品)的关注,这种关注是搜索引擎之所以被应用于网络营销的根本原因。
  网络整合营销四大特性
  传染特性、互动特性、重合特性、背书特性
  确立营销需求
  确立营销标的物(产品属性)
  确立营销标准(消费人群)
  确立目标场景
  云浪网络推广,一直以低成本、有效果为各大企业及广告营销策划公司提供网络推广服务多年,擅长利用百度营销软文首页推广、百度爱采购,百度竞价前三推广(1500一个月,三个月2800,包点击费),官网推广至百度搜索关键词首页有排名为目标。
  【百度快照、百度竞价,百度爱采购、360竞价、、信息流开户,抖音短视频,全网推广咨询:度晓晓】
  

​NLP产业应用实战,评论观点抽取与分析和文本语义检索深度详解

网站优化优采云 发表了文章 • 0 个评论 • 393 次浏览 • 2022-05-01 18:03 • 来自相关话题

  ​NLP产业应用实战,评论观点抽取与分析和文本语义检索深度详解
  情感分析旨在对带有情感色彩的主观性文本进行分析、处理、归纳和推理,其广泛应用于消费决策、舆情分析、个性化推荐等领域,具有很高的商业价值。一种细粒度情感分析方案:评论观点抽取与分析范例,此方案不仅能分析出商品具体属性的好坏,同时能帮助用户定位详细的评价观点。
  
  图1 情感分析应用展示
  场景难点
  评论属性观点繁多:评论中可能存在某个商品的多个属性,同时每个属性可能会存在多个观点词,需要同时抽取属性和观点词,同时将属性和相应观点词进行有效匹配。
  模型情感信息敏感度低:模型在训练过程中,可能对某些样本中的关键情感信息不敏感,导致抽取或预测准确度不高。
  数据少且标注困难:评论观点抽取相关训练数据较少,且相关数据集标注较为困难。
  模型预测效率要求高:业务数据累积较多,期望对数据进行高效高精度分析处理。
  方案设计
  针对上述难点,本项目提出的的情感分析解决方案如下图所示,整个情感分析的过程大致包含两个阶段,依次是评论观点抽取模型,属性级情感分类模型。
  
  图2 情感分析解决方案流程图
  本项目使用了百度自研的 SKEP 预训练模型,其在预训练阶段便设计了多种情感信息相关的预训练目标进行训练,作为一种情感模型,其更适合用于评论观点抽取任务,以及属性级情感分类任务。
  为了提升模型预测效果,本项目采用了PaddleNLP联合PaddleSlim发布的模型蒸馏、剪裁、量化等级联模型压缩方案。
  此外,本项目还定义了简便的数据标注规则,并打通了Doccano数据标注平台,本项目可以直接对Doccano的导出数据进行自动处理,转化为适合模型输入的形式,方便易用。
  模型优化策略和效果
  观点抽取效果
  
  属性级情感分类效果
  
  
  图3 预测性能实验结果
  考虑到不同用户可能有不同的需求,本范例提供了如下的方式学习或使用本项目。1.一行命令体验评论观点抽取与分析功能2.支持文本批量预测功能,以处理大量文本数据3.支持静态图高性能推理脚本,以便于线上部署使用
  文本语义检索系统方案
  检索系统已经是我们日常生活中获取信息的不可或缺的一部分,在我们的生活中,有很多地方都有检索系统的身影,除了百度等搜索引擎以外,还有在电商购物的搜索,知乎的站内搜索,微信的视频和公众号文章的搜索,以及万方、知网的科研文献搜索等等,这些场景都离不开搜索技术。
  本次开源的范例项目开源了一套低门槛、端到端的检索系统方案,可以在多场景快速部署实现搜索功能。无标注数据,仅有无监督数据也可以得到一个效果不错的文本语义检索模型。
  场景难点
  句级别语义鸿沟:基于关键词检索的方法优化起来较为繁琐,不能很好的对句子级别的语义信息进行建模,无法跨越句子级别的语义鸿沟。
  数据少标注成本高:在系统搭建初期或者数据体量比较小的场景,并没有很多标注好的句子对,且标注的成本很高。
  语义检索系统方案复杂:语义监测方案是一个系统性工程,需要了解完整的检索系统流程是什么,如何评估检索系统的好坏,如何调优等等。
  方案设计
  针对上述难点,本项目最终选用了PaddleNLP的Neural Search中的技术方案,并且使用飞桨服务化部署框架Paddle Serving 进行服务化部署。
  Neural Search是一个实用的完整的文本语义检索应用,主要由召回和排序两个模块组成。该应用从实际的痛点出发,然后涉及网络选择和调整、策略增强、超参数调节、预训练模型使用5个方面,对各个模块的模型进行优化,并经过千万级别的数据预训练,百万级别的数据进行无监督训练,最终在GPU上预测时间可达到毫秒级别。
  
  图4 项目方案说明
  模型优化策略和效果
  本方案的NLP核心能力基于百度文心大模型。首先利用文心 ERNIE 1.0 模型进行 Domain-adaptive Pretraining,在得到的预训练模型基础上,进行无监督的 SimCSE 训练,最后利用 In-batch Negatives 方法进行微调,得到最终的语义索引模型,把语料库中的文本放入模型中抽取特征向量,进行建库之后,就可以很方便得实现召回了。以Recall@50指标进行评估,召回模型效果可以达到87.7%。
  
  图5 召回方案说明
  排序模型使用了百度文心大模型中最新的文心ERNIE-Gram模型,相比于基线方法,有不小的提升:
  
  图6 排序方案说明
  部署方案
  部署方面使用配备Paddle Serving的C++和Pipeline方式的灵活部署,满足用户批量预测、数据安全性高、延迟低的需求,快速在本地完成部署方案,本次范例包含模型转换配置到部署请求的全流程讲解,欢迎小伙伴们关注直播。
  范例使用工具介绍
  PaddleNLP是百度飞桨自然语言处理模型库,具备易用的文本领域API、丰富的预训练模型、多场景的应用示例、以及依托飞桨框架底层算子优化的高性能推理能力,旨在提升开发者在文本领域的开发效率。PaddleNLP提供了语义检索、情感分析、FAQ问答等产业级系统方案,采用前沿技术方案,打通数据标注、模型预训练及微调、部署全流程,十分简单易用,极大地降低开发门槛。
  精彩课程预告
  为了让小伙伴们更便捷地实践和应用以上两个场景方案,百度高工将于4月20日 和 4月21日19:00为大家深度解析从数据准备、方案设计到模型优化部署的开发全流程,手把手教大家进行评论观点抽取及分析和文本语义检索落地应用的代码实践。欢迎小伙伴们扫码进群,免费获取直播课和回放视频链接,更有机会获得覆盖智慧城市、工业制造、金融、互联网等行业的飞桨产业实践范例手册!也欢迎感兴趣的企业和开发者与我们联系,交流技术探讨合作。
  扫码报名直播课,加入技术交流群
  
   查看全部

  ​NLP产业应用实战,评论观点抽取与分析和文本语义检索深度详解
  情感分析旨在对带有情感色彩的主观性文本进行分析、处理、归纳和推理,其广泛应用于消费决策、舆情分析、个性化推荐等领域,具有很高的商业价值。一种细粒度情感分析方案:评论观点抽取与分析范例,此方案不仅能分析出商品具体属性的好坏,同时能帮助用户定位详细的评价观点。
  
  图1 情感分析应用展示
  场景难点
  评论属性观点繁多:评论中可能存在某个商品的多个属性,同时每个属性可能会存在多个观点词,需要同时抽取属性和观点词,同时将属性和相应观点词进行有效匹配。
  模型情感信息敏感度低:模型在训练过程中,可能对某些样本中的关键情感信息不敏感,导致抽取或预测准确度不高。
  数据少且标注困难:评论观点抽取相关训练数据较少,且相关数据集标注较为困难。
  模型预测效率要求高:业务数据累积较多,期望对数据进行高效高精度分析处理。
  方案设计
  针对上述难点,本项目提出的的情感分析解决方案如下图所示,整个情感分析的过程大致包含两个阶段,依次是评论观点抽取模型,属性级情感分类模型。
  
  图2 情感分析解决方案流程图
  本项目使用了百度自研的 SKEP 预训练模型,其在预训练阶段便设计了多种情感信息相关的预训练目标进行训练,作为一种情感模型,其更适合用于评论观点抽取任务,以及属性级情感分类任务。
  为了提升模型预测效果,本项目采用了PaddleNLP联合PaddleSlim发布的模型蒸馏、剪裁、量化等级联模型压缩方案。
  此外,本项目还定义了简便的数据标注规则,并打通了Doccano数据标注平台,本项目可以直接对Doccano的导出数据进行自动处理,转化为适合模型输入的形式,方便易用。
  模型优化策略和效果
  观点抽取效果
  
  属性级情感分类效果
  
  
  图3 预测性能实验结果
  考虑到不同用户可能有不同的需求,本范例提供了如下的方式学习或使用本项目。1.一行命令体验评论观点抽取与分析功能2.支持文本批量预测功能,以处理大量文本数据3.支持静态图高性能推理脚本,以便于线上部署使用
  文本语义检索系统方案
  检索系统已经是我们日常生活中获取信息的不可或缺的一部分,在我们的生活中,有很多地方都有检索系统的身影,除了百度等搜索引擎以外,还有在电商购物的搜索,知乎的站内搜索,微信的视频和公众号文章的搜索,以及万方、知网的科研文献搜索等等,这些场景都离不开搜索技术。
  本次开源的范例项目开源了一套低门槛、端到端的检索系统方案,可以在多场景快速部署实现搜索功能。无标注数据,仅有无监督数据也可以得到一个效果不错的文本语义检索模型。
  场景难点
  句级别语义鸿沟:基于关键词检索的方法优化起来较为繁琐,不能很好的对句子级别的语义信息进行建模,无法跨越句子级别的语义鸿沟。
  数据少标注成本高:在系统搭建初期或者数据体量比较小的场景,并没有很多标注好的句子对,且标注的成本很高。
  语义检索系统方案复杂:语义监测方案是一个系统性工程,需要了解完整的检索系统流程是什么,如何评估检索系统的好坏,如何调优等等。
  方案设计
  针对上述难点,本项目最终选用了PaddleNLP的Neural Search中的技术方案,并且使用飞桨服务化部署框架Paddle Serving 进行服务化部署。
  Neural Search是一个实用的完整的文本语义检索应用,主要由召回和排序两个模块组成。该应用从实际的痛点出发,然后涉及网络选择和调整、策略增强、超参数调节、预训练模型使用5个方面,对各个模块的模型进行优化,并经过千万级别的数据预训练,百万级别的数据进行无监督训练,最终在GPU上预测时间可达到毫秒级别。
  
  图4 项目方案说明
  模型优化策略和效果
  本方案的NLP核心能力基于百度文心大模型。首先利用文心 ERNIE 1.0 模型进行 Domain-adaptive Pretraining,在得到的预训练模型基础上,进行无监督的 SimCSE 训练,最后利用 In-batch Negatives 方法进行微调,得到最终的语义索引模型,把语料库中的文本放入模型中抽取特征向量,进行建库之后,就可以很方便得实现召回了。以Recall@50指标进行评估,召回模型效果可以达到87.7%。
  
  图5 召回方案说明
  排序模型使用了百度文心大模型中最新的文心ERNIE-Gram模型,相比于基线方法,有不小的提升:
  
  图6 排序方案说明
  部署方案
  部署方面使用配备Paddle Serving的C++和Pipeline方式的灵活部署,满足用户批量预测、数据安全性高、延迟低的需求,快速在本地完成部署方案,本次范例包含模型转换配置到部署请求的全流程讲解,欢迎小伙伴们关注直播。
  范例使用工具介绍
  PaddleNLP是百度飞桨自然语言处理模型库,具备易用的文本领域API、丰富的预训练模型、多场景的应用示例、以及依托飞桨框架底层算子优化的高性能推理能力,旨在提升开发者在文本领域的开发效率。PaddleNLP提供了语义检索、情感分析、FAQ问答等产业级系统方案,采用前沿技术方案,打通数据标注、模型预训练及微调、部署全流程,十分简单易用,极大地降低开发门槛。
  精彩课程预告
  为了让小伙伴们更便捷地实践和应用以上两个场景方案,百度高工将于4月20日 和 4月21日19:00为大家深度解析从数据准备、方案设计到模型优化部署的开发全流程,手把手教大家进行评论观点抽取及分析和文本语义检索落地应用的代码实践。欢迎小伙伴们扫码进群,免费获取直播课和回放视频链接,更有机会获得覆盖智慧城市、工业制造、金融、互联网等行业的飞桨产业实践范例手册!也欢迎感兴趣的企业和开发者与我们联系,交流技术探讨合作。
  扫码报名直播课,加入技术交流群
  
  

Thoughtworks第26期技术雷达——工具象限

网站优化优采云 发表了文章 • 0 个评论 • 76 次浏览 • 2022-05-01 08:02 • 来自相关话题

  Thoughtworks第26期技术雷达——工具象限
  
  采纳
  tfsec
  对于那些我们正在使用Terraform的项目来说,在需要检测潜在安全风险时,tfsec已经迅速成为默认的静态分析工具。它很容易被集成到CI流水线,而且拥有一个持续增长的检查库,可以用来检查所有主要的云供应商和诸如Kunernetes的平台。鉴于它的易用性,我们相信对任何Terraform项目而言,tfsec都会是一个非常好的补充。
  试验
  AKHQ
  AKHQ 是 Apache Kafka 的图形用户界面(GUI),可以帮助你管理主题、主题数据、消费者组等。我们的一些团队发现 AKHQ 是用来监控 Kafka 集群实时状态的有效工具。比如,你可以浏览集群上的主题,对于每个主题,你都能可视化它的名称、存储的消息数量、使用的磁盘空间、最后一条记录的时间、分区数、同步数量的复制因子和消费者组。通过 Avro 和 Protobuf 的反序列化,AKHQ 可以帮助你了解 Kafka 环境中的数据流。
  cert-manager
  cert-manager 是一款在 Kubernetes 集群里管理 X.509 证书的工具。它将证书和签发者建模为一等资源类型,并将证书作为服务安全地提供给工作在 Kubernetes 集群上的开发人员和应用程序。在使用 Kubernetes 默认 ingress 控制器时,cert-manager 是个显而易见的选择,但也推荐用在其他的控制器上,尤其在你不应该手动管理自己的证书的时候。我们的几个团队一直在广泛使用 cert-manager,而且发现它的可用性在过去几个月里有了很大的提升。
  云服务的碳足迹
  Cloud Carbon Footprint (CCF)是一款通过云 API来查看AWS、GCP、Azure云平台上碳排放的可视化工具。Thoughtworks的团队已经成功使用这个工具 与多个组织合作,其中包括能源科技公司、零售商、数字服务的供应商和使用人工智能的公司。云平台提供商意识到,帮助客户理解在使用云服务时产生的碳排放的影响是很重要的。所以他们开始自主构建类似的功能。因为CCF是独立于云架构的,它允许使用者在一个位置查看多个不同云服务商的能源使用和碳排放情况,同时将碳足迹转化为对现实世界的影响,比如排放量相当于多少次航班, 或者多少棵树。在最近的发布中,CCF已经开始包含针对Google云和AWS云上可能的节能与减少二氧化碳排放的优化建议,以及支持更多类型的云实例,比如GPU。考虑到现在这个工具已经备受关注和持续增加新功能, 我们对未来把它挪入试验状态充满信心。
  Conftest
  Conftest 是一款针对结构化配置数据编写测试的工具。它依赖于开放策略代理中的 Rego 语言,能够为 Kubernetes 配置、Tekton 的流水线定义、甚至 Terraform 计划编写测试。在我们的实际使用中,Conftest 的体验一直都非常棒,这也得益于它平缓的学习曲线。借助测试的快速反馈,我们的团队可以又快又安全地迭代变更 Kubernetes 的配置。
  kube-score
  kube-score 是一款针对 Kubernetes 对象定义,进行代码静态检查的工具。它的输出是一份建议列表,里面包含了如何提升你的应用程序安全性及弹性的相关建议。它有一份包含了最佳实践的预定义检查,比如以非root权限运行容器,正确指定资源限制等。它已经存在了一段时间,我们在一些项目中将它作为 Kubernetes manifests 构建的 CD 流水线的一部分来使用。kube-score 的一个显著缺陷是你无法添加自定义策略。在这种情况下,我们使用像Conftest 这样的工具,以弥补它的缺陷。
  Lighthouse
  Lighthouse 是一个由 Google 编写的工具,可以评估 Web 应用和页面,以及从出色的开发实践中收集性能指标和洞见等信息。我们一直主张性能测试乃第一公民, 五年前技术雷达中提到的对 Lighthouse 的补充内容对此也有帮助。我们关于适应度函数的思考,也为在构建流水线中运行 Lighthouse 这样的工具创造了强烈的动机。随着 Lighthouse CI 的引入,将 Lighthouse 纳入由不同工具管理的流水线,会变得比以往任何时候都容易。
  Metaflow
  Metaflow 是一个对用户友好的 Python 库和后端服务,可以帮助数据科学家和工程师构建和管理可用于生产的数据处理、机器学习训练及推理的工作流。Metaflow 提供一系列 Python API,将代码组织为由步骤组成的有向图。每一个步骤都可以灵活配置,例如其所需的计算和存储资源。每个步骤执行(也就是任务)的代码和数据副本都被保存起来,并可以在今后的运行或流程的下一步中被检索出来,帮助你从错误中恢复,重新执行任务,还可以追踪模型的版本以及多个运行之间的依赖关系。
  Metaflow 的价值主张是其惯用的 Python 库的简洁性:它与构建和运行时的基础设施完全集成,以支持在本地和规模化的生产环境中运行数据工程和科学任务。在撰写本条目时,Metaflow 和 AWS 服务高度集成,例如使用 S3 来做数据存储,step functions 来做编排。除 Python 以外,Metaflow 还支持 R 语言。其核心功能都是开源的。
  如果你正在 AWS 上构建和部署生产环境的机器学习和数据处理流水线,作为一个轻量级的全栈框架,Metaflow 可以替代例如 MLflow 这类更复杂的平台。
  Micrometer
  Micrometer 是一个跨平台的库,用于JVM的指标检测,支持 Graphite、New Relic、CloudWatch 和许多其他集成。Micrometer 让库作者和团队都受益:库作者可以在他们的库中包含指标检测代码,而无需支持库用户正在使用的每个指标系统;团队可以在后端注册表上支持许多不同的指标,这使组织能够以一致的方式收集指标。
  NUKE
  NUKE 是一个面向 .NET 的构建系统,也是传统的 MSBuild、Cake 以及 Fake 等自动化构建系统的替代品,我们曾在之前的技术雷达中介绍过它们。NUKE 以 C# 领域特定语言(DSL)的形式表达构建指令,不但降低了学习成本,而且 IDE 支持性也很好。在我们的实际体验中,使用 NUKE 进行 .NET 项目的自动化构建十分便捷。我们喜欢 NUKE 提供的精准代码静态检查和提示功能,并且它支持无缝使用各种 NuGet 包,这样可以编译自动化代码,避免运行时发生错误。尽管 NUKE 已不是新技术,但它采用 C# DSL 的全新方法,以及使用 NUKE 时全方位的良好体验,促使我们一定要将它收录在技术雷达里。
  Pactflow
  在长时间使用 Pact 进行契约测试的过程中,我们目睹了规模化带来的复杂性。我们的一些团队已经使用 Pactflow 成功减少了这种复杂性引发的后果。Pactflow 既可以作为 SaaS 运行,也可以部署在本地,并提供与 SaaS 产品相同的功能,它在开源产品 Pact Broker 的基础上,提升了可用性、安全性以及审计体验。到目前为止,我们很满意 Pactflow 的使用体验,并且很高兴看到它在持续致力于降低管理大规模契约测试所带来的开销。
  Podman
  Podman 作为Docker 的替代方案,已经通过我们许多团队的验证。与 Docker 不同的是,Podman 使用一个无守护引擎来管理和运行容器,这是一种有趣的方案。此外,Podman 可以以普通用户身份运行而无需root权限,从而减少了攻击面。通过使用 Buildah 构建的开放容器倡议(OCI) 镜像或者 Docker 镜像, Podman 可以适用于大多数容器使用场景。除了与 macOS 的一些兼容性问题外,我们团队在 Linux 各发行版上使用 Podman 的总体感觉非常好。
  Sourcegraph
  在往期的技术雷达中,我们介绍了两个基于抽象语法树(AST)表征的代码搜索和替换工具,Comby 和Sourcegraph。它们尽管有一些相似之处,但也有一些不同的地方。Sourcegraph 是一个商业工具(也有最多支持10个用户的免费版本),特别适合在大型代码库中进行搜索、导航或交叉引用等操作,重视与开发者的交互体验。相比之下,Comby 是一个用于自动化重复性任务的轻量级开源命令行工具。由于 Sourcegraph 是一个托管服务,它能持续监测代码库,并在成功匹配时发出警报。现在我们对 Sourcegraph 有了更多的经验,决定将其挪到试验状态,以反映我们从中获得的良好体验——但这并不意味着 Sourcegraph 比 Comby 更好。每个工具都有各自专注的方向。
  Syft
  使用软件物料清单(SBOM) 是改善“供应链安全”的关键要素之一,因此在发布软件构件的同时,发布相应的 SBOM 正变得越来越重要。Syft是一个致力于为容器镜像和文件系统生成 SBOM 的 CLI 工具和 Go 语言库。它可以生成包括 JSON, CycloneDX 和 SPDX 在内的多种格式的 SBOM。Syft 输出的 SBOM 可以被 Grype 用于漏洞扫描。使用Cosign 将 SBOM 添加为证明文件,可以将生成的 SBOM 和镜像一起发布。这使得镜像的消费者可以对 SBOM 进行验证,并将其用于后续的分析。
  Volta
  当同时在多个 JavaScript 代码库上工作时,我们往往需要使用不同版本的 Node 和其他 JavaScript 工具。在开发机器上,这些工具通常安装在用户目录或本机中,这意味着需要一个解决方案,帮助开发者在多个版本之中进行切换。对于 Node 而言,nvm 能够做到这一点,但我们想重点强调一个替代方案 Volta ,我们的一些团队正在使用它。与使用 nvm 相比,Volta 有几个优点:它可以管理其他 JavaScript 工具,如 yarn;它还具备一个基于项目绑定工具链某个版本的理念,这意味着开发人员可以简单使用给定代码目录中的工具,而不必担心需要手动切换工具版本 —— Volta 是通过使用路径中的 shims 来选择被绑定的版本。Volta 采用 Rust 编写,速度极快,以独立二进制文件进行分发,没有任何依赖。
  Web Test Runner
  Web Test Runner 是 Modern Web 项目中的一个套件,该项目为现代 Web 开发提供了若干高质量的工具,支持像 ES 模块之类的 Web 标准。Web Test Runner 是一个针对 Web 应用的测试运行器。与其他现有测试运行器相比,它的一个优势是可以在浏览器中运行测试(也可以无图形界面运行)。它支持多种浏览器启动器——包括 Puppeteer , Playwright 和 Selenium ,并且使用 Mocha 作为默认测试框架。Web Test Runner 运行测试的速度非常快,我们很喜欢在调试的时候能打开一个带 devtools 的浏览器窗口。它在内部采用了 Web Dev Server ,这意味着我们可以利用其出色的插件 API,为测试套件添加自定义插件。Modern Web 项目的工具看起来是一套非常有前景的开发者工具链,我们已经在一些项目中使用它。
  评估
  CDKTF
  迄今为止,许多组织已经创造了广阔的云服务图景。当然,这只有在使用基础设施即代码和成熟的工具时才可能实现。我们仍然喜欢 Terraform,尤其是它丰富且日渐增长的生态系统。然而,Terraform 的默认配置语言 HCL 缺乏抽象性,导致了它的玻璃天花板。虽然使用 Terragrunt 缓解了这一点,但我们的团队越来越渴望像现代编程语言所能提供的那种抽象性。由AWS CDK 团队和 Hashicorp 合作开发的 Terraform云开发工具包(CDKTF),让团队有可能使用多种不同的编程语言,包括 TypeScript 和 Java,去定义并配置基础设施。通过这种方法,它在 Terraform 生态系统中紧跟Pulumi 的领先地位。我们已经对 CDKTF 有了很好的经验,但仍然决定将其暂留在评估状态,直到它脱离 beta 版本。
  Chrome Recorder panel
  Chrome Recorder panel 是 Google Chrome 97 的预览功能,允许简单地录制和回放用户旅程。虽然这绝对不是一个新想法,但它集成在 Chrome 浏览器中的方式能允许快速地创建、编辑和运行脚本。Chrome Recorder panel 也很好地集成了性能面板,这让获取重复、持续的页面性能反馈变得更加容易。虽然总是需要谨慎使用录制/回放风格的测试,以避免脆弱的测试,但我们认为这个预览功能值得评估,特别是如果你已经在使用 Chrome 性能面板来测量页面。
  Excalidraw
  Excalidraw 是我们团队喜欢使用的简单但功能强大的绘图工具。有时候团队只是需要一张草图而不是正式的图表,Excalidraw 为远程团队提供了一种可以快速创建和共享图表的方式。我们团队也喜欢它生成的低保真图表样式,这让人联想到团队在同地协作时绘制的白板图表。提醒一点:你需要注意它默认的安全性,在你进行绘制时,任何拥有链接的人都可以看见图表。付费版本则提供了进一步的身份验证功能。
  Github Codespace
  Github Codespace 允许开发者在云上创建开发环境,你可以通过 IDE 访问它,就像在本地环境一样。Github 不是第一家实现这个想法的公司,我们之前还提到过 Gitpod。我们喜欢 Codespace 允许通过使用 dotfiles 文件来标准化配置环境的功能,这能够帮助新团队成员更快上手;我们也十分中意 Codespace 能提供最高 32 核 64GB 内存虚拟机的特性,这些虚拟机可以在 10 秒钟内启动,有可能提供比开发笔记本电脑更强大的环境。
  GoReleaser
  GoReleaser 是一个通过多个库和通道来支持不同架构的 Go 项目自动化构建和发布的工具,这是面向不同平台 Go 项目的常见需求。你可以在本地机器或者 CI 上运行该工具,它支持在多种 CI 服务上运行,从而最大限度降低安装和维护成本。GoReleaser 能够用于每个发布版本的构建、打包、发布和声明,并且支持不同的包格式、包库和源代码控制的组合。虽然它已经出现好几年了,但我们惊讶并没有多少团队使用它。如果你经常发布 Go 代码库,这个工具值得一试。
  Grype
  保证软件供应链的安全性已经得到交付团队的普遍关注,这种关注也反映在越来越多的新工具涌现在该领域中。Grype 就是一个新的针对 Docker 和 OCI 镜像进行漏洞扫描的轻量级工具。它可以以二进制文件安装,能在镜像被推至仓库前对其进行扫描,而且不需要在你的构建服务器上运行 Docker 守护进程。Grype 与 Syft 出自同一个团队,后者用于为容器镜像生成不同格式的软件物料清单 。Grype 可以使用 Syft 输出的软件物料清单扫描安全漏洞。
  Infracost
  迁移到云端的一个常被提及的优势是将基础设施开销透明化。但根据我们的经验,情况却往往相反。团队并不总是从财务成本的角度来考虑他们围绕基础设施所做的决定,这就是为什么我们之前提到了将运行成本实现为架构适应度函数。我们对一个名为 Infracost 的新工具感到好奇,该工具可以在 Terraform pull request 中可视化成本权衡。它是一个开源软件, 在 macOS、Linux、Windows 和 Docker 均可访问,开箱即用支持 AWS 、 GCP 和微软 Azure 的定价。它还提供了一个公共 API ,可以查询到当前的成本数据。我们的团队对它的潜力感到兴奋,特别是它还将支持在IDE中提供更好的成本可见性。
  jc
  在之前的技术雷达中,我们将 现代 Unix 命令 放在了评估状态。在该工具集中, jq 命令实际上是一个支持 JSON 的 sed。而 jc 命令执行的是与之相关的任务:它获取常见 Unix 命令的输出,并将输出解析为 JSON。jq 和 jc 这两个命令一起为 Unix CLI 世界以及大量基于 JSON 工作的库和工具之间架起了一座桥梁。当编写一些像软件部署或者故障诊断信息收集的简单脚本时,将五花八门的 Unix 命令输出格式映射到定义明确的 JSON,可以为我们节省大量的时间和精力。与 jq 命令一样,你需要确保该命令可用。它可以通过许多著名的软件库进行安装。
  skopeo
  skopeo 是一款可以对容器镜像和镜像仓库执行各种操作的命令行工具。它的大部分操作都不要求用户以 root 角色执行,也不需要运行守护进程。它是 CI 流水线中的实用部分,在推广镜像时,我们可以用skopeo把镜像从一个注册表拷贝到另一个注册表。这样的操作比直接拉取和推送镜像更好,因为我们不需要在本地存储这些镜像。skopeo 不是一个新工具,但它足够有用且未被充分认识到,所以我们认为它值得一提。
  SQLFluff
  尽管代码静态检查已经是软件工程中的古老实践了,但它在数据领域中的应用仍十分缓慢。SQLFluff是一个python实现的跨SQL方言的linter,它提供了简单的命令行界面(CLI),可以很容易地整合进CI/CD流水线。如果默认配置就适合你,那么SQLFluff在安装后无需任何额外设定就可工作,它会强制执行一套鲜明风格的标准来格式化代码,当然,你也可以通过添加一个dotfile设定自己的代码规范。这个命令行工具还能自动修复诸如空格或者关键词大小写等违反代码规范设定的格式错误。SQLFluff虽然还很年轻,但是SQL代码静态检查圈内获得更多关注是一件让人兴奋的事。
  Terraform Validator
  一些已经采用了基础设施即代码和自服务基础设施平台的组织,正在寻找在执行良好安全实践和组织政策的同时,能给予团队最大限度自主权的方法。我们之前已经着重强调过 tfsec,并在这一期技术雷达中将它挪到了采纳中。对于使用谷歌云平台(GCP)的团队来说,可以使用 Terraform Validator 构建策略库,作为检查 Terraform 配置的约束条件。
  Typesense
  Typesense 是一个快速、容错的文本搜索引擎。在有大量数据的情形下,Elasticsearch 可能仍然是一个不错的选择,因为它提供了一个基于磁盘且可横向扩展的搜索解决方案。然而如果你正在构建一个对延迟敏感的搜索应用,并且搜索索引的尺寸可以容纳在内存中,那么 Typesense 会是一个强大的替代方案,你也可以考虑与 Meilisearch 等工具一起评估。 查看全部

  Thoughtworks第26期技术雷达——工具象限
  
  采纳
  tfsec
  对于那些我们正在使用Terraform的项目来说,在需要检测潜在安全风险时,tfsec已经迅速成为默认的静态分析工具。它很容易被集成到CI流水线,而且拥有一个持续增长的检查库,可以用来检查所有主要的云供应商和诸如Kunernetes的平台。鉴于它的易用性,我们相信对任何Terraform项目而言,tfsec都会是一个非常好的补充。
  试验
  AKHQ
  AKHQ 是 Apache Kafka 的图形用户界面(GUI),可以帮助你管理主题、主题数据、消费者组等。我们的一些团队发现 AKHQ 是用来监控 Kafka 集群实时状态的有效工具。比如,你可以浏览集群上的主题,对于每个主题,你都能可视化它的名称、存储的消息数量、使用的磁盘空间、最后一条记录的时间、分区数、同步数量的复制因子和消费者组。通过 Avro 和 Protobuf 的反序列化,AKHQ 可以帮助你了解 Kafka 环境中的数据流。
  cert-manager
  cert-manager 是一款在 Kubernetes 集群里管理 X.509 证书的工具。它将证书和签发者建模为一等资源类型,并将证书作为服务安全地提供给工作在 Kubernetes 集群上的开发人员和应用程序。在使用 Kubernetes 默认 ingress 控制器时,cert-manager 是个显而易见的选择,但也推荐用在其他的控制器上,尤其在你不应该手动管理自己的证书的时候。我们的几个团队一直在广泛使用 cert-manager,而且发现它的可用性在过去几个月里有了很大的提升。
  云服务的碳足迹
  Cloud Carbon Footprint (CCF)是一款通过云 API来查看AWS、GCP、Azure云平台上碳排放的可视化工具。Thoughtworks的团队已经成功使用这个工具 与多个组织合作,其中包括能源科技公司、零售商、数字服务的供应商和使用人工智能的公司。云平台提供商意识到,帮助客户理解在使用云服务时产生的碳排放的影响是很重要的。所以他们开始自主构建类似的功能。因为CCF是独立于云架构的,它允许使用者在一个位置查看多个不同云服务商的能源使用和碳排放情况,同时将碳足迹转化为对现实世界的影响,比如排放量相当于多少次航班, 或者多少棵树。在最近的发布中,CCF已经开始包含针对Google云和AWS云上可能的节能与减少二氧化碳排放的优化建议,以及支持更多类型的云实例,比如GPU。考虑到现在这个工具已经备受关注和持续增加新功能, 我们对未来把它挪入试验状态充满信心。
  Conftest
  Conftest 是一款针对结构化配置数据编写测试的工具。它依赖于开放策略代理中的 Rego 语言,能够为 Kubernetes 配置、Tekton 的流水线定义、甚至 Terraform 计划编写测试。在我们的实际使用中,Conftest 的体验一直都非常棒,这也得益于它平缓的学习曲线。借助测试的快速反馈,我们的团队可以又快又安全地迭代变更 Kubernetes 的配置。
  kube-score
  kube-score 是一款针对 Kubernetes 对象定义,进行代码静态检查的工具。它的输出是一份建议列表,里面包含了如何提升你的应用程序安全性及弹性的相关建议。它有一份包含了最佳实践的预定义检查,比如以非root权限运行容器,正确指定资源限制等。它已经存在了一段时间,我们在一些项目中将它作为 Kubernetes manifests 构建的 CD 流水线的一部分来使用。kube-score 的一个显著缺陷是你无法添加自定义策略。在这种情况下,我们使用像Conftest 这样的工具,以弥补它的缺陷。
  Lighthouse
  Lighthouse 是一个由 Google 编写的工具,可以评估 Web 应用和页面,以及从出色的开发实践中收集性能指标和洞见等信息。我们一直主张性能测试乃第一公民, 五年前技术雷达中提到的对 Lighthouse 的补充内容对此也有帮助。我们关于适应度函数的思考,也为在构建流水线中运行 Lighthouse 这样的工具创造了强烈的动机。随着 Lighthouse CI 的引入,将 Lighthouse 纳入由不同工具管理的流水线,会变得比以往任何时候都容易。
  Metaflow
  Metaflow 是一个对用户友好的 Python 库和后端服务,可以帮助数据科学家和工程师构建和管理可用于生产的数据处理、机器学习训练及推理的工作流。Metaflow 提供一系列 Python API,将代码组织为由步骤组成的有向图。每一个步骤都可以灵活配置,例如其所需的计算和存储资源。每个步骤执行(也就是任务)的代码和数据副本都被保存起来,并可以在今后的运行或流程的下一步中被检索出来,帮助你从错误中恢复,重新执行任务,还可以追踪模型的版本以及多个运行之间的依赖关系。
  Metaflow 的价值主张是其惯用的 Python 库的简洁性:它与构建和运行时的基础设施完全集成,以支持在本地和规模化的生产环境中运行数据工程和科学任务。在撰写本条目时,Metaflow 和 AWS 服务高度集成,例如使用 S3 来做数据存储,step functions 来做编排。除 Python 以外,Metaflow 还支持 R 语言。其核心功能都是开源的。
  如果你正在 AWS 上构建和部署生产环境的机器学习和数据处理流水线,作为一个轻量级的全栈框架,Metaflow 可以替代例如 MLflow 这类更复杂的平台。
  Micrometer
  Micrometer 是一个跨平台的库,用于JVM的指标检测,支持 Graphite、New Relic、CloudWatch 和许多其他集成。Micrometer 让库作者和团队都受益:库作者可以在他们的库中包含指标检测代码,而无需支持库用户正在使用的每个指标系统;团队可以在后端注册表上支持许多不同的指标,这使组织能够以一致的方式收集指标。
  NUKE
  NUKE 是一个面向 .NET 的构建系统,也是传统的 MSBuild、Cake 以及 Fake 等自动化构建系统的替代品,我们曾在之前的技术雷达中介绍过它们。NUKE 以 C# 领域特定语言(DSL)的形式表达构建指令,不但降低了学习成本,而且 IDE 支持性也很好。在我们的实际体验中,使用 NUKE 进行 .NET 项目的自动化构建十分便捷。我们喜欢 NUKE 提供的精准代码静态检查和提示功能,并且它支持无缝使用各种 NuGet 包,这样可以编译自动化代码,避免运行时发生错误。尽管 NUKE 已不是新技术,但它采用 C# DSL 的全新方法,以及使用 NUKE 时全方位的良好体验,促使我们一定要将它收录在技术雷达里。
  Pactflow
  在长时间使用 Pact 进行契约测试的过程中,我们目睹了规模化带来的复杂性。我们的一些团队已经使用 Pactflow 成功减少了这种复杂性引发的后果。Pactflow 既可以作为 SaaS 运行,也可以部署在本地,并提供与 SaaS 产品相同的功能,它在开源产品 Pact Broker 的基础上,提升了可用性、安全性以及审计体验。到目前为止,我们很满意 Pactflow 的使用体验,并且很高兴看到它在持续致力于降低管理大规模契约测试所带来的开销。
  Podman
  Podman 作为Docker 的替代方案,已经通过我们许多团队的验证。与 Docker 不同的是,Podman 使用一个无守护引擎来管理和运行容器,这是一种有趣的方案。此外,Podman 可以以普通用户身份运行而无需root权限,从而减少了攻击面。通过使用 Buildah 构建的开放容器倡议(OCI) 镜像或者 Docker 镜像, Podman 可以适用于大多数容器使用场景。除了与 macOS 的一些兼容性问题外,我们团队在 Linux 各发行版上使用 Podman 的总体感觉非常好。
  Sourcegraph
  在往期的技术雷达中,我们介绍了两个基于抽象语法树(AST)表征的代码搜索和替换工具,Comby 和Sourcegraph。它们尽管有一些相似之处,但也有一些不同的地方。Sourcegraph 是一个商业工具(也有最多支持10个用户的免费版本),特别适合在大型代码库中进行搜索、导航或交叉引用等操作,重视与开发者的交互体验。相比之下,Comby 是一个用于自动化重复性任务的轻量级开源命令行工具。由于 Sourcegraph 是一个托管服务,它能持续监测代码库,并在成功匹配时发出警报。现在我们对 Sourcegraph 有了更多的经验,决定将其挪到试验状态,以反映我们从中获得的良好体验——但这并不意味着 Sourcegraph 比 Comby 更好。每个工具都有各自专注的方向。
  Syft
  使用软件物料清单(SBOM) 是改善“供应链安全”的关键要素之一,因此在发布软件构件的同时,发布相应的 SBOM 正变得越来越重要。Syft是一个致力于为容器镜像和文件系统生成 SBOM 的 CLI 工具和 Go 语言库。它可以生成包括 JSON, CycloneDX 和 SPDX 在内的多种格式的 SBOM。Syft 输出的 SBOM 可以被 Grype 用于漏洞扫描。使用Cosign 将 SBOM 添加为证明文件,可以将生成的 SBOM 和镜像一起发布。这使得镜像的消费者可以对 SBOM 进行验证,并将其用于后续的分析。
  Volta
  当同时在多个 JavaScript 代码库上工作时,我们往往需要使用不同版本的 Node 和其他 JavaScript 工具。在开发机器上,这些工具通常安装在用户目录或本机中,这意味着需要一个解决方案,帮助开发者在多个版本之中进行切换。对于 Node 而言,nvm 能够做到这一点,但我们想重点强调一个替代方案 Volta ,我们的一些团队正在使用它。与使用 nvm 相比,Volta 有几个优点:它可以管理其他 JavaScript 工具,如 yarn;它还具备一个基于项目绑定工具链某个版本的理念,这意味着开发人员可以简单使用给定代码目录中的工具,而不必担心需要手动切换工具版本 —— Volta 是通过使用路径中的 shims 来选择被绑定的版本。Volta 采用 Rust 编写,速度极快,以独立二进制文件进行分发,没有任何依赖。
  Web Test Runner
  Web Test Runner 是 Modern Web 项目中的一个套件,该项目为现代 Web 开发提供了若干高质量的工具,支持像 ES 模块之类的 Web 标准。Web Test Runner 是一个针对 Web 应用的测试运行器。与其他现有测试运行器相比,它的一个优势是可以在浏览器中运行测试(也可以无图形界面运行)。它支持多种浏览器启动器——包括 Puppeteer , Playwright 和 Selenium ,并且使用 Mocha 作为默认测试框架。Web Test Runner 运行测试的速度非常快,我们很喜欢在调试的时候能打开一个带 devtools 的浏览器窗口。它在内部采用了 Web Dev Server ,这意味着我们可以利用其出色的插件 API,为测试套件添加自定义插件。Modern Web 项目的工具看起来是一套非常有前景的开发者工具链,我们已经在一些项目中使用它。
  评估
  CDKTF
  迄今为止,许多组织已经创造了广阔的云服务图景。当然,这只有在使用基础设施即代码和成熟的工具时才可能实现。我们仍然喜欢 Terraform,尤其是它丰富且日渐增长的生态系统。然而,Terraform 的默认配置语言 HCL 缺乏抽象性,导致了它的玻璃天花板。虽然使用 Terragrunt 缓解了这一点,但我们的团队越来越渴望像现代编程语言所能提供的那种抽象性。由AWS CDK 团队和 Hashicorp 合作开发的 Terraform云开发工具包(CDKTF),让团队有可能使用多种不同的编程语言,包括 TypeScript 和 Java,去定义并配置基础设施。通过这种方法,它在 Terraform 生态系统中紧跟Pulumi 的领先地位。我们已经对 CDKTF 有了很好的经验,但仍然决定将其暂留在评估状态,直到它脱离 beta 版本。
  Chrome Recorder panel
  Chrome Recorder panel 是 Google Chrome 97 的预览功能,允许简单地录制和回放用户旅程。虽然这绝对不是一个新想法,但它集成在 Chrome 浏览器中的方式能允许快速地创建、编辑和运行脚本。Chrome Recorder panel 也很好地集成了性能面板,这让获取重复、持续的页面性能反馈变得更加容易。虽然总是需要谨慎使用录制/回放风格的测试,以避免脆弱的测试,但我们认为这个预览功能值得评估,特别是如果你已经在使用 Chrome 性能面板来测量页面。
  Excalidraw
  Excalidraw 是我们团队喜欢使用的简单但功能强大的绘图工具。有时候团队只是需要一张草图而不是正式的图表,Excalidraw 为远程团队提供了一种可以快速创建和共享图表的方式。我们团队也喜欢它生成的低保真图表样式,这让人联想到团队在同地协作时绘制的白板图表。提醒一点:你需要注意它默认的安全性,在你进行绘制时,任何拥有链接的人都可以看见图表。付费版本则提供了进一步的身份验证功能。
  Github Codespace
  Github Codespace 允许开发者在云上创建开发环境,你可以通过 IDE 访问它,就像在本地环境一样。Github 不是第一家实现这个想法的公司,我们之前还提到过 Gitpod。我们喜欢 Codespace 允许通过使用 dotfiles 文件来标准化配置环境的功能,这能够帮助新团队成员更快上手;我们也十分中意 Codespace 能提供最高 32 核 64GB 内存虚拟机的特性,这些虚拟机可以在 10 秒钟内启动,有可能提供比开发笔记本电脑更强大的环境。
  GoReleaser
  GoReleaser 是一个通过多个库和通道来支持不同架构的 Go 项目自动化构建和发布的工具,这是面向不同平台 Go 项目的常见需求。你可以在本地机器或者 CI 上运行该工具,它支持在多种 CI 服务上运行,从而最大限度降低安装和维护成本。GoReleaser 能够用于每个发布版本的构建、打包、发布和声明,并且支持不同的包格式、包库和源代码控制的组合。虽然它已经出现好几年了,但我们惊讶并没有多少团队使用它。如果你经常发布 Go 代码库,这个工具值得一试。
  Grype
  保证软件供应链的安全性已经得到交付团队的普遍关注,这种关注也反映在越来越多的新工具涌现在该领域中。Grype 就是一个新的针对 Docker 和 OCI 镜像进行漏洞扫描的轻量级工具。它可以以二进制文件安装,能在镜像被推至仓库前对其进行扫描,而且不需要在你的构建服务器上运行 Docker 守护进程。Grype 与 Syft 出自同一个团队,后者用于为容器镜像生成不同格式的软件物料清单 。Grype 可以使用 Syft 输出的软件物料清单扫描安全漏洞。
  Infracost
  迁移到云端的一个常被提及的优势是将基础设施开销透明化。但根据我们的经验,情况却往往相反。团队并不总是从财务成本的角度来考虑他们围绕基础设施所做的决定,这就是为什么我们之前提到了将运行成本实现为架构适应度函数。我们对一个名为 Infracost 的新工具感到好奇,该工具可以在 Terraform pull request 中可视化成本权衡。它是一个开源软件, 在 macOS、Linux、Windows 和 Docker 均可访问,开箱即用支持 AWS 、 GCP 和微软 Azure 的定价。它还提供了一个公共 API ,可以查询到当前的成本数据。我们的团队对它的潜力感到兴奋,特别是它还将支持在IDE中提供更好的成本可见性。
  jc
  在之前的技术雷达中,我们将 现代 Unix 命令 放在了评估状态。在该工具集中, jq 命令实际上是一个支持 JSON 的 sed。而 jc 命令执行的是与之相关的任务:它获取常见 Unix 命令的输出,并将输出解析为 JSON。jq 和 jc 这两个命令一起为 Unix CLI 世界以及大量基于 JSON 工作的库和工具之间架起了一座桥梁。当编写一些像软件部署或者故障诊断信息收集的简单脚本时,将五花八门的 Unix 命令输出格式映射到定义明确的 JSON,可以为我们节省大量的时间和精力。与 jq 命令一样,你需要确保该命令可用。它可以通过许多著名的软件库进行安装。
  skopeo
  skopeo 是一款可以对容器镜像和镜像仓库执行各种操作的命令行工具。它的大部分操作都不要求用户以 root 角色执行,也不需要运行守护进程。它是 CI 流水线中的实用部分,在推广镜像时,我们可以用skopeo把镜像从一个注册表拷贝到另一个注册表。这样的操作比直接拉取和推送镜像更好,因为我们不需要在本地存储这些镜像。skopeo 不是一个新工具,但它足够有用且未被充分认识到,所以我们认为它值得一提。
  SQLFluff
  尽管代码静态检查已经是软件工程中的古老实践了,但它在数据领域中的应用仍十分缓慢。SQLFluff是一个python实现的跨SQL方言的linter,它提供了简单的命令行界面(CLI),可以很容易地整合进CI/CD流水线。如果默认配置就适合你,那么SQLFluff在安装后无需任何额外设定就可工作,它会强制执行一套鲜明风格的标准来格式化代码,当然,你也可以通过添加一个dotfile设定自己的代码规范。这个命令行工具还能自动修复诸如空格或者关键词大小写等违反代码规范设定的格式错误。SQLFluff虽然还很年轻,但是SQL代码静态检查圈内获得更多关注是一件让人兴奋的事。
  Terraform Validator
  一些已经采用了基础设施即代码和自服务基础设施平台的组织,正在寻找在执行良好安全实践和组织政策的同时,能给予团队最大限度自主权的方法。我们之前已经着重强调过 tfsec,并在这一期技术雷达中将它挪到了采纳中。对于使用谷歌云平台(GCP)的团队来说,可以使用 Terraform Validator 构建策略库,作为检查 Terraform 配置的约束条件。
  Typesense
  Typesense 是一个快速、容错的文本搜索引擎。在有大量数据的情形下,Elasticsearch 可能仍然是一个不错的选择,因为它提供了一个基于磁盘且可横向扩展的搜索解决方案。然而如果你正在构建一个对延迟敏感的搜索应用,并且搜索索引的尺寸可以容纳在内存中,那么 Typesense 会是一个强大的替代方案,你也可以考虑与 Meilisearch 等工具一起评估。

论文打卡第十七期(信息抽取,文本生成,多模态,知识蒸馏)

网站优化优采云 发表了文章 • 0 个评论 • 142 次浏览 • 2022-05-01 08:00 • 来自相关话题

  论文打卡第十七期(信息抽取,文本生成,多模态,知识蒸馏)
  关于我们
  我们
  是一个国内外多所高校AI方向学生共同组织的论文阅读打卡小组。我们定期组织论文阅读活动,期望大家能够在自己需要的情况下,阅读论文并分享自己的阅读笔记,既可以督促提升自己,也可以分享利于其他同学。我们期望我们这个活动能够成为一个帮助同学们督促自己也造福他人的平台。
  文中所有内容均为各位同学的个人阅读笔记。不保证笔记内容的准确性、全面性。内容仅供参考。
  
  本期目录
  领域
  1
  Are Transformers More Robust Than CNNs
  神经网络
  2
  Dynamic Modality Interaction Modeling for Image-Text Retrieval
  多模态检索
  3
  Multi-Modal Mixup for Robust Fine-tuning
  多模态
  表示学习
  4
  Hierarchical Modular Event Argument Extraction
  信息抽取
  5
  Generating Disentangled Arguments With Prompts: A Simple Event Extraction Framework That Works
  信息抽取
  6
  Named Entity Recognition with Small Strongly Labeled and Large Weakly Labeled Data
  命名实体识别
  7
  Towards Debiasing NLU Models from Unknown Biases
  NLU
  8
  How do Vision Transformers Work?
  预训练模型
  9
  Learn From the Past: Experience Ensemble Knowledge Distillation
  知识蒸馏
  10
  Rethinking and Refining the Distinct Metric
  文本生成
  11
  A Contrastive Framework for Neural Text Generation
  文本生成
  12
  Should You Mask 15% in Masked Language Modeling?
  预训练模型
  13
  Visually Grounded Reasoning across Languages and Cultures
  多模态
  14
  PILED: An Identify-and-Localize Framework for Few-Shot Event Detection
  信息抽取
  15
  TEXT2EVENT: Controllable Sequence-to-Structure Generation for End-to-end Event Extraction
  信息抽取
  01
  Are Transformers More Robust Than CNNs
  领域:神经网络
  会议:NeurIPS 2021
  链接:
  关键词:Transformer, CNN
  是否推荐:推荐
  打卡内容:
  1.问题:最近的工作认为Transformer比卷积神经网络(CNN)更强大。然而,令人惊讶的是,我们发现这些结论来自不公平的实验环境,其中Transformer和CNN在不同的尺度上进行比较,并应用不同的训练框架。
  2.分析:a)如果CNN正确地采用Transformer的训练方式,那么在防御对抗性攻击方面,它们可以很容易地像Transformer一样强大。b)Transformer的泛化能力得益于self-attention架构,而非在大规模数据集上进行预训练。
  评价:怀疑的态度和实验分析很有趣。
  02
  Dynamic Modality Interaction Modeling for Image-Text Retrieval
  领域:多模态检索
  会议:SIGIR 2021
  链接:
  是否推荐:推荐
  打卡内容:
  1.问题:现有的图像文本检索方法在交互模式的设计上严重依赖专家经验和经验反馈,因此缺乏灵活性。
  2.方法:我们开发了一种基于路由机制的新型模态交互建模网络,这是第一个面向图像文本检索的统一动态多模态交互框架。特别是,我们首先设计四种类型的单元作为基本单元,探索不同层次的模态交互,然后以密集策略将它们连接起来,构建一个路由空间。为了赋予该模型路径决策的能力,我们在每个单元中集成了一个动态路由器用于模式探索。由于路由器以输入为条件,我们的模型可以动态地学习不同数据的不同激活路径。
  评价:实验很丰富。case study很直观、有说服力。图画得很好看。
  03
  Multi-Modal Mixup for Robust Fine-tuning
  领域:多模态表示学习
  会议:ARXIV 2022
  链接:
  是否推荐:推荐
  打卡内容:
  本文探究了CLIP模型给出的文本和图片表示,发现这两个模态的表示分得很开,且中间有大片未被填充的空间。
  作者借鉴了ICML20的一篇文章,利用其中的alignment和uniformity指标进一步分析了CLIP的多模态特征空间,发现构成正例的两个样本在特征空间中不够近(alignment小),同时所有数据的特征分布不够均匀(uniformity小)。这样的特征分布是不够鲁棒的,会降低模型在下游任务上的表现。
  为此,作者提出了multi-modal mixup技术,通过混合两个模态的特征得到更困难的负例,再进行对比学习。具体的mixup技术包括m^2-mix(图片混文本作为图片的负例)、V-mix(文本混文本作为图片的负例)、VL-mix(文本混文本、图片混图片,然后互为负例)
  实验结果表明这种方法在保留多模态结构关系的同时,提高了模型的alignment和uniformity指标,进而提高了模型在下游retrieval任务上的表现
  04
  Hierarchical Modular Event Argument Extraction
  领域:信息抽取
  会议:EMNLP 2019
  链接:
  关键词:分层网络
  是否推荐:推荐
  打卡内容:
  本文是事件要素抽取的工作,主要是为概念层次(concept hierarchy)的每个基本单元设计了一个神经网络模块,然后使用逻辑操作,将相关的单元模块分层地组成一个面向角色的模块网络(modular network),对特定的argument role进行分类。
  为每个概念设置了一个NMN,并将其组成了一个面向角色的模块网络,以预测每个实体的元素角色:首先,对于每个上级概念,有一个上级概念模块(SCM)来突出和概念有关的上下文信息;然后,对于每个元素角色,使用针对特定角色的逻辑模块整合和其相对应的SCMs,以得到统一的高层次的模块;最终,使用元素角色分类器,预测实体是否扮演了给定的元素角色。主要的做法就是将实体的信息融合到候选的要素片段中,增强分类的效果。
  实验在ACE 2005, TAC KBP 2016这两个数据集上做了EAE的测试,没有全部达到SOTA,但是分层网络确实提升了模型的效果。
  05
  Generating Disentangled Arguments With Prompts: A Simple Event Extraction Framework That Works
  领域:信息抽取
  会议:ICASSP 2022
  链接:
  是否推荐:推荐
  打卡内容:
  应该是最早在提示学习上做事件抽取的论文了。作者分析了事件抽取的三种主流方式:序列标注、MRC和生成,又对生成范式的两瓶。编码部分作者加入了提示(无需手工设计),解码部分沿用了TEXT2EVENT的方法。
  其中一个创新点是减少了触发词对参数抽取的影响,作者认为有些触发词对参数抽取没有帮助,只需要事件类型就可以找到模板并且进行参数抽取,还可以提高效率。但是我认为有两点问题。首先,作者依然需要pipeline式地进行简化的事件检测,还是执行2个模型,时间效率没有提升,甚至3个模型提高了计算量。其次,目前大家似乎都是使用Ground Truth的触发词和事件类型做参数抽取,所以理论上的性能没有提升。(但是实际生产中,没有GT的事件检测标注,这种方式可能些许减少误差传播)。
  另一个创新点就是引入了提示学习,其实文章的模板过于简单,取得这样的效果已经很不容易了。如果进行模板的设计,可能可以取得更好的结果。
  06
  Named Entity Recognition with Small Strongly Labeled and Large Weakly Labeled Data
  领域:命名实体识别
  会议:ACL 2021
  链接:
  是否推荐:推荐
  打卡内容:
  现有的工作只是进行弱监督学习,而在实际场景中,同时存在强标注数据和弱标注数据(半监督)。由于弱监督数据中存在噪声,传统的方法不能有效地提高性能。所以作者使用了一个三阶段的计算框架NEEDLE。弱标签可以分为三类:不准确(有噪声)、不精确(粗粒度)和不完全(有点没有标注)作者考虑了一三两种情况。
  在第一阶段,通过对大量目标域无标记数据进行域内连续预训练,将开放域预训练语言模型适应于目标域。在第二阶段,利用知识库将域内无标记数据转换为弱标记数据。然后,结合弱标签补全过程(不完全)和噪声感知丢失函数(不准确),对弱标签数据和强标签数据进行连续的预训练,有效地处理弱标签的“不完全性”和“噪声标记”。在第三阶段,对强标记数据再次微调模型。最后的微调阶段是模型拟合强标记数据的关键。
  实验表明可以通过迭代的方式进一步提高性能,而自训练的方式提升有限。
  07
  Towards Debiasing NLU Models from Unknown Biases
  领域:NLU
  会议:EMNLP 2020
  链接:
  是否推荐:推荐
  打卡内容:
  Debias NLU 中模型对 superficial correlation 的依赖,作者指出之前的方案依赖于对于 bias type 的 prior,例如 MNLI hypothesis 和 premise 的 overlapping,而很多数据集缺乏类似的分析因而无法获得 prior。作者经过实验观测到,对于 biased data,模型会学的很快,达到 100%的准确率,因而尝试利用一个辅助模型来作为样本是否是 bias 样本的 indicator,进而可以对 unknown biases 进行建模并且和之前的方案进行整合,主要包括:re-weighting, ensemble 以及 confidence regularization;此外,为了避免因为学到很多 bias 造成 effective training data size 的下降作者提了一个退火的机制,来慢慢消除 bias indicator 的作用,最后退化成普通的 MLE loss。作者在主流的 MNLI/HANS,FEVER 和 QQP/PAWS 上进行了测试,效果和之前的方案相比(因为他们已知 bias type)有好有坏,但都比不 debias 好,也验证了退火策略的有效性。进一步地分析指出,作者的方案在跨数据集的场景下表现的会更好,并且 debias 后模型在样本上的 loss 的gap 会变小(单个样本很大可能是有一些样本模型利用 bias 信息很轻松的就做对了,然而难的样本没学会)。
  08
  How do Vision Transformers Work?
  领域:预训练模型
  会议:ICLR 2022 Spotlight
  链接:
  是否推荐:推荐
  打卡内容:
  文章对比了 ViT 和 ResNet 以获得 ViT work 的一些 Insights:
  - ViT 能够 flatten loss landscape,从获得更好的泛化性能和 robustness,然而其也存在在更多负的 Hessian Eigen values,loss 是 non-convex 的,造成在小数据集上优化的困难;
  - ViT 对高频信号的强度会进行压缩而 CNN 会放大,二者分别类似一个低通滤波器和高通滤波器,进而导致在高频noise方面 ViT 表现的更好;
  - 作者认为多阶段网络是小模型的级联,因此考虑 CNN 和 MSA 级联构成 block,以对 stage output 进行 spatial smoothing,基于一个简单的building-up rule(不断替换 CNN 和 MSA,检查有没有更好的性能),实验发现这个提出的网络结构的效果更好并且更加鲁邦。
  09
  Learn From the Past: Experience Ensemble Knowledge Distillation
  领域:知识蒸馏
  会议:ARXIV
  链接:
  是否推荐:推荐
  打卡内容:
  这篇文章考虑利用 Teacher 训练过程中的 snapshot(so called learning experience),来提升 KD 的效果。具体的做法就是存下 teacher 训练过程中的 checkpoint,然后 ensemble 这些 checkpoint 的输出来指导 student model。作者探索了不同的方案,发现:
  - 并不是效果越好的 teacher ensemble 能够得到更好的 student,这个观察之前在 CV 里面已经有不少了,这是另外一个佐证(在 NLP 里面,我们 EMNLP 21 的工作 Dynamic KD 也在 BERT 上观测到了这一现象)
  - Distillation 过程中对 teacher 不同的权重,作者对比了一些 heuristic 的 linear strategy 和设计了一个根据 instance feature 的 attention 机制,结论是 dynamic attention 的效果会更好,尽管对应 ensemble 出来的 teacher 效果并不一定是最好的
  - snapshot 的数量,基本上是存的 checkpoint 越多效果越好,但因为同时需要 forward 多个 teacher model 会造成比较大的训练开销(这个问题挺好解决的,静态 dataset 的话,把 teacher logits 存下来就完事了)
  最后作者在 CIFAR 100 和 ImageNet 对比了目前的 sota,发现提出的方案能够取得更好的效果,但分析部分还是比较欠缺,对于 experience 的这个概念的探究还是不够深入。
  10
  Rethinking and Refining the Distinct Metric
  领域:文本生成
  会议:ACL 2022 Short
  链接:
  是否推荐:推荐
  打卡内容:
  Distinct metric 是文本生成中常用的一个指标,来衡量生成文本的 diversity,作者指出这个指标存在一个问题:当文本长度变长的时候,这个指标会急剧下降。作者分析的方法是控制 vocab 的 distribution(概率分布),然后增长句子的长度,发现 distinct 的下降,而这个和 distinct 本身想要 measure 的 word distribution 的 diversity 是矛盾的(因为 distribution 固定,那么应该和长度无关)。在一个方面,这会造成模型比较的不公平,因为可以很轻松地通过控制 length penalty 来控制 diversity。作者通过对分母进行修改,改为期望出现的总 token 的上界(因为无法估计不出现的 token),得到了一个更好的 distinct 指标。实验评估发现,这个指标有更好的长度不变性,并且在真实数据集上更能够体验不同方法的 gap 和 consistency,也和 human evaluation 有比较好的 correlation。
  11
  A Contrastive Framework for Neural Text Generation
  领域:文本生成
  会议:ARXIV
  链接:
  是否推荐:推荐
  打卡内容:
  旨在解决 generation 中生成重复 token 的问题,之前的 Top-k 和 Top-p 生成能够一定程度的缓解这个问题,但是会带来 inconsistency 的问题。作者认为重复的原因来自于 token uniformity,并且对 GPT 最后的 token representations 做了可视化,发现 token 之间的 cosine similarity 高于 0.95 ,进而会导致在不同时间步上产生重复的 token,而理想状态中 token 的表示应该有较大的区分度。作者因此提出了 SimCTG,利用对比学习来增强不同 token representation 之间的 cosine 距离,同时在解码阶段,也对 representation 上增加一个惩罚项,即和之前所有 token representation similarity 的最大值。作者在 wiki103 上和 MLE, Unlikelihood 做了对比,能够在发现在 coherence 更高的情况下,取得更好的抗重复,增强生成文本多样性的效果,在 Dialog Generation 上的人工测评也体现出比较明显的提升。
  12
  Should You Mask 15% in Masked Language Modeling
  领域:预训练模型
  会议:ARXIV 2022
  链接:
  是否推荐:推荐
  打卡内容:
  探究 Mask Language Modeling 中 Mask 比例的影响。作者首先是在预训练中发现 mask 掉 40% 的 token 能够带来更好的下游任务性能,并且 mask 掉 80% 也能保持大部分的性能。作者进一步地把 mask ratio 对性能的影响解耦成两部分:
  - corruption rate: 对上下文破坏的比例,这个比率越高,上下文破碎程度越高会使得预测任务会更加的困难;
  - prediction rate: 预测 mask token 的比例,这个比率越高,则模型接收到的训练信号越多;
  传统的 MLM 里面,这两个比率是都和 mask ratio 相等的,作者设计了 ablation study 来分别探究这二者的效果:
  - corruption rate > prediction rate: 例如,mask 掉 40% token,但是只预测其中 50% 的 mask token,即 prediction rate = 20%;
  - corruption rate
  实验以 mask rate = 40 % 为 baseline 为 baseline,发现 corruption rate 越高整体会降低效果,而 prediction rate 越低也会带来更差的效果,二者是一个 trade-off,更难的任务和更多的信号。作者也对不同 size 的model 进行了探究,发现大模型下游任务最好的性能出现在 mask rate 更大的位置,猜测是其能力更强,所以能够处理更难的任务并且利用好更多的信号。
  另外一个常用的 trick 是 80-10-10 ,即 mask token 有 80 % 的 token是 [MASK],10% 的概率是原来的 token,10 % 的概率是 random token,最初这个trick是用来缓解 [MASK] 引入的 inconsistency 的,但是作者的实验其实关注到 40% 的mask rate 并没有带来性能下降,说明这个 inconsistency 还是存疑的,作者探究了增加 same token prediction,random token 的比率,发现还是带来下降,因此作者提倡还是用 [MASK] 最原始的版本就可以了。
  最后作者探究了 mask 的策略,发现在高 mask 比率下,相比于 PMI 和 Span,uniform 的 mask 策略就能取得比较好的效果,作者的解释就是高 mask 比率实际上大概率会 mask 出类似 PMI、Span 的 mask,从而也能够使得模型的学习更加鲁棒。
  13
  Visually Grounded Reasoning across Languages and Cultures
  领域:多模态
  会议:EMNLP 2021
  链接:
  是否推荐:推荐
  打卡内容:
  ImageNet构建的方式是通过英语的WordNet去选择层次化的概念,然后根据概念再选择图像。后面的一些数据集,比如NLVR2,MSCOCO,VisualGenome都是通过这种层次结构构建的。有证据表明ImageNet数据的来源与内容都存在着bias,也有人曾为了纠正这种倾向提出干预数据,过滤、重新平衡一些类别,但若是原分布本就未能涵盖多语言多文化,这种方法便不足以解决这个问题。作者认为ImageNet中的主要问题是概念不普遍、概念过于特定于英语。Bias的来源有以下三个方面:1. 概念的选择;2.候选图像检索(检索到的图像不符合真实世界分布);3.图像过滤(完全取决于标注者,他们都是来自于欧美)。
  针对这三个问题,作者设计了一个新的数据集,让概念和图像的选择完全由母语人士驱动。构建数据集的第一步是:1.选择语言,数据集主要包含5种语言:印尼语、简体中文、斯瓦希里语、泰米尔语和土耳其语。这5种语言的类型(typologically)、语系(genealogically)、地理(geographically)上皆不同。同时,泰米尔语和土耳其语是低资源语言。2.选择普适性概念,有两个层次,第一个是chapter,比如Animal,对应的semantic field是bird和mammal。3.选择特定语言概念:针对每个semantic field,作者雇佣5个母语人士提供5-10特定概念的维基百科页面,比如针对中文的semantic field music instrument,提供的维基百科页面是关于古筝的。概念需要满足两个关键需求:在使用这种语言的人群中常见或有代表性的,最好是以物质形式存在且具体的。4.图像选择,标注者可以从本地网站,搜索引擎和维基百科等作为源针对每个概念拿到12张图片。5.描述标注,从图像集中随机选8张图像,随机组成4个图像对。每位标注者被要求写一个描述,此描述对于两个图像对为True,两个图像对为False。在最后的数据集中,一个数据点包含两张图像,一个描述,和一个True/False标签。
  关于图像分布的分析,作者使用在ImageNet上训练的ResNet50 分别对MaRVL图像以及从NLVR2采样的1K张随机图像进行特征提取,提取后使用UMAP将它们的嵌入分布可视化。结果发现,MaRVL的中文图像与来自NLVR2的英文图像有着极为不同的分布。同时,也对MaRVL中的印尼语和斯瓦希里语的图像分布进行了比较,结果表明在不同语言间也有着不同的分布。
  然后就是基于多种预训练模型(VL-BERT,UNITER等等)在MaRVL上的实验了,本文提出了两个跨语言的VL预训练模型的变种,mUNITER(通过mBERT进行初始化的UNITER)和xUNITER(XLM-R)。通过和NLVR2进行对比,模型在Zero-shot实验中效果下降明显,对于资源丰富的中文一样如此。同时加入一种设置,就是将不同语言翻译为英语,相比之下,模型有着不同程度的提升,但比起NLVR2依旧有着10%的差距。作者认为这种明显的下降是由于MaRVL有两个挑战:一个是cross-lingual transfer,另一个是out-of-distribution。作者又设计了一组控制实验,他们将MaRVL-ZH人工翻译成了英语,去除了机器翻译所带来的任何可能的混杂因子。和机器翻译相比,大部分模型都有1-2%的提升,因此翻译是很可靠的。那么,导致模型下降10%的便是那些OOD概念了。第二个实验是:从NLVR2测试集取样250个唯一的描述,将它们人工翻译成简体中文,记为NLVR2-ZH。mUNITER和xUNITER的准确率都下降了约16%,因此,这种gap可以归因于从英语到中文的跨语言迁移。第三组实验是,将NLVR2的训练集机器翻译为中文,并在MaRVL-ZH上测试,发现mUNITER和xUNITER的结果和Translate test实验时很接近,再一次说明 缺乏文化相关概念阻碍了泛化。
  14
  PILED: An Identify-and-Localize Framework for Few-Shot Event Detection
  领域:信息抽取
  会议:ARXIV
  链接:
  是否推荐:推荐 查看全部

  论文打卡第十七期(信息抽取,文本生成,多模态,知识蒸馏)
  关于我们
  我们
  是一个国内外多所高校AI方向学生共同组织的论文阅读打卡小组。我们定期组织论文阅读活动,期望大家能够在自己需要的情况下,阅读论文并分享自己的阅读笔记,既可以督促提升自己,也可以分享利于其他同学。我们期望我们这个活动能够成为一个帮助同学们督促自己也造福他人的平台。
  文中所有内容均为各位同学的个人阅读笔记。不保证笔记内容的准确性、全面性。内容仅供参考。
  
  本期目录
  领域
  1
  Are Transformers More Robust Than CNNs
  神经网络
  2
  Dynamic Modality Interaction Modeling for Image-Text Retrieval
  多模态检索
  3
  Multi-Modal Mixup for Robust Fine-tuning
  多模态
  表示学习
  4
  Hierarchical Modular Event Argument Extraction
  信息抽取
  5
  Generating Disentangled Arguments With Prompts: A Simple Event Extraction Framework That Works
  信息抽取
  6
  Named Entity Recognition with Small Strongly Labeled and Large Weakly Labeled Data
  命名实体识别
  7
  Towards Debiasing NLU Models from Unknown Biases
  NLU
  8
  How do Vision Transformers Work?
  预训练模型
  9
  Learn From the Past: Experience Ensemble Knowledge Distillation
  知识蒸馏
  10
  Rethinking and Refining the Distinct Metric
  文本生成
  11
  A Contrastive Framework for Neural Text Generation
  文本生成
  12
  Should You Mask 15% in Masked Language Modeling?
  预训练模型
  13
  Visually Grounded Reasoning across Languages and Cultures
  多模态
  14
  PILED: An Identify-and-Localize Framework for Few-Shot Event Detection
  信息抽取
  15
  TEXT2EVENT: Controllable Sequence-to-Structure Generation for End-to-end Event Extraction
  信息抽取
  01
  Are Transformers More Robust Than CNNs
  领域:神经网络
  会议:NeurIPS 2021
  链接:
  关键词:Transformer, CNN
  是否推荐:推荐
  打卡内容:
  1.问题:最近的工作认为Transformer比卷积神经网络(CNN)更强大。然而,令人惊讶的是,我们发现这些结论来自不公平的实验环境,其中Transformer和CNN在不同的尺度上进行比较,并应用不同的训练框架。
  2.分析:a)如果CNN正确地采用Transformer的训练方式,那么在防御对抗性攻击方面,它们可以很容易地像Transformer一样强大。b)Transformer的泛化能力得益于self-attention架构,而非在大规模数据集上进行预训练。
  评价:怀疑的态度和实验分析很有趣。
  02
  Dynamic Modality Interaction Modeling for Image-Text Retrieval
  领域:多模态检索
  会议:SIGIR 2021
  链接:
  是否推荐:推荐
  打卡内容:
  1.问题:现有的图像文本检索方法在交互模式的设计上严重依赖专家经验和经验反馈,因此缺乏灵活性。
  2.方法:我们开发了一种基于路由机制的新型模态交互建模网络,这是第一个面向图像文本检索的统一动态多模态交互框架。特别是,我们首先设计四种类型的单元作为基本单元,探索不同层次的模态交互,然后以密集策略将它们连接起来,构建一个路由空间。为了赋予该模型路径决策的能力,我们在每个单元中集成了一个动态路由器用于模式探索。由于路由器以输入为条件,我们的模型可以动态地学习不同数据的不同激活路径。
  评价:实验很丰富。case study很直观、有说服力。图画得很好看。
  03
  Multi-Modal Mixup for Robust Fine-tuning
  领域:多模态表示学习
  会议:ARXIV 2022
  链接:
  是否推荐:推荐
  打卡内容:
  本文探究了CLIP模型给出的文本和图片表示,发现这两个模态的表示分得很开,且中间有大片未被填充的空间。
  作者借鉴了ICML20的一篇文章,利用其中的alignment和uniformity指标进一步分析了CLIP的多模态特征空间,发现构成正例的两个样本在特征空间中不够近(alignment小),同时所有数据的特征分布不够均匀(uniformity小)。这样的特征分布是不够鲁棒的,会降低模型在下游任务上的表现。
  为此,作者提出了multi-modal mixup技术,通过混合两个模态的特征得到更困难的负例,再进行对比学习。具体的mixup技术包括m^2-mix(图片混文本作为图片的负例)、V-mix(文本混文本作为图片的负例)、VL-mix(文本混文本、图片混图片,然后互为负例)
  实验结果表明这种方法在保留多模态结构关系的同时,提高了模型的alignment和uniformity指标,进而提高了模型在下游retrieval任务上的表现
  04
  Hierarchical Modular Event Argument Extraction
  领域:信息抽取
  会议:EMNLP 2019
  链接:
  关键词:分层网络
  是否推荐:推荐
  打卡内容:
  本文是事件要素抽取的工作,主要是为概念层次(concept hierarchy)的每个基本单元设计了一个神经网络模块,然后使用逻辑操作,将相关的单元模块分层地组成一个面向角色的模块网络(modular network),对特定的argument role进行分类。
  为每个概念设置了一个NMN,并将其组成了一个面向角色的模块网络,以预测每个实体的元素角色:首先,对于每个上级概念,有一个上级概念模块(SCM)来突出和概念有关的上下文信息;然后,对于每个元素角色,使用针对特定角色的逻辑模块整合和其相对应的SCMs,以得到统一的高层次的模块;最终,使用元素角色分类器,预测实体是否扮演了给定的元素角色。主要的做法就是将实体的信息融合到候选的要素片段中,增强分类的效果。
  实验在ACE 2005, TAC KBP 2016这两个数据集上做了EAE的测试,没有全部达到SOTA,但是分层网络确实提升了模型的效果。
  05
  Generating Disentangled Arguments With Prompts: A Simple Event Extraction Framework That Works
  领域:信息抽取
  会议:ICASSP 2022
  链接:
  是否推荐:推荐
  打卡内容:
  应该是最早在提示学习上做事件抽取的论文了。作者分析了事件抽取的三种主流方式:序列标注、MRC和生成,又对生成范式的两瓶。编码部分作者加入了提示(无需手工设计),解码部分沿用了TEXT2EVENT的方法。
  其中一个创新点是减少了触发词对参数抽取的影响,作者认为有些触发词对参数抽取没有帮助,只需要事件类型就可以找到模板并且进行参数抽取,还可以提高效率。但是我认为有两点问题。首先,作者依然需要pipeline式地进行简化的事件检测,还是执行2个模型,时间效率没有提升,甚至3个模型提高了计算量。其次,目前大家似乎都是使用Ground Truth的触发词和事件类型做参数抽取,所以理论上的性能没有提升。(但是实际生产中,没有GT的事件检测标注,这种方式可能些许减少误差传播)。
  另一个创新点就是引入了提示学习,其实文章的模板过于简单,取得这样的效果已经很不容易了。如果进行模板的设计,可能可以取得更好的结果。
  06
  Named Entity Recognition with Small Strongly Labeled and Large Weakly Labeled Data
  领域:命名实体识别
  会议:ACL 2021
  链接:
  是否推荐:推荐
  打卡内容:
  现有的工作只是进行弱监督学习,而在实际场景中,同时存在强标注数据和弱标注数据(半监督)。由于弱监督数据中存在噪声,传统的方法不能有效地提高性能。所以作者使用了一个三阶段的计算框架NEEDLE。弱标签可以分为三类:不准确(有噪声)、不精确(粗粒度)和不完全(有点没有标注)作者考虑了一三两种情况。
  在第一阶段,通过对大量目标域无标记数据进行域内连续预训练,将开放域预训练语言模型适应于目标域。在第二阶段,利用知识库将域内无标记数据转换为弱标记数据。然后,结合弱标签补全过程(不完全)和噪声感知丢失函数(不准确),对弱标签数据和强标签数据进行连续的预训练,有效地处理弱标签的“不完全性”和“噪声标记”。在第三阶段,对强标记数据再次微调模型。最后的微调阶段是模型拟合强标记数据的关键。
  实验表明可以通过迭代的方式进一步提高性能,而自训练的方式提升有限。
  07
  Towards Debiasing NLU Models from Unknown Biases
  领域:NLU
  会议:EMNLP 2020
  链接:
  是否推荐:推荐
  打卡内容:
  Debias NLU 中模型对 superficial correlation 的依赖,作者指出之前的方案依赖于对于 bias type 的 prior,例如 MNLI hypothesis 和 premise 的 overlapping,而很多数据集缺乏类似的分析因而无法获得 prior。作者经过实验观测到,对于 biased data,模型会学的很快,达到 100%的准确率,因而尝试利用一个辅助模型来作为样本是否是 bias 样本的 indicator,进而可以对 unknown biases 进行建模并且和之前的方案进行整合,主要包括:re-weighting, ensemble 以及 confidence regularization;此外,为了避免因为学到很多 bias 造成 effective training data size 的下降作者提了一个退火的机制,来慢慢消除 bias indicator 的作用,最后退化成普通的 MLE loss。作者在主流的 MNLI/HANS,FEVER 和 QQP/PAWS 上进行了测试,效果和之前的方案相比(因为他们已知 bias type)有好有坏,但都比不 debias 好,也验证了退火策略的有效性。进一步地分析指出,作者的方案在跨数据集的场景下表现的会更好,并且 debias 后模型在样本上的 loss 的gap 会变小(单个样本很大可能是有一些样本模型利用 bias 信息很轻松的就做对了,然而难的样本没学会)。
  08
  How do Vision Transformers Work?
  领域:预训练模型
  会议:ICLR 2022 Spotlight
  链接:
  是否推荐:推荐
  打卡内容:
  文章对比了 ViT 和 ResNet 以获得 ViT work 的一些 Insights:
  - ViT 能够 flatten loss landscape,从获得更好的泛化性能和 robustness,然而其也存在在更多负的 Hessian Eigen values,loss 是 non-convex 的,造成在小数据集上优化的困难;
  - ViT 对高频信号的强度会进行压缩而 CNN 会放大,二者分别类似一个低通滤波器和高通滤波器,进而导致在高频noise方面 ViT 表现的更好;
  - 作者认为多阶段网络是小模型的级联,因此考虑 CNN 和 MSA 级联构成 block,以对 stage output 进行 spatial smoothing,基于一个简单的building-up rule(不断替换 CNN 和 MSA,检查有没有更好的性能),实验发现这个提出的网络结构的效果更好并且更加鲁邦。
  09
  Learn From the Past: Experience Ensemble Knowledge Distillation
  领域:知识蒸馏
  会议:ARXIV
  链接:
  是否推荐:推荐
  打卡内容:
  这篇文章考虑利用 Teacher 训练过程中的 snapshot(so called learning experience),来提升 KD 的效果。具体的做法就是存下 teacher 训练过程中的 checkpoint,然后 ensemble 这些 checkpoint 的输出来指导 student model。作者探索了不同的方案,发现:
  - 并不是效果越好的 teacher ensemble 能够得到更好的 student,这个观察之前在 CV 里面已经有不少了,这是另外一个佐证(在 NLP 里面,我们 EMNLP 21 的工作 Dynamic KD 也在 BERT 上观测到了这一现象)
  - Distillation 过程中对 teacher 不同的权重,作者对比了一些 heuristic 的 linear strategy 和设计了一个根据 instance feature 的 attention 机制,结论是 dynamic attention 的效果会更好,尽管对应 ensemble 出来的 teacher 效果并不一定是最好的
  - snapshot 的数量,基本上是存的 checkpoint 越多效果越好,但因为同时需要 forward 多个 teacher model 会造成比较大的训练开销(这个问题挺好解决的,静态 dataset 的话,把 teacher logits 存下来就完事了)
  最后作者在 CIFAR 100 和 ImageNet 对比了目前的 sota,发现提出的方案能够取得更好的效果,但分析部分还是比较欠缺,对于 experience 的这个概念的探究还是不够深入。
  10
  Rethinking and Refining the Distinct Metric
  领域:文本生成
  会议:ACL 2022 Short
  链接:
  是否推荐:推荐
  打卡内容:
  Distinct metric 是文本生成中常用的一个指标,来衡量生成文本的 diversity,作者指出这个指标存在一个问题:当文本长度变长的时候,这个指标会急剧下降。作者分析的方法是控制 vocab 的 distribution(概率分布),然后增长句子的长度,发现 distinct 的下降,而这个和 distinct 本身想要 measure 的 word distribution 的 diversity 是矛盾的(因为 distribution 固定,那么应该和长度无关)。在一个方面,这会造成模型比较的不公平,因为可以很轻松地通过控制 length penalty 来控制 diversity。作者通过对分母进行修改,改为期望出现的总 token 的上界(因为无法估计不出现的 token),得到了一个更好的 distinct 指标。实验评估发现,这个指标有更好的长度不变性,并且在真实数据集上更能够体验不同方法的 gap 和 consistency,也和 human evaluation 有比较好的 correlation。
  11
  A Contrastive Framework for Neural Text Generation
  领域:文本生成
  会议:ARXIV
  链接:
  是否推荐:推荐
  打卡内容:
  旨在解决 generation 中生成重复 token 的问题,之前的 Top-k 和 Top-p 生成能够一定程度的缓解这个问题,但是会带来 inconsistency 的问题。作者认为重复的原因来自于 token uniformity,并且对 GPT 最后的 token representations 做了可视化,发现 token 之间的 cosine similarity 高于 0.95 ,进而会导致在不同时间步上产生重复的 token,而理想状态中 token 的表示应该有较大的区分度。作者因此提出了 SimCTG,利用对比学习来增强不同 token representation 之间的 cosine 距离,同时在解码阶段,也对 representation 上增加一个惩罚项,即和之前所有 token representation similarity 的最大值。作者在 wiki103 上和 MLE, Unlikelihood 做了对比,能够在发现在 coherence 更高的情况下,取得更好的抗重复,增强生成文本多样性的效果,在 Dialog Generation 上的人工测评也体现出比较明显的提升。
  12
  Should You Mask 15% in Masked Language Modeling
  领域:预训练模型
  会议:ARXIV 2022
  链接:
  是否推荐:推荐
  打卡内容:
  探究 Mask Language Modeling 中 Mask 比例的影响。作者首先是在预训练中发现 mask 掉 40% 的 token 能够带来更好的下游任务性能,并且 mask 掉 80% 也能保持大部分的性能。作者进一步地把 mask ratio 对性能的影响解耦成两部分:
  - corruption rate: 对上下文破坏的比例,这个比率越高,上下文破碎程度越高会使得预测任务会更加的困难;
  - prediction rate: 预测 mask token 的比例,这个比率越高,则模型接收到的训练信号越多;
  传统的 MLM 里面,这两个比率是都和 mask ratio 相等的,作者设计了 ablation study 来分别探究这二者的效果:
  - corruption rate > prediction rate: 例如,mask 掉 40% token,但是只预测其中 50% 的 mask token,即 prediction rate = 20%;
  - corruption rate
  实验以 mask rate = 40 % 为 baseline 为 baseline,发现 corruption rate 越高整体会降低效果,而 prediction rate 越低也会带来更差的效果,二者是一个 trade-off,更难的任务和更多的信号。作者也对不同 size 的model 进行了探究,发现大模型下游任务最好的性能出现在 mask rate 更大的位置,猜测是其能力更强,所以能够处理更难的任务并且利用好更多的信号。
  另外一个常用的 trick 是 80-10-10 ,即 mask token 有 80 % 的 token是 [MASK],10% 的概率是原来的 token,10 % 的概率是 random token,最初这个trick是用来缓解 [MASK] 引入的 inconsistency 的,但是作者的实验其实关注到 40% 的mask rate 并没有带来性能下降,说明这个 inconsistency 还是存疑的,作者探究了增加 same token prediction,random token 的比率,发现还是带来下降,因此作者提倡还是用 [MASK] 最原始的版本就可以了。
  最后作者探究了 mask 的策略,发现在高 mask 比率下,相比于 PMI 和 Span,uniform 的 mask 策略就能取得比较好的效果,作者的解释就是高 mask 比率实际上大概率会 mask 出类似 PMI、Span 的 mask,从而也能够使得模型的学习更加鲁棒。
  13
  Visually Grounded Reasoning across Languages and Cultures
  领域:多模态
  会议:EMNLP 2021
  链接:
  是否推荐:推荐
  打卡内容:
  ImageNet构建的方式是通过英语的WordNet去选择层次化的概念,然后根据概念再选择图像。后面的一些数据集,比如NLVR2,MSCOCO,VisualGenome都是通过这种层次结构构建的。有证据表明ImageNet数据的来源与内容都存在着bias,也有人曾为了纠正这种倾向提出干预数据,过滤、重新平衡一些类别,但若是原分布本就未能涵盖多语言多文化,这种方法便不足以解决这个问题。作者认为ImageNet中的主要问题是概念不普遍、概念过于特定于英语。Bias的来源有以下三个方面:1. 概念的选择;2.候选图像检索(检索到的图像不符合真实世界分布);3.图像过滤(完全取决于标注者,他们都是来自于欧美)。
  针对这三个问题,作者设计了一个新的数据集,让概念和图像的选择完全由母语人士驱动。构建数据集的第一步是:1.选择语言,数据集主要包含5种语言:印尼语、简体中文、斯瓦希里语、泰米尔语和土耳其语。这5种语言的类型(typologically)、语系(genealogically)、地理(geographically)上皆不同。同时,泰米尔语和土耳其语是低资源语言。2.选择普适性概念,有两个层次,第一个是chapter,比如Animal,对应的semantic field是bird和mammal。3.选择特定语言概念:针对每个semantic field,作者雇佣5个母语人士提供5-10特定概念的维基百科页面,比如针对中文的semantic field music instrument,提供的维基百科页面是关于古筝的。概念需要满足两个关键需求:在使用这种语言的人群中常见或有代表性的,最好是以物质形式存在且具体的。4.图像选择,标注者可以从本地网站,搜索引擎和维基百科等作为源针对每个概念拿到12张图片。5.描述标注,从图像集中随机选8张图像,随机组成4个图像对。每位标注者被要求写一个描述,此描述对于两个图像对为True,两个图像对为False。在最后的数据集中,一个数据点包含两张图像,一个描述,和一个True/False标签。
  关于图像分布的分析,作者使用在ImageNet上训练的ResNet50 分别对MaRVL图像以及从NLVR2采样的1K张随机图像进行特征提取,提取后使用UMAP将它们的嵌入分布可视化。结果发现,MaRVL的中文图像与来自NLVR2的英文图像有着极为不同的分布。同时,也对MaRVL中的印尼语和斯瓦希里语的图像分布进行了比较,结果表明在不同语言间也有着不同的分布。
  然后就是基于多种预训练模型(VL-BERT,UNITER等等)在MaRVL上的实验了,本文提出了两个跨语言的VL预训练模型的变种,mUNITER(通过mBERT进行初始化的UNITER)和xUNITER(XLM-R)。通过和NLVR2进行对比,模型在Zero-shot实验中效果下降明显,对于资源丰富的中文一样如此。同时加入一种设置,就是将不同语言翻译为英语,相比之下,模型有着不同程度的提升,但比起NLVR2依旧有着10%的差距。作者认为这种明显的下降是由于MaRVL有两个挑战:一个是cross-lingual transfer,另一个是out-of-distribution。作者又设计了一组控制实验,他们将MaRVL-ZH人工翻译成了英语,去除了机器翻译所带来的任何可能的混杂因子。和机器翻译相比,大部分模型都有1-2%的提升,因此翻译是很可靠的。那么,导致模型下降10%的便是那些OOD概念了。第二个实验是:从NLVR2测试集取样250个唯一的描述,将它们人工翻译成简体中文,记为NLVR2-ZH。mUNITER和xUNITER的准确率都下降了约16%,因此,这种gap可以归因于从英语到中文的跨语言迁移。第三组实验是,将NLVR2的训练集机器翻译为中文,并在MaRVL-ZH上测试,发现mUNITER和xUNITER的结果和Translate test实验时很接近,再一次说明 缺乏文化相关概念阻碍了泛化。
  14
  PILED: An Identify-and-Localize Framework for Few-Shot Event Detection
  领域:信息抽取
  会议:ARXIV
  链接:
  是否推荐:推荐

如何做网站SEO站内优化(快速实现网站排名)的方法有哪些

网站优化优采云 发表了文章 • 0 个评论 • 74 次浏览 • 2022-04-29 17:33 • 来自相关话题

  如何做网站SEO站内优化(快速实现网站排名)的方法有哪些
  
  
  在一些优化群里面,常常会看到一些才做优化的人说。百度优化排名不就是发发外链么。要知道现在的优化早已经不是五六年前的优化了,百度的算法一次次更新,对网站的要求越来越高。现在的百度更喜欢网站漂亮的,对用户友好的。无论是网站的打开速度、还是网站url的长度,以及文章的字体大小、间距,都是百度给予权重的考核范围。
  一、网站打开速度!网站打开速度!要快!
  如今这个快节奏的社会,大量的信息冲击。谁会愿意等待一个5~6秒都不出一个字的网站?换做是你,肯定都鬼火冒,直接关闭页面,从此以后再也不点那个站了。所以网站打开的速度是灰常灰常重要的,打开的速度越快,用户满意度就高。对于蜘蛛也是一个道理。所以对于速度方面,小编有以下几小点建议:
  把网站页面的代码能精简就精简、大片的注释代码也一样,直接删除。
  css放页头、js放页尾。
  搞个CDN加速,腾讯、阿里、百度都有,他们也有很详细的图文教程您一看就懂。
  服务器宽带升级
  页面做缓存
  网站页面都做成纯静态化
  
  二、着陆页的内容一定要本着解决用户问题的目的写
  首先,如果我们能够找出这些重复网页并从数据库中去掉,就能够节省部分存储空间,进而可以利用这部分空间存放更多的有效网页内容,同时也提高了搜索引擎的搜索质量和用户体验。
  其次,如果我们能够通过对以往收集信息的分析,预先发现重复网页,在今后的网页收集过程中就可以避开这些网页,从而提高网页的收集速度。有研究表明重复网页随着时间不发生太大变化,所以这种从重复页面集合中选择部分页面进行索引是有效的。
  三、增加权威感,提升品牌,UI,UX
  另外,如果某个网页的镜像度较高,往往是其内容比较受欢迎的一种间接体现,也就预示着该网页相对重要,在收集网页时应赋予它较高的优先级,而当搜索引擎系统在响应用户的检索请求并对输出结果排序时,应该赋了它较高的权值。
  从另外一个角度看,如果用户点击了一个死链接,那么可以将用户引导到一个内容相同页面,这样可以有效地增加用户的检索体验。因而近似重复网页的及时又有利于改善搜索引擎系统的服务质量。
  
  四、弹窗、反人类的东西页面上不要有
  这个就不多说了,伙伴些去点下医疗站,就知道应该如何做好这一块的优化。 查看全部

  如何做网站SEO站内优化(快速实现网站排名)的方法有哪些
  
  
  在一些优化群里面,常常会看到一些才做优化的人说。百度优化排名不就是发发外链么。要知道现在的优化早已经不是五六年前的优化了,百度的算法一次次更新,对网站的要求越来越高。现在的百度更喜欢网站漂亮的,对用户友好的。无论是网站的打开速度、还是网站url的长度,以及文章的字体大小、间距,都是百度给予权重的考核范围。
  一、网站打开速度!网站打开速度!要快!
  如今这个快节奏的社会,大量的信息冲击。谁会愿意等待一个5~6秒都不出一个字的网站?换做是你,肯定都鬼火冒,直接关闭页面,从此以后再也不点那个站了。所以网站打开的速度是灰常灰常重要的,打开的速度越快,用户满意度就高。对于蜘蛛也是一个道理。所以对于速度方面,小编有以下几小点建议:
  把网站页面的代码能精简就精简、大片的注释代码也一样,直接删除。
  css放页头、js放页尾。
  搞个CDN加速,腾讯、阿里、百度都有,他们也有很详细的图文教程您一看就懂。
  服务器宽带升级
  页面做缓存
  网站页面都做成纯静态化
  
  二、着陆页的内容一定要本着解决用户问题的目的写
  首先,如果我们能够找出这些重复网页并从数据库中去掉,就能够节省部分存储空间,进而可以利用这部分空间存放更多的有效网页内容,同时也提高了搜索引擎的搜索质量和用户体验。
  其次,如果我们能够通过对以往收集信息的分析,预先发现重复网页,在今后的网页收集过程中就可以避开这些网页,从而提高网页的收集速度。有研究表明重复网页随着时间不发生太大变化,所以这种从重复页面集合中选择部分页面进行索引是有效的。
  三、增加权威感,提升品牌,UI,UX
  另外,如果某个网页的镜像度较高,往往是其内容比较受欢迎的一种间接体现,也就预示着该网页相对重要,在收集网页时应赋予它较高的优先级,而当搜索引擎系统在响应用户的检索请求并对输出结果排序时,应该赋了它较高的权值。
  从另外一个角度看,如果用户点击了一个死链接,那么可以将用户引导到一个内容相同页面,这样可以有效地增加用户的检索体验。因而近似重复网页的及时又有利于改善搜索引擎系统的服务质量。
  
  四、弹窗、反人类的东西页面上不要有
  这个就不多说了,伙伴些去点下医疗站,就知道应该如何做好这一块的优化。

搜索引擎进行信息检索的优化策略方法(只用一种方法实现搜索引擎进行信息检索的优化策略方法)

网站优化优采云 发表了文章 • 0 个评论 • 62 次浏览 • 2022-04-20 10:11 • 来自相关话题

  搜索引擎进行信息检索的优化策略方法(只用一种方法实现搜索引擎进行信息检索的优化策略方法)
  搜索引擎进行信息检索的优化策略方法有三种,分别是基于内容相似性的算法、基于链接的算法和基于索引的算法。
  一、基于内容相似性的算法内容相似性是指如果有一个网站服务器的所有页面都与另一个网站服务器的相同页面进行相似性的排序,就可以得到相似性排序。基于内容相似性的推荐算法通常在移动端十分常见,可以嵌入到推荐的第三方平台中并提供给开发者使用。谷歌为两家公司lazada和googleplay提供推荐,亚马逊也与谷歌合作提供推荐,facebook也与谷歌合作提供推荐。
  二、基于链接的算法基于链接的算法是通过链接查询的方式实现,在查询列表中查找特定的目标进行排序。在搜索中,采用链接查询并不新鲜,目前的技术来说,两个url之间的一个或多个连接是不存在的,但在一些特定需求场景下是可以连接到特定资源的,比如信息查询。目前还存在两种常见的链接查询模式:applestore+itunesstore+applestore,会有一个特定的连接进行一定的排序;applewatch的apple+lift,会有一个特定的连接进行一定的排序;。
  三、基于索引的算法索引排序是通过人工的手段寻找一系列与某一页面相似的url,并对其进行分类,或者在sortby上做分类,由此进行排序。综上所述,没有研究报告中提到的只用一种方法实现app质量管理,现在的技术来说这两种方法都不是不可或缺的。谢谢邀请!我是孔令华,从事移动互联网与信息技术服务。微信号:you-gong-zhuo我主要从事互联网金融、互联网医疗、互联网电商、移动营销、微信开发、seo优化、新媒体运营。 查看全部

  搜索引擎进行信息检索的优化策略方法(只用一种方法实现搜索引擎进行信息检索的优化策略方法)
  搜索引擎进行信息检索的优化策略方法有三种,分别是基于内容相似性的算法、基于链接的算法和基于索引的算法。
  一、基于内容相似性的算法内容相似性是指如果有一个网站服务器的所有页面都与另一个网站服务器的相同页面进行相似性的排序,就可以得到相似性排序。基于内容相似性的推荐算法通常在移动端十分常见,可以嵌入到推荐的第三方平台中并提供给开发者使用。谷歌为两家公司lazada和googleplay提供推荐,亚马逊也与谷歌合作提供推荐,facebook也与谷歌合作提供推荐。
  二、基于链接的算法基于链接的算法是通过链接查询的方式实现,在查询列表中查找特定的目标进行排序。在搜索中,采用链接查询并不新鲜,目前的技术来说,两个url之间的一个或多个连接是不存在的,但在一些特定需求场景下是可以连接到特定资源的,比如信息查询。目前还存在两种常见的链接查询模式:applestore+itunesstore+applestore,会有一个特定的连接进行一定的排序;applewatch的apple+lift,会有一个特定的连接进行一定的排序;。
  三、基于索引的算法索引排序是通过人工的手段寻找一系列与某一页面相似的url,并对其进行分类,或者在sortby上做分类,由此进行排序。综上所述,没有研究报告中提到的只用一种方法实现app质量管理,现在的技术来说这两种方法都不是不可或缺的。谢谢邀请!我是孔令华,从事移动互联网与信息技术服务。微信号:you-gong-zhuo我主要从事互联网金融、互联网医疗、互联网电商、移动营销、微信开发、seo优化、新媒体运营。

搜索引擎进行信息检索的优化策略方法(信息组织的理论基础、逻辑学、知识分类及模式)

网站优化优采云 发表了文章 • 0 个评论 • 169 次浏览 • 2022-04-19 03:08 • 来自相关话题

  搜索引擎进行信息检索的优化策略方法(信息组织的理论基础、逻辑学、知识分类及模式)
  1.1 信息组织的理论基础1.1.1 信息的定义 从客观的角度看,信息是对万物存在方式和运动规律的表征. 从主观上看,信息是指人们对世界的认识所形成的与人类智能活动密切相关的各种知识、学习和信息。1.1.2信息的分类和划分:内容、生产顺序和加工深度、存在形式、流通方式和传播范围、载体形式等。1.< @1.3 信息通用性、存储性、传递性、共享性、开发性、增值性的特点1.
  是用于提供有关资源的信息的结构化数据。5、其他模式:数据库、超维组织法、FTP信息组织法、基于多媒体的信息组织法、自然语言法、分类-主题法、WENSOM 1.2网络信息资源组织1.@ >2.4网络信息资源组织法1、文档法2、超文本链接法3、搜索引擎法4、目录引导法5、数据库法6、首页方法1.3网络信息检索工具1.3.1网络信息检索方法1、基于超文本的信息查询超文本:是 通过超链接组织来自不同空间的信息的网络文本2、基于目录的信息查询3、基于搜索引擎的信息查询1.3 网络信息检索工具1.< @3.2 搜索引擎简介1、搜索引擎的定义和任务定义:利用网络自动搜索技术,对互联网上的各种资源进行索引,为搜索者提供搜索服务系统。任务:对网络信息进行索引和存储,并为用户提供检索2、搜索引擎的体系结构包括三个子系统:信息采集、信息处理和信息查询3、搜索引擎分类第二个工作一、什么情况下是逻辑“AND”,逻辑“OR” 和用于概念组合的逻辑“NOT”?二、获取网络信息的方法有哪些?三、网络信息资源的组织方式有哪些?四、 简单描述一下搜索引擎的定义和任务?1.3 网络信息检索工具1.3.
  b 大写和小写字母:许多引擎不区分大小写,但有些是。在使用它之前,您应该清楚地知道它。在搜索人名、公司名、产品名或其他专有名词时,最好使用大写字母进行查询。1.3 网络信息检索工具1.3.4 常用中文搜索引擎介绍1、百度2、雅虎3、中文(香港) Google.hk 4、天网搜索等。. . . . . 1.3网络信息检索工具1.3.5百度()1、技术特点:⑴、采用世界独有的超链分析技术⑵、具有中文自然特点互联网优势⑶,为中国用户量身定做⑷,提供更智能的检索功能< @2、 一些高级检索语法:⑴、布尔逻辑:+(和)-(或)| (不)⑵、限制技术:a、“site:”用在特定URL前面,用于搜索特定的网站、网站频道或网页,“如:神舟站点:”;湾。在一个或多个关键词前加“,”表示只搜索网页标题中收录这些关键词的网页,“如:、神舟+8号”1.@ >3 网络信息检索工具 c.将搜索范围限定为网页中的标题-intitle: 使用方式是使用“intitle:”来获取查询内容中最关键的部分。例如,要查找神舟八号的发射,可以这样查询: 发射标题:神舟八号。注意 intitle: 和下面的 < 之间不能有空格
  d。精确匹配——双引号和标题号:在查询词中添加双引号可以防止拆分词在结果中显示。如:《六盘水师范学院》。书名是百度独有的搜索技术,其他搜索提醒会忽略,但在百度上可以搜索到。添加书名号有两个作用,一是显示,如书名;另一个是标题号展开的单词不容易被拆分。如:“手机”。e. 要求搜索结果不收录特定查询词:使用减号语法删除所有收录特定 关键词 的网页。如:神舟八号1.3网络信息检索工具3、扩展百度1. 查看全部

  搜索引擎进行信息检索的优化策略方法(信息组织的理论基础、逻辑学、知识分类及模式)
  1.1 信息组织的理论基础1.1.1 信息的定义 从客观的角度看,信息是对万物存在方式和运动规律的表征. 从主观上看,信息是指人们对世界的认识所形成的与人类智能活动密切相关的各种知识、学习和信息。1.1.2信息的分类和划分:内容、生产顺序和加工深度、存在形式、流通方式和传播范围、载体形式等。1.< @1.3 信息通用性、存储性、传递性、共享性、开发性、增值性的特点1.
  是用于提供有关资源的信息的结构化数据。5、其他模式:数据库、超维组织法、FTP信息组织法、基于多媒体的信息组织法、自然语言法、分类-主题法、WENSOM 1.2网络信息资源组织1.@ >2.4网络信息资源组织法1、文档法2、超文本链接法3、搜索引擎法4、目录引导法5、数据库法6、首页方法1.3网络信息检索工具1.3.1网络信息检索方法1、基于超文本的信息查询超文本:是 通过超链接组织来自不同空间的信息的网络文本2、基于目录的信息查询3、基于搜索引擎的信息查询1.3 网络信息检索工具1.< @3.2 搜索引擎简介1、搜索引擎的定义和任务定义:利用网络自动搜索技术,对互联网上的各种资源进行索引,为搜索者提供搜索服务系统。任务:对网络信息进行索引和存储,并为用户提供检索2、搜索引擎的体系结构包括三个子系统:信息采集、信息处理和信息查询3、搜索引擎分类第二个工作一、什么情况下是逻辑“AND”,逻辑“OR” 和用于概念组合的逻辑“NOT”?二、获取网络信息的方法有哪些?三、网络信息资源的组织方式有哪些?四、 简单描述一下搜索引擎的定义和任务?1.3 网络信息检索工具1.3.
  b 大写和小写字母:许多引擎不区分大小写,但有些是。在使用它之前,您应该清楚地知道它。在搜索人名、公司名、产品名或其他专有名词时,最好使用大写字母进行查询。1.3 网络信息检索工具1.3.4 常用中文搜索引擎介绍1、百度2、雅虎3、中文(香港) Google.hk 4、天网搜索等。. . . . . 1.3网络信息检索工具1.3.5百度()1、技术特点:⑴、采用世界独有的超链分析技术⑵、具有中文自然特点互联网优势⑶,为中国用户量身定做⑷,提供更智能的检索功能< @2、 一些高级检索语法:⑴、布尔逻辑:+(和)-(或)| (不)⑵、限制技术:a、“site:”用在特定URL前面,用于搜索特定的网站、网站频道或网页,“如:神舟站点:”;湾。在一个或多个关键词前加“,”表示只搜索网页标题中收录这些关键词的网页,“如:、神舟+8号”1.@ >3 网络信息检索工具 c.将搜索范围限定为网页中的标题-intitle: 使用方式是使用“intitle:”来获取查询内容中最关键的部分。例如,要查找神舟八号的发射,可以这样查询: 发射标题:神舟八号。注意 intitle: 和下面的 < 之间不能有空格
  d。精确匹配——双引号和标题号:在查询词中添加双引号可以防止拆分词在结果中显示。如:《六盘水师范学院》。书名是百度独有的搜索技术,其他搜索提醒会忽略,但在百度上可以搜索到。添加书名号有两个作用,一是显示,如书名;另一个是标题号展开的单词不容易被拆分。如:“手机”。e. 要求搜索结果不收录特定查询词:使用减号语法删除所有收录特定 关键词 的网页。如:神舟八号1.3网络信息检索工具3、扩展百度1.

搜索引擎进行信息检索的优化策略方法(如何快速搭建起一个高质量站内搜索引擎呢?(组图))

网站优化优采云 发表了文章 • 0 个评论 • 249 次浏览 • 2022-04-19 00:07 • 来自相关话题

  搜索引擎进行信息检索的优化策略方法(如何快速搭建起一个高质量站内搜索引擎呢?(组图))
  一、网站搜索的意义
  对于媒体内容站、电商、SaaS服务等B端企业来说,加入“站内搜索”功能,帮助用户快速找到自己想要的内容,是提升用户体验、减少弹跳的最佳方式率,并提高用户转化率。好主意。
  另一方面,站内搜索也是帮助B端企业快速采集用户真实想法的好工具。每次用户搜索和点击,都是对他们网站内容的反馈,尤其是对于没有结果的搜索词。这是帮助我们改进网站的重要第一手资料。
  那么如何快速搭建一个高质量的站内搜索引擎呢?接下来我会写一系列文章来详细讲解本站搜索的方方面面,欢迎大家继续关注。
  今天,我们从产品层面谈谈如何优化搜索排名结果。
  二、从搜索算法开始
  要深入了解搜索,请从搜索引擎的起源开始。任何复杂的系统都是从一个简单的系统开始,逐渐演化而来的。从一开始就设计一个复杂的系统很难让它很好地工作。所以我们必须回到源头,从源头上讲理解搜索。
  
  1990 年代,TREC(全球文本检索会议)组织了一系列年度研讨会。本次研讨会的主要目的是寻找由“非结构化长文档”组成的数据集的最佳搜索算法。TREC对搜索引擎算法做了很多优化,其中TF-IDF算法应该是当时最好的排序算法的主要组成部分。
  TF-IDF算法,就像它的名字一样,收录两个关键元素,“词频TF”和“逆文档频率IDF”。对这两个元素进行统计加权后得到搜索排名。
  词频(TF,词频)
  词频TF是指“搜索词”在文档中出现的频率。
  逆文档频率(IDF,逆文档频率)
  逆文档频率IDF是指“搜索词”在整个语料库中出现的频率。
  当用户输入“搜索词”时,它首先会比较整个文档库中哪些文档收录最多的“搜索词”。收录的越多,文档的排名就越高。
  这个简单的规则有一个致命的问题,在我们的语言中有太多的连词、代词、助词等等只是用来辅助句子表达的词。比如“?”、“also”、“this”、“but”等词,这些词不是文档的核心内容,应该减少权重。
  至此,我们介绍第二个关键元素——逆文档频率 IDF。它的作用是降低语料库中频繁出现的词的权重。一个词在语料库中重复的次数越多,收录这个“搜索词”的文档的排名就越低。
  TF-IDF的设计是不是简单巧妙?TF-IDF排序算法和BM25等类似算法基本上是古代搜索引擎的核心查询和排序算法。这类算法主要是针对非结构化的长文本设计的,比如大型企业文档、过去判断文档、全球论文检索数据库等。
  此类算法是搜索引擎的基石,对其原理的深入了解将有助于我们设计自己的站内搜索。接下来说说独立网站、小程序、APP中如何设计和处理搜索问题。
  三、如何通过数据属性优化排序结果
  今天不谈搜索技术问题,只谈站内搜索的产品设计问题。事实上,现场搜索技术的问题已经很好地解决了。有开源免费的ElasticSearch,国内有很多SaaS形式的现场搜索解决方案。比如卡拉搜索,一行代码就可以部署站内搜索,非常方便。在搜索技术不是大问题的前提下,剩下的就是产品策略和产品设计了。接下来,我们从产品设计层面来谈谈如何优化搜索排名。
  这个算法的问题是只能针对极少数场景设计,不适合当前互联网网站、小程序、APP中的信息搜索。这种搜索会不分类型地混淆所有文档,而我们当前的数据信息收录了很大的纬度,甚至收录了一些用户行为投票的社会指标,比如(浏览量、点赞量、转发量)数等.)。
  如何利用多维数据提高搜索准确率是我们需要思考的问题。
  前面我们提到了TF-IDF搜索算法的原理,那么接下来应该添加哪些元素才能让搜索引擎排名更准确呢?我们的网站/小程序/app中的文档信息实际上并不是混在一起的,而是收录了很多纬度信息,甚至有些纬度是用户行为产生的对文档质量的投票,比如浏览量、点赞量、转发、采集等。如何利用这么多丰富的多维信息来帮助我们优化搜索?
  一般来说,我们可以将站点中的文档信息划分为几个纬度。
  让我们举个例子。假设用户最近观看了威尔史密斯的经典电影《幸福来敲门》并喜欢它。第二天本来打算去豆瓣看影评,昨天看了《幸福》。它是什么?用户只记得片名中有幸福,于是在豆瓣电影的搜索框中输入了“幸福”。
  请考虑一下用户此时的心理状态。他当然不在乎有多少电影标题收录“幸福”这个词(TF 词频),他当然也不在乎“幸福”这个词是否是电影标题中的常见词(逆文档频率 IDF)。
  用户更关心的是如何快速准确地找到自己昨天看的电影《幸福》,快速阅读影评。
  这个时候,我们的搜索引擎应该在联想词列表中排名第一的是什么?
  
  虽然“幸福来敲门”这个词在属性中并不是第一名,但因为片名本身的权重很高,所以排在了第一位。
  在这个场景的搜索中,“幸福”这个词有很多属性,我们的搜索引擎可以利用这些属性来进行排名判断。
  对以上属性进行数值加权后,“幸福时敲门”排在搜索结果首位的可能性肯定比使用TF-IDF排序算法找到“幸福时敲门”的可能性要大得多。
  因此,我们应该在排序结果中考虑网站业务的各种属性,并根据不同属性的重要性设计权重。我们可以从以下几个方面考虑排序问题。
  
  豆瓣电影输入“史密斯”,前三个是电影,后三个是电影人。这是一种基于产品业务权重的搜索排名策略。
  在现场搜索中加入这些排序策略后,与经典搜索算法排序相比,搜索准确率有了很大的飞跃。那么如何才能不断提高分拣质量呢?
  接下来,我们来谈谈如何灵活运用这些搜索策略,进一步提升搜索排名结果。
  五、如何通过调整数据属性的排序来优化搜索结果
  目前各种站内搜索方案中搜索结果准确率低的原因不是搜索算法,因为无论网站/app多大,情况再复杂,规则都可以穷尽。与搜索全网的难度相比,难度要低很多数量级。那么问题出在哪里?问题在于灵活使用搜索策略没有或有困难。如果我们使用 ElasticSearch 在网站上进行搜索,从“构建”到“可用”其实很简单,但是从“可用”到“好用”需要几个工程师 + 无数小时的积累。这不是普通中小型企业能够承受的成本,
  特别是,基本搜索算法选择使用较大的浮点分数,将所有内容混合在一起。根据所有规则对每个文档进行评分。然后按照这个规则排序。这种方法有个致命的问题,就是把不一样的属性混在一起讲排序。
  例如。假设排序方案包括TF-IDF和点赞数两个维度。所以问题是,我们的搜索引擎将如何排名?
  如果一个文档有非常多的点赞数,它将如何排序?即使该文档与搜索词的相关性非常低,该文档的排名也会非常高。
  那么如果一篇文档与搜索词相关度高,但点赞数为0,那么如何排序呢?这个 0 赞的 文章 可能不会出现在排名结果中。
  这种混合搜索排名方法的另一个问题是它的复杂性。当多个纬度属性混合在一个公式中时,我们发现搜索结果很糟糕,不知道如何调整。
  那么,面对这种多维度的搜索问题,我们应该如何设计搜索排名呢?
  明智的方法是将所有属性分开并为您的业务调整它们的顺序。不是将所有属性集中在一起计算一个大的分数,而是计算 N 个分数并进行 N 个连续排序。
  接下来我会谈谈它是如何工作的。
  所有匹配的结果都按照第一个标准进行排序。如果结果出现平局,将继续按照第二个标准计算和排序分数。如果仍然存在平局,则第三个标准继续进行,直到每个标准在搜索结果中都有自己的位置。
  那么在这个过程中先用哪个准则来判断就成为了这个排序方案的关键。
  来个案例,你就明白了。
  [
{
"title": "为什么《黑肯帝国3》在IDBM才不到7分?",
"featured": true,
"number_of_likes": 2647
},
{
"title": "《黑客帝国》里面,为什么最后是尼欧赢了?",
"featured": false,
"number_of_likes": 3077
},
{
"title": "还好当年没让小李子演《黑客帝国》",
"featured": false,
"number_of_likes": 531
},
{
"title": "多年以后,才真正看懂黑各帝国",
"featured": false,
"number_of_likes": 797
},
{
"title": "如何理解《黑客帝国》?",
"featured": true,
"number_of_likes": 611
}
]
  为了简化示例,我们将规则简化为三点,错别字,细化,点赞数。用户输入“矩阵”关键词进行查询,会得到如下结果。
  如何理解“黑客帝国”?(无错别字;细化;点赞数:611)《黑客帝国》,Neo为什么最后赢了?(无错字;无细化;点赞数:3077)为什么《黑客帝国3》少于IDBM 7分?(2个错别字;精炼;点赞:2647)还好小李子没被允许玩《黑客帝国》(没有错别字;没有精炼;点赞:531)多年后,我真的懂了黑社会的帝国(1个错字;未精炼;喜欢:797)
  以上就是这个案例的策略,如果我们对这个例子的排序结果不满意怎么办?只需调整属性权重(顺序)。比如我们认为错别字没有问题,不应该过多降低权限,所以只需要把“错别字”的属性放在后面即可。
  
  国内站点搜索解决方案“卡拉搜索”策略设置后台,您只需使用鼠标拖动即可更改属性权重。
  六、站内搜索优化总结
  对于媒体内容站、电商、SaaS服务等B端企业来说,加入“站内搜索”功能,帮助用户快速找到自己想要的内容,是提升用户体验、减少弹跳的最佳方式率,并提高用户转化率。好主意。
  另一方面,站内搜索也是帮助B端企业快速采集用户真实想法的好工具。每次用户搜索和点击,都是对他们网站内容的反馈,尤其是对于没有结果的搜索词。这是帮助我们改进网站的重要第一手资料。
  构建“站内搜索”实际上非常简单。国内最好的站内搜索SaaS,仅需一行代码即可部署。我将在下一篇文章 文章 中解释如何快速部署站内搜索。欢迎留言提问,下一篇文章将一并解答。 查看全部

  搜索引擎进行信息检索的优化策略方法(如何快速搭建起一个高质量站内搜索引擎呢?(组图))
  一、网站搜索的意义
  对于媒体内容站、电商、SaaS服务等B端企业来说,加入“站内搜索”功能,帮助用户快速找到自己想要的内容,是提升用户体验、减少弹跳的最佳方式率,并提高用户转化率。好主意。
  另一方面,站内搜索也是帮助B端企业快速采集用户真实想法的好工具。每次用户搜索和点击,都是对他们网站内容的反馈,尤其是对于没有结果的搜索词。这是帮助我们改进网站的重要第一手资料。
  那么如何快速搭建一个高质量的站内搜索引擎呢?接下来我会写一系列文章来详细讲解本站搜索的方方面面,欢迎大家继续关注。
  今天,我们从产品层面谈谈如何优化搜索排名结果。
  二、从搜索算法开始
  要深入了解搜索,请从搜索引擎的起源开始。任何复杂的系统都是从一个简单的系统开始,逐渐演化而来的。从一开始就设计一个复杂的系统很难让它很好地工作。所以我们必须回到源头,从源头上讲理解搜索。
  
  1990 年代,TREC(全球文本检索会议)组织了一系列年度研讨会。本次研讨会的主要目的是寻找由“非结构化长文档”组成的数据集的最佳搜索算法。TREC对搜索引擎算法做了很多优化,其中TF-IDF算法应该是当时最好的排序算法的主要组成部分。
  TF-IDF算法,就像它的名字一样,收录两个关键元素,“词频TF”和“逆文档频率IDF”。对这两个元素进行统计加权后得到搜索排名。
  词频(TF,词频)
  词频TF是指“搜索词”在文档中出现的频率。
  逆文档频率(IDF,逆文档频率)
  逆文档频率IDF是指“搜索词”在整个语料库中出现的频率。
  当用户输入“搜索词”时,它首先会比较整个文档库中哪些文档收录最多的“搜索词”。收录的越多,文档的排名就越高。
  这个简单的规则有一个致命的问题,在我们的语言中有太多的连词、代词、助词等等只是用来辅助句子表达的词。比如“?”、“also”、“this”、“but”等词,这些词不是文档的核心内容,应该减少权重。
  至此,我们介绍第二个关键元素——逆文档频率 IDF。它的作用是降低语料库中频繁出现的词的权重。一个词在语料库中重复的次数越多,收录这个“搜索词”的文档的排名就越低。
  TF-IDF的设计是不是简单巧妙?TF-IDF排序算法和BM25等类似算法基本上是古代搜索引擎的核心查询和排序算法。这类算法主要是针对非结构化的长文本设计的,比如大型企业文档、过去判断文档、全球论文检索数据库等。
  此类算法是搜索引擎的基石,对其原理的深入了解将有助于我们设计自己的站内搜索。接下来说说独立网站、小程序、APP中如何设计和处理搜索问题。
  三、如何通过数据属性优化排序结果
  今天不谈搜索技术问题,只谈站内搜索的产品设计问题。事实上,现场搜索技术的问题已经很好地解决了。有开源免费的ElasticSearch,国内有很多SaaS形式的现场搜索解决方案。比如卡拉搜索,一行代码就可以部署站内搜索,非常方便。在搜索技术不是大问题的前提下,剩下的就是产品策略和产品设计了。接下来,我们从产品设计层面来谈谈如何优化搜索排名。
  这个算法的问题是只能针对极少数场景设计,不适合当前互联网网站、小程序、APP中的信息搜索。这种搜索会不分类型地混淆所有文档,而我们当前的数据信息收录了很大的纬度,甚至收录了一些用户行为投票的社会指标,比如(浏览量、点赞量、转发量)数等.)。
  如何利用多维数据提高搜索准确率是我们需要思考的问题。
  前面我们提到了TF-IDF搜索算法的原理,那么接下来应该添加哪些元素才能让搜索引擎排名更准确呢?我们的网站/小程序/app中的文档信息实际上并不是混在一起的,而是收录了很多纬度信息,甚至有些纬度是用户行为产生的对文档质量的投票,比如浏览量、点赞量、转发、采集等。如何利用这么多丰富的多维信息来帮助我们优化搜索?
  一般来说,我们可以将站点中的文档信息划分为几个纬度。
  让我们举个例子。假设用户最近观看了威尔史密斯的经典电影《幸福来敲门》并喜欢它。第二天本来打算去豆瓣看影评,昨天看了《幸福》。它是什么?用户只记得片名中有幸福,于是在豆瓣电影的搜索框中输入了“幸福”。
  请考虑一下用户此时的心理状态。他当然不在乎有多少电影标题收录“幸福”这个词(TF 词频),他当然也不在乎“幸福”这个词是否是电影标题中的常见词(逆文档频率 IDF)。
  用户更关心的是如何快速准确地找到自己昨天看的电影《幸福》,快速阅读影评。
  这个时候,我们的搜索引擎应该在联想词列表中排名第一的是什么?
  
  虽然“幸福来敲门”这个词在属性中并不是第一名,但因为片名本身的权重很高,所以排在了第一位。
  在这个场景的搜索中,“幸福”这个词有很多属性,我们的搜索引擎可以利用这些属性来进行排名判断。
  对以上属性进行数值加权后,“幸福时敲门”排在搜索结果首位的可能性肯定比使用TF-IDF排序算法找到“幸福时敲门”的可能性要大得多。
  因此,我们应该在排序结果中考虑网站业务的各种属性,并根据不同属性的重要性设计权重。我们可以从以下几个方面考虑排序问题。
  
  豆瓣电影输入“史密斯”,前三个是电影,后三个是电影人。这是一种基于产品业务权重的搜索排名策略。
  在现场搜索中加入这些排序策略后,与经典搜索算法排序相比,搜索准确率有了很大的飞跃。那么如何才能不断提高分拣质量呢?
  接下来,我们来谈谈如何灵活运用这些搜索策略,进一步提升搜索排名结果。
  五、如何通过调整数据属性的排序来优化搜索结果
  目前各种站内搜索方案中搜索结果准确率低的原因不是搜索算法,因为无论网站/app多大,情况再复杂,规则都可以穷尽。与搜索全网的难度相比,难度要低很多数量级。那么问题出在哪里?问题在于灵活使用搜索策略没有或有困难。如果我们使用 ElasticSearch 在网站上进行搜索,从“构建”到“可用”其实很简单,但是从“可用”到“好用”需要几个工程师 + 无数小时的积累。这不是普通中小型企业能够承受的成本,
  特别是,基本搜索算法选择使用较大的浮点分数,将所有内容混合在一起。根据所有规则对每个文档进行评分。然后按照这个规则排序。这种方法有个致命的问题,就是把不一样的属性混在一起讲排序。
  例如。假设排序方案包括TF-IDF和点赞数两个维度。所以问题是,我们的搜索引擎将如何排名?
  如果一个文档有非常多的点赞数,它将如何排序?即使该文档与搜索词的相关性非常低,该文档的排名也会非常高。
  那么如果一篇文档与搜索词相关度高,但点赞数为0,那么如何排序呢?这个 0 赞的 文章 可能不会出现在排名结果中。
  这种混合搜索排名方法的另一个问题是它的复杂性。当多个纬度属性混合在一个公式中时,我们发现搜索结果很糟糕,不知道如何调整。
  那么,面对这种多维度的搜索问题,我们应该如何设计搜索排名呢?
  明智的方法是将所有属性分开并为您的业务调整它们的顺序。不是将所有属性集中在一起计算一个大的分数,而是计算 N 个分数并进行 N 个连续排序。
  接下来我会谈谈它是如何工作的。
  所有匹配的结果都按照第一个标准进行排序。如果结果出现平局,将继续按照第二个标准计算和排序分数。如果仍然存在平局,则第三个标准继续进行,直到每个标准在搜索结果中都有自己的位置。
  那么在这个过程中先用哪个准则来判断就成为了这个排序方案的关键。
  来个案例,你就明白了。
  [
{
"title": "为什么《黑肯帝国3》在IDBM才不到7分?",
"featured": true,
"number_of_likes": 2647
},
{
"title": "《黑客帝国》里面,为什么最后是尼欧赢了?",
"featured": false,
"number_of_likes": 3077
},
{
"title": "还好当年没让小李子演《黑客帝国》",
"featured": false,
"number_of_likes": 531
},
{
"title": "多年以后,才真正看懂黑各帝国",
"featured": false,
"number_of_likes": 797
},
{
"title": "如何理解《黑客帝国》?",
"featured": true,
"number_of_likes": 611
}
]
  为了简化示例,我们将规则简化为三点,错别字,细化,点赞数。用户输入“矩阵”关键词进行查询,会得到如下结果。
  如何理解“黑客帝国”?(无错别字;细化;点赞数:611)《黑客帝国》,Neo为什么最后赢了?(无错字;无细化;点赞数:3077)为什么《黑客帝国3》少于IDBM 7分?(2个错别字;精炼;点赞:2647)还好小李子没被允许玩《黑客帝国》(没有错别字;没有精炼;点赞:531)多年后,我真的懂了黑社会的帝国(1个错字;未精炼;喜欢:797)
  以上就是这个案例的策略,如果我们对这个例子的排序结果不满意怎么办?只需调整属性权重(顺序)。比如我们认为错别字没有问题,不应该过多降低权限,所以只需要把“错别字”的属性放在后面即可。
  
  国内站点搜索解决方案“卡拉搜索”策略设置后台,您只需使用鼠标拖动即可更改属性权重。
  六、站内搜索优化总结
  对于媒体内容站、电商、SaaS服务等B端企业来说,加入“站内搜索”功能,帮助用户快速找到自己想要的内容,是提升用户体验、减少弹跳的最佳方式率,并提高用户转化率。好主意。
  另一方面,站内搜索也是帮助B端企业快速采集用户真实想法的好工具。每次用户搜索和点击,都是对他们网站内容的反馈,尤其是对于没有结果的搜索词。这是帮助我们改进网站的重要第一手资料。
  构建“站内搜索”实际上非常简单。国内最好的站内搜索SaaS,仅需一行代码即可部署。我将在下一篇文章 文章 中解释如何快速部署站内搜索。欢迎留言提问,下一篇文章将一并解答。

搜索引擎进行信息检索的优化策略方法(2021-09-161.什么是大文本?具体是什么?)

网站优化优采云 发表了文章 • 0 个评论 • 82 次浏览 • 2022-04-18 22:29 • 来自相关话题

  搜索引擎进行信息检索的优化策略方法(2021-09-161.什么是大文本?具体是什么?)
  2021-09-161.什么是大文本?究竟是什么?
  首先要明白,ElasticSearch建立索引完成全文检索的前提是将要检索的信息导入ElasticSearch。而一些信息对应的文本内容会很大,可能达到1MB~3MB字节左右。该内容被认为是大文本。一般我们将这些内容存储在一个名为 content 的字段中,然后对 Content 字段进行处理。全文搜索&高亮,会出现搜索效率低的问题,更耗时可能达到30s左右。
  这对于一个习惯了搜索引擎极速体验的用户来说,是不能容忍的。
  2. 问题描述
  从检索症状:
  1. 翻页到1000+页(每页10条数据),响应时间会更长
  2. 遇到一些大文件时,响应时间特别长,高亮结果会返回30s以上
  3. 故障排除与优化1. 限制返回记录数。不提供对最后一页的直接访问
  百度、360、搜狗等搜索引擎不提供访问最后一页的请求方式。它们都是基于单击上一页和下一页的逐页访问的。其实这从用户的角度也很好理解。搜索引擎返回的以前的数据是最相关的,也是用户最关心的信息。ElasticSearch默认支持的数据条数为10000条,所以最好将最大条数设置为10000条或小于该值。
  2. from/size 对应慢问题
  [从+尺寸机制]
  当 ElasticSearch 响应请求时,它必须确定文档的顺序并安排相应的结果。如果请求的页数很少,ElasticSearch 是没有问题的,但是如果页数很大,比如请求第 100 页,ElasticSearch 必须从第 1 到第 100 页获取所有文档,然后删除第 1 到第 100 页。文档在第 99 页,获取文档在第 100 页。
  【滚动机制】
  与from+size机制分页相比,使用滚动可以模拟一个传统的数据游标,记录当前读取的文档信息的位置。这种分页的使用并不是为了实时查询数据,而是一次查询大量数据甚至全部数据。
  因为这个滚动相当于维护了当前索引段的快照,所以快照信息就是执行滚动查询时的快照。此查询后从新索引传入的任何数据都不会在此快照中查询。但是,相比from+size机制,它并不是查询所有数据然后去掉不需要的部分,而是记录一个读位置,保证下一次快速读。
  from+size方式和scroll方式的优缺点对比:
  1. from + size 方法:当结果足够大时,会大大增加内存和CPU消耗。但是这种方法使用起来非常方便。
  2. 对于滚动模式:当结果足够大时,滚动性能更好。但存在scroll_id不灵活、管理困难的问题。滚动的使用必须逐页按顺序使用。如果是不规则翻页,其性能消耗也是巨大的。
  以上两种翻页机制需要根据实际场景合理选择。
  3. 查看内存状态
  当出现卡住、卡住等性能低下、用户体验差的情况时,需要及时查看ElasticSearch日志,检查是内存不足还是新老代参数设置不合理造成的。
  之前因为机器内存不足,设置为16GB。通过日志发现堆内存不足会导致老年代Full GC,造成停顿。堆内存果断地从 16GB 增加到最大 31GB。
  4. DSL逆向分析排查慢查询
  1. 打印出对应的查询DSL,可以通过接口访问:searchSourceBuilder.toString();
  2. 使用profile参数看看什么是慢的
  profile API的目的是在ES的高层对ES请求进行扁平化和扩展,让你可以直观的看到请求做了什么,每个segment花费了多少时间,为你提供提升性能的相关支持.
  3. 尝试更改全文搜索接口api,更改query_string匹配查询,相应速度会有一定提升
  4. 删除部分查询条件,在基本数据不变的情况下查看查询速度是否更快。
  验证发现不返回content字段时,速度会快很多;取消高亮字段处理时,速度会更快。至此,初步断定与高亮有关。
  5. 重点排查和优化
  通过论坛推荐使用:fast-vector-highlighter 进行大文件高亮。
  根据官网介绍,ElasticSearch高亮的方式有以下三种:
  方法一:传统的素色高亮法
  官网明确支持这种方式。这种方法匹配起来很慢。如果存在性能问题,请考虑其他突出显示方法。
  方法二:发帖高亮方法
  要支持发帖的高亮方式,需要在映射下添加如下信息:
    "type": "text",
  "index_options" : "offsets"
  添加完成后,发帖高亮方式将替代传统高亮方式。
  发布高亮方法的特点:
  1.速度快,无需重新分析高亮文件。文档越大,性能越高。
  2.比 fvh 突出显示需要更少的磁盘空间。
  3.将文本文件拆分成句子并突出显示。它适用于自然语言,但不适用于 html。
  4. 将文档视为整个语料库,并使用 BM25 算法对该语料库中的文档进行评分。
  应用实例:
    {
  "mappings": {
  "doc" : {
  "properties": {
  "comment" : {
  "type": "text",
  "index_options" : "offsets"
  }
   }
  }
  }
  }
  方法三:fast-vector-highlighter 缩写为fvh高亮方法
  如果在映射的文本类型字段下添加以下信息:
    "type": "text",
  "term_vector" : "with_positions_offsets"
  fvh 突出显示方法将取代传统的普通突出显示方法。
  fvh高亮方法的特点如下:
  1. 特别适用于 doc 大于 > 1MB 时的 fvh 高亮。
  2.自定义boundary_scanner的扫描方式。
  3.设置 term_vector --> with_positions_offsets 会增加索引的大小。
  4.可以组合多个字段返回一个结果,详见matched_fields。
  5.为不同的匹配类型分配不同的权重,例如:短语匹配高于术语匹配。
  应用实例:
    {
   "mappings": {
   "doc" : {
  "properties": {
  "comment" : {
   "type": "text",
  "term_vector" : "with_positions_offsets"
  }
  }
  }
  }
  }
  最终选择:fvh 高亮方法。
  第一:新建索引,根据fvh方法为内容字段重新设置映射;
  二:通过以下方式同步索引数据:
    POST /_reindex {"source":{"index":"test_index"}, "dest":{"index":"test_index_new"}}
  实际结果表明,原来检索>40s的同一个大文件,现在2s内返回结果。没有改行代码,只修改了映射,效率提升了近20倍。
  4. 总结
  你需要发自内心地意识到,所有的虫子都是纸老虎。当你遇到问题时,你不能乱来。您可以一次拆卸并解决问题。有几点要记住:
  1. 敢于承担暴露的问题是开发者责任的体现
  2. 有bug,关键是耐心定位bug,跟踪bug
  3. 拆解细化问题,一一列出排查思路,才是王道
  4. 行动胜于雄辩,去做就行
  分类:
  技术要点:
  相关文章: 查看全部

  搜索引擎进行信息检索的优化策略方法(2021-09-161.什么是大文本?具体是什么?)
  2021-09-161.什么是大文本?究竟是什么?
  首先要明白,ElasticSearch建立索引完成全文检索的前提是将要检索的信息导入ElasticSearch。而一些信息对应的文本内容会很大,可能达到1MB~3MB字节左右。该内容被认为是大文本。一般我们将这些内容存储在一个名为 content 的字段中,然后对 Content 字段进行处理。全文搜索&高亮,会出现搜索效率低的问题,更耗时可能达到30s左右。
  这对于一个习惯了搜索引擎极速体验的用户来说,是不能容忍的。
  2. 问题描述
  从检索症状:
  1. 翻页到1000+页(每页10条数据),响应时间会更长
  2. 遇到一些大文件时,响应时间特别长,高亮结果会返回30s以上
  3. 故障排除与优化1. 限制返回记录数。不提供对最后一页的直接访问
  百度、360、搜狗等搜索引擎不提供访问最后一页的请求方式。它们都是基于单击上一页和下一页的逐页访问的。其实这从用户的角度也很好理解。搜索引擎返回的以前的数据是最相关的,也是用户最关心的信息。ElasticSearch默认支持的数据条数为10000条,所以最好将最大条数设置为10000条或小于该值。
  2. from/size 对应慢问题
  [从+尺寸机制]
  当 ElasticSearch 响应请求时,它必须确定文档的顺序并安排相应的结果。如果请求的页数很少,ElasticSearch 是没有问题的,但是如果页数很大,比如请求第 100 页,ElasticSearch 必须从第 1 到第 100 页获取所有文档,然后删除第 1 到第 100 页。文档在第 99 页,获取文档在第 100 页。
  【滚动机制】
  与from+size机制分页相比,使用滚动可以模拟一个传统的数据游标,记录当前读取的文档信息的位置。这种分页的使用并不是为了实时查询数据,而是一次查询大量数据甚至全部数据。
  因为这个滚动相当于维护了当前索引段的快照,所以快照信息就是执行滚动查询时的快照。此查询后从新索引传入的任何数据都不会在此快照中查询。但是,相比from+size机制,它并不是查询所有数据然后去掉不需要的部分,而是记录一个读位置,保证下一次快速读。
  from+size方式和scroll方式的优缺点对比:
  1. from + size 方法:当结果足够大时,会大大增加内存和CPU消耗。但是这种方法使用起来非常方便。
  2. 对于滚动模式:当结果足够大时,滚动性能更好。但存在scroll_id不灵活、管理困难的问题。滚动的使用必须逐页按顺序使用。如果是不规则翻页,其性能消耗也是巨大的。
  以上两种翻页机制需要根据实际场景合理选择。
  3. 查看内存状态
  当出现卡住、卡住等性能低下、用户体验差的情况时,需要及时查看ElasticSearch日志,检查是内存不足还是新老代参数设置不合理造成的。
  之前因为机器内存不足,设置为16GB。通过日志发现堆内存不足会导致老年代Full GC,造成停顿。堆内存果断地从 16GB 增加到最大 31GB。
  4. DSL逆向分析排查慢查询
  1. 打印出对应的查询DSL,可以通过接口访问:searchSourceBuilder.toString();
  2. 使用profile参数看看什么是慢的
  profile API的目的是在ES的高层对ES请求进行扁平化和扩展,让你可以直观的看到请求做了什么,每个segment花费了多少时间,为你提供提升性能的相关支持.
  3. 尝试更改全文搜索接口api,更改query_string匹配查询,相应速度会有一定提升
  4. 删除部分查询条件,在基本数据不变的情况下查看查询速度是否更快。
  验证发现不返回content字段时,速度会快很多;取消高亮字段处理时,速度会更快。至此,初步断定与高亮有关。
  5. 重点排查和优化
  通过论坛推荐使用:fast-vector-highlighter 进行大文件高亮。
  根据官网介绍,ElasticSearch高亮的方式有以下三种:
  方法一:传统的素色高亮法
  官网明确支持这种方式。这种方法匹配起来很慢。如果存在性能问题,请考虑其他突出显示方法。
  方法二:发帖高亮方法
  要支持发帖的高亮方式,需要在映射下添加如下信息:
    "type": "text",
  "index_options" : "offsets"
  添加完成后,发帖高亮方式将替代传统高亮方式。
  发布高亮方法的特点:
  1.速度快,无需重新分析高亮文件。文档越大,性能越高。
  2.比 fvh 突出显示需要更少的磁盘空间。
  3.将文本文件拆分成句子并突出显示。它适用于自然语言,但不适用于 html。
  4. 将文档视为整个语料库,并使用 BM25 算法对该语料库中的文档进行评分。
  应用实例:
    {
  "mappings": {
  "doc" : {
  "properties": {
  "comment" : {
  "type": "text",
  "index_options" : "offsets"
  }
   }
  }
  }
  }
  方法三:fast-vector-highlighter 缩写为fvh高亮方法
  如果在映射的文本类型字段下添加以下信息:
    "type": "text",
  "term_vector" : "with_positions_offsets"
  fvh 突出显示方法将取代传统的普通突出显示方法。
  fvh高亮方法的特点如下:
  1. 特别适用于 doc 大于 > 1MB 时的 fvh 高亮。
  2.自定义boundary_scanner的扫描方式。
  3.设置 term_vector --> with_positions_offsets 会增加索引的大小。
  4.可以组合多个字段返回一个结果,详见matched_fields。
  5.为不同的匹配类型分配不同的权重,例如:短语匹配高于术语匹配。
  应用实例:
    {
   "mappings": {
   "doc" : {
  "properties": {
  "comment" : {
   "type": "text",
  "term_vector" : "with_positions_offsets"
  }
  }
  }
  }
  }
  最终选择:fvh 高亮方法。
  第一:新建索引,根据fvh方法为内容字段重新设置映射;
  二:通过以下方式同步索引数据:
    POST /_reindex {"source":{"index":"test_index"}, "dest":{"index":"test_index_new"}}
  实际结果表明,原来检索>40s的同一个大文件,现在2s内返回结果。没有改行代码,只修改了映射,效率提升了近20倍。
  4. 总结
  你需要发自内心地意识到,所有的虫子都是纸老虎。当你遇到问题时,你不能乱来。您可以一次拆卸并解决问题。有几点要记住:
  1. 敢于承担暴露的问题是开发者责任的体现
  2. 有bug,关键是耐心定位bug,跟踪bug
  3. 拆解细化问题,一一列出排查思路,才是王道
  4. 行动胜于雄辩,去做就行
  分类:
  技术要点:
  相关文章:

搜索引擎进行信息检索的优化策略方法( 【每日一练】2016年10月21日教师招聘考试真题及答案)

网站优化优采云 发表了文章 • 0 个评论 • 81 次浏览 • 2022-04-18 13:48 • 来自相关话题

  搜索引擎进行信息检索的优化策略方法(
【每日一练】2016年10月21日教师招聘考试真题及答案)
  
  更多《搜索引擎的利用是多种检索工具结合使用的结果。()》相关问题
  问题 1
  ( ) 是利用用户检索信息的机会,尽可能地向目标用户传递营销信息。简单来说,()就是基于搜索引擎平台的网络营销。
  点击查看答案
  问题2
  搜索引擎注册是指使用具有在线检索信息功能的搜索引擎和目录等网络工具的方法。
  点击查看答案
  问题 3
  列出你熟悉的三个搜索引擎或搜索工具:()、()、()
  点击查看答案
  问题 4
  在百度搜索引擎中,减号“-”用于去除搜索结果中收录的特定信息。注意减号“-”必须是英文符号,使用时必须以()开头。
  A. 输入
  B. 分号
  C. 空白
  D、逗号
  点击查看答案
  问题 5
  常见的文献检索工具包括:门户网站网站、搜索引擎、专业检索工具。
  点击查看答案
  问题 6
  在百度搜索中使用书名号无法达到准确搜索的目的。
  点击查看答案
  问题 7
  要在中国国家知识产权局查找苹果申请的专利,最佳检索公式为:
  A. 申请人(专利权)持有人:Apple Inc.
  B. 发明者(设计师):Apple Inc.
  C. 专利代理:Apple Inc.
  D. 代理:Apple Inc.
  点击查看答案
  问题 8
  如何选择信息检索策略?
  点击查看答案
  问题 9
  下列关于搜索引擎信息检索优化策略的说法不正确的是( )。
  A. 可以通过添加搜索词来缩小搜索结果的数量和范围。
  BB 不要使用太笼统的词,或者曝光率太高的词,比如:“that”、“the”、“internet”
  CC在搜索引擎中输入“informationretrievalsystems”和informationretrievalsystems,检索到的内容与结果一致。
  DD 最小化短语或太长的短语,以及太多的“+”关系。
  点击查看答案
  问题 10
  在我国提供个人征信服务的我国人民银行征信系统只有一个。()
  点击查看答案 查看全部

  搜索引擎进行信息检索的优化策略方法(
【每日一练】2016年10月21日教师招聘考试真题及答案)
  
  更多《搜索引擎的利用是多种检索工具结合使用的结果。()》相关问题
  问题 1
  ( ) 是利用用户检索信息的机会,尽可能地向目标用户传递营销信息。简单来说,()就是基于搜索引擎平台的网络营销。
  点击查看答案
  问题2
  搜索引擎注册是指使用具有在线检索信息功能的搜索引擎和目录等网络工具的方法。
  点击查看答案
  问题 3
  列出你熟悉的三个搜索引擎或搜索工具:()、()、()
  点击查看答案
  问题 4
  在百度搜索引擎中,减号“-”用于去除搜索结果中收录的特定信息。注意减号“-”必须是英文符号,使用时必须以()开头。
  A. 输入
  B. 分号
  C. 空白
  D、逗号
  点击查看答案
  问题 5
  常见的文献检索工具包括:门户网站网站、搜索引擎、专业检索工具。
  点击查看答案
  问题 6
  在百度搜索中使用书名号无法达到准确搜索的目的。
  点击查看答案
  问题 7
  要在中国国家知识产权局查找苹果申请的专利,最佳检索公式为:
  A. 申请人(专利权)持有人:Apple Inc.
  B. 发明者(设计师):Apple Inc.
  C. 专利代理:Apple Inc.
  D. 代理:Apple Inc.
  点击查看答案
  问题 8
  如何选择信息检索策略?
  点击查看答案
  问题 9
  下列关于搜索引擎信息检索优化策略的说法不正确的是( )。
  A. 可以通过添加搜索词来缩小搜索结果的数量和范围。
  BB 不要使用太笼统的词,或者曝光率太高的词,比如:“that”、“the”、“internet”
  CC在搜索引擎中输入“informationretrievalsystems”和informationretrievalsystems,检索到的内容与结果一致。
  DD 最小化短语或太长的短语,以及太多的“+”关系。
  点击查看答案
  问题 10
  在我国提供个人征信服务的我国人民银行征信系统只有一个。()
  点击查看答案

搜索引擎进行信息检索的优化策略方法( 基于用户许可的营销与滥发邮件(Spam)不同广告)

网站优化优采云 发表了文章 • 0 个评论 • 72 次浏览 • 2022-04-17 17:29 • 来自相关话题

  搜索引擎进行信息检索的优化策略方法(
基于用户许可的营销与滥发邮件(Spam)不同广告)
  
  网站推广方式有哪些(最常用的网站推广方式)
  网站八种基本推广方式
  1、搜索引擎推广
  搜索引擎推广是指利用具有在线检索信息功能的搜索引擎、目录等网络工具进行网站推广的方式。由于搜索引擎的基本形式可以分为网络蜘蛛式搜索引擎(简称搜索引擎)和基于人工类别的搜索引擎(简称类别),因此搜索引擎推广的形式还包括基于搜索的方法基于搜索引擎的引擎和方法。分类的方法,前者包括搜索引擎优化、关键词广告、PPC、固定排名、基于内容的广告等形式,而后者主要是在分类目录网站的相应类别中进行@>登录。
  搜索引擎推广的方法可以分为许多不同的形式。常见的有:登录免费分类、登录付费分类、搜索引擎优化、关键词广告、关键词PPC、网页内容定向广告等。
  从目前的发展趋势来看,搜索引擎在网络营销中的地位依然重要,被越来越多的企业所认可。搜索引擎营销的方式也在不断演变。因此,搜索引擎营销应根据环境的变化进行选择。合适的方式。
  2、邮件推广
  电子邮件是主要的网站 推广方式。常见的方法包括电子出版物、会员通讯和专业服务提供商的电子邮件广告。
  基于用户权限的电子邮件营销不同于垃圾邮件。许可营销相对于传统的推广方式或无证邮件营销具有明显的优势,例如减少广告对用户的滋扰,提高潜在客户定位的准确性。度,增强与客户的关系,增加品牌忠诚度等。根据电子邮件营销许可的用户电子邮件地址资源的所有形式,可以分为内部列表电子邮件营销和外部列表电子邮件营销,或简单地内部列表和外部列表。内部列表,又称邮件列表,是利用网站的注册用户信息进行Email营销的一种方式,如新闻邮件、会员快讯、电子刊物等。外部列表电子邮件营销是利用专业服务提供商的用户电子邮件地址进行电子邮件营销,即以电子邮件广告的形式向服务提供商的用户发送信息。授权邮件营销是一种相对独立的网络营销方式体系,可以与其他网络营销方式相结合,也可以独立应用。
  3、资源合作推广
  通过网站交换链接、交换广告、内容合作、用户资源合作等方式,达到目标相近者之间相互促进的目的网站,其中最常用的资源合作方法是网站链接策略,利用网站合作伙伴之间的访问资源合作,相互促进。
  每个企业网站都可以拥有自己的资源,可以表现为一定的流量、注册用户信息、有价值的内容和功能、网络广告位等,利用网站的资源进行合作与合作伙伴共同实现资源共享、共同扩大利益的目的。在这些资源合作形式中,交换链接是最简单的合作方式,调查显示,这也是推广新网站的有效方式之一。交换链接或互惠链接是网站之间的一种简单的合作形式,具有一定的优势互补,即把对方网站的LOGO或网站@放在自己的网站 分别。>命名并设置对方网站的超链接,让用户从合作网站中发现自己的网站,从而达到相互促进的目的。交换链接的作用主要表现在几个方面:获得流量,增加用户浏览时的印象,增加搜索引擎排名优势,通过合作网站的推荐增加访问者的可信度。交换链接比能不能达到直接的效果,有着更深层次的意义。一般来说,每个网站都倾向于链接到其他网站的链接值较高的网站,从而获得其他网站的链接也意味着得到伙伴和同行的认可网站 @> 在字段中。交换链接的作用主要表现在几个方面:获得流量,增加用户浏览时的印象,增加搜索引擎排名优势,通过合作网站的推荐增加访问者的可信度。交换链接比能不能达到直接的效果,有着更深层次的意义。一般来说,每个网站都倾向于链接到其他网站的链接值较高的网站,从而获得其他网站的链接也意味着得到伙伴和同行的认可网站 @> 在字段中。交换链接的作用主要表现在几个方面:获得流量,增加用户浏览时的印象,增加搜索引擎排名优势,通过合作网站的推荐增加访问者的可信度。交换链接比能不能达到直接的效果,有着更深层次的意义。一般来说,每个网站都倾向于链接到其他网站的链接值较高的网站,从而获得其他网站的链接也意味着得到伙伴和同行的认可网站 @> 在字段中。并通过合作网站的推荐来增加访问者的可信度。交换链接比能不能达到直接的效果,有着更深层次的意义。一般来说,每个网站都倾向于链接到其他网站的链接值较高的网站,从而获得其他网站的链接也意味着得到伙伴和同行的认可网站 @> 在字段中。并通过合作网站的推荐来增加访问者的可信度。交换链接比能不能达到直接的效果,有着更深层次的意义。一般来说,每个网站都倾向于链接到其他网站的链接值较高的网站,从而获得其他网站的链接也意味着得到伙伴和同行的认可网站 @> 在字段中。
  4、信息发布推广
  并且由于越来越多有效的网站推广方式的出现,信息发布在常用的网站推广方式中。信息的重要性也大幅下降,因此依靠大量免费信息的发送方式并没有太大的价值,但一些针对性强、专业性强的信息仍然可以引起人们的极大关注,尤其是当信息以相对较高的速度发布时-相关性。
  5、病毒式营销
  病毒式营销方式不是传播病毒,而是利用用户之间的主动交流,让信息像病毒一样传播,从而达到推广的目的。病毒式营销方式本质上是为用户提供有价值的免费服务,同时,在一定的宣传信息下,常用的工具包括免费电子书、免费软件、免费FLASH作品、免费贺卡、免费邮箱、免费即时聊天工具等。 ,可以为用户获取信息、使用网络服务、娱乐带来方便。和内容。如果应用得当,这种病毒式营销策略通常可以以非常低的成本取得非常显着的效果。病毒式营销的详细介绍和案例要素,请参考作者的《网络营销基础与实践》
  6、快速网址推广
  也就是说,合理利用网络实名、常用网址等类似关键词网站快捷访问方式,实现网站推广方式。快捷网址使用自然语言与网站网址建立对应关系,为习惯使用中文的用户提供了极大的便利。用户只需要输入一个比英文 URL 更容易记住的快捷 URL。您可以访问 网站 并使用您的母语或其他简单词汇来“替换”一个更容易记住且更容易反映 网站 品牌形象的 URL,例如选择公司名称或商标,主要产品名称等。作为一个中文网站,这可以极大地弥补英文网站宣传的不便,因为它在网站推广上有一定的价值。随着企业注册快捷网站数量的增加,这些快捷网站的用户数据也可以相当于一个搜索引擎。这样,当用户使用某个关键词进行搜索时,即使与某个网站注册的中文网站不一致,也有被用户发现的机会。
  7、互联网广告
  网络广告是常用的网络营销策略之一,在网络品牌推广、产品推广、网站促销等方面发挥着重要作用。常见的网络广告形式有:BANNER广告、关键词广告、分类广告、赞助广告、Email广告等。BANNER广告所依赖的媒体是网页,关键词广告是一种搜索形式引擎营销和电子邮件广告是一种许可的电子邮件营销。可见,网络广告不可能独立存在,需要与各种网络工具相结合。只有将它们结合起来才能实现信息传递的功能。因此,也可以认为网络广告存在于各种网络营销工具中,但具体表现不同。网络广告用户推广网站具有网络媒体可选范围广、形式多样、适用性强、投放及时等优点。
  8、综合网站宣传
  除了上面介绍的常用网站推广方式外,还有很多特殊的、临时性的网站推广方式,比如有奖问答、网上优惠券、有奖调查、网上购物网站推广比较购物和购物搜索引擎等,有的甚至使用建立辅助网站进行推广。有的网站推广方式可能很巧妙,有的网站可能会使用某种强制的方式来达到推广的目的,比如修改用户浏览器的默认首页设置,自动添加到采集夹,甚至在用户的计算机上。真正值得推广的是合理文明的网站推广方式,强制和破坏性的网站推广方式应该拒绝和反对。 查看全部

  搜索引擎进行信息检索的优化策略方法(
基于用户许可的营销与滥发邮件(Spam)不同广告)
  http://www.xusseo.com/wp-conte ... 0.jpg 300w, http://www.xusseo.com/wp-conte ... 7.jpg 768w, http://www.xusseo.com/wp-conte ... 8.jpg 220w" />
  网站推广方式有哪些(最常用的网站推广方式)
  网站八种基本推广方式
  1、搜索引擎推广
  搜索引擎推广是指利用具有在线检索信息功能的搜索引擎、目录等网络工具进行网站推广的方式。由于搜索引擎的基本形式可以分为网络蜘蛛式搜索引擎(简称搜索引擎)和基于人工类别的搜索引擎(简称类别),因此搜索引擎推广的形式还包括基于搜索的方法基于搜索引擎的引擎和方法。分类的方法,前者包括搜索引擎优化、关键词广告、PPC、固定排名、基于内容的广告等形式,而后者主要是在分类目录网站的相应类别中进行@>登录。
  搜索引擎推广的方法可以分为许多不同的形式。常见的有:登录免费分类、登录付费分类、搜索引擎优化、关键词广告、关键词PPC、网页内容定向广告等。
  从目前的发展趋势来看,搜索引擎在网络营销中的地位依然重要,被越来越多的企业所认可。搜索引擎营销的方式也在不断演变。因此,搜索引擎营销应根据环境的变化进行选择。合适的方式。
  2、邮件推广
  电子邮件是主要的网站 推广方式。常见的方法包括电子出版物、会员通讯和专业服务提供商的电子邮件广告。
  基于用户权限的电子邮件营销不同于垃圾邮件。许可营销相对于传统的推广方式或无证邮件营销具有明显的优势,例如减少广告对用户的滋扰,提高潜在客户定位的准确性。度,增强与客户的关系,增加品牌忠诚度等。根据电子邮件营销许可的用户电子邮件地址资源的所有形式,可以分为内部列表电子邮件营销和外部列表电子邮件营销,或简单地内部列表和外部列表。内部列表,又称邮件列表,是利用网站的注册用户信息进行Email营销的一种方式,如新闻邮件、会员快讯、电子刊物等。外部列表电子邮件营销是利用专业服务提供商的用户电子邮件地址进行电子邮件营销,即以电子邮件广告的形式向服务提供商的用户发送信息。授权邮件营销是一种相对独立的网络营销方式体系,可以与其他网络营销方式相结合,也可以独立应用。
  3、资源合作推广
  通过网站交换链接、交换广告、内容合作、用户资源合作等方式,达到目标相近者之间相互促进的目的网站,其中最常用的资源合作方法是网站链接策略,利用网站合作伙伴之间的访问资源合作,相互促进。
  每个企业网站都可以拥有自己的资源,可以表现为一定的流量、注册用户信息、有价值的内容和功能、网络广告位等,利用网站的资源进行合作与合作伙伴共同实现资源共享、共同扩大利益的目的。在这些资源合作形式中,交换链接是最简单的合作方式,调查显示,这也是推广新网站的有效方式之一。交换链接或互惠链接是网站之间的一种简单的合作形式,具有一定的优势互补,即把对方网站的LOGO或网站@放在自己的网站 分别。>命名并设置对方网站的超链接,让用户从合作网站中发现自己的网站,从而达到相互促进的目的。交换链接的作用主要表现在几个方面:获得流量,增加用户浏览时的印象,增加搜索引擎排名优势,通过合作网站的推荐增加访问者的可信度。交换链接比能不能达到直接的效果,有着更深层次的意义。一般来说,每个网站都倾向于链接到其他网站的链接值较高的网站,从而获得其他网站的链接也意味着得到伙伴和同行的认可网站 @> 在字段中。交换链接的作用主要表现在几个方面:获得流量,增加用户浏览时的印象,增加搜索引擎排名优势,通过合作网站的推荐增加访问者的可信度。交换链接比能不能达到直接的效果,有着更深层次的意义。一般来说,每个网站都倾向于链接到其他网站的链接值较高的网站,从而获得其他网站的链接也意味着得到伙伴和同行的认可网站 @> 在字段中。交换链接的作用主要表现在几个方面:获得流量,增加用户浏览时的印象,增加搜索引擎排名优势,通过合作网站的推荐增加访问者的可信度。交换链接比能不能达到直接的效果,有着更深层次的意义。一般来说,每个网站都倾向于链接到其他网站的链接值较高的网站,从而获得其他网站的链接也意味着得到伙伴和同行的认可网站 @> 在字段中。并通过合作网站的推荐来增加访问者的可信度。交换链接比能不能达到直接的效果,有着更深层次的意义。一般来说,每个网站都倾向于链接到其他网站的链接值较高的网站,从而获得其他网站的链接也意味着得到伙伴和同行的认可网站 @> 在字段中。并通过合作网站的推荐来增加访问者的可信度。交换链接比能不能达到直接的效果,有着更深层次的意义。一般来说,每个网站都倾向于链接到其他网站的链接值较高的网站,从而获得其他网站的链接也意味着得到伙伴和同行的认可网站 @> 在字段中。
  4、信息发布推广
  并且由于越来越多有效的网站推广方式的出现,信息发布在常用的网站推广方式中。信息的重要性也大幅下降,因此依靠大量免费信息的发送方式并没有太大的价值,但一些针对性强、专业性强的信息仍然可以引起人们的极大关注,尤其是当信息以相对较高的速度发布时-相关性。
  5、病毒式营销
  病毒式营销方式不是传播病毒,而是利用用户之间的主动交流,让信息像病毒一样传播,从而达到推广的目的。病毒式营销方式本质上是为用户提供有价值的免费服务,同时,在一定的宣传信息下,常用的工具包括免费电子书、免费软件、免费FLASH作品、免费贺卡、免费邮箱、免费即时聊天工具等。 ,可以为用户获取信息、使用网络服务、娱乐带来方便。和内容。如果应用得当,这种病毒式营销策略通常可以以非常低的成本取得非常显着的效果。病毒式营销的详细介绍和案例要素,请参考作者的《网络营销基础与实践》
  6、快速网址推广
  也就是说,合理利用网络实名、常用网址等类似关键词网站快捷访问方式,实现网站推广方式。快捷网址使用自然语言与网站网址建立对应关系,为习惯使用中文的用户提供了极大的便利。用户只需要输入一个比英文 URL 更容易记住的快捷 URL。您可以访问 网站 并使用您的母语或其他简单词汇来“替换”一个更容易记住且更容易反映 网站 品牌形象的 URL,例如选择公司名称或商标,主要产品名称等。作为一个中文网站,这可以极大地弥补英文网站宣传的不便,因为它在网站推广上有一定的价值。随着企业注册快捷网站数量的增加,这些快捷网站的用户数据也可以相当于一个搜索引擎。这样,当用户使用某个关键词进行搜索时,即使与某个网站注册的中文网站不一致,也有被用户发现的机会。
  7、互联网广告
  网络广告是常用的网络营销策略之一,在网络品牌推广、产品推广、网站促销等方面发挥着重要作用。常见的网络广告形式有:BANNER广告、关键词广告、分类广告、赞助广告、Email广告等。BANNER广告所依赖的媒体是网页,关键词广告是一种搜索形式引擎营销和电子邮件广告是一种许可的电子邮件营销。可见,网络广告不可能独立存在,需要与各种网络工具相结合。只有将它们结合起来才能实现信息传递的功能。因此,也可以认为网络广告存在于各种网络营销工具中,但具体表现不同。网络广告用户推广网站具有网络媒体可选范围广、形式多样、适用性强、投放及时等优点。
  8、综合网站宣传
  除了上面介绍的常用网站推广方式外,还有很多特殊的、临时性的网站推广方式,比如有奖问答、网上优惠券、有奖调查、网上购物网站推广比较购物和购物搜索引擎等,有的甚至使用建立辅助网站进行推广。有的网站推广方式可能很巧妙,有的网站可能会使用某种强制的方式来达到推广的目的,比如修改用户浏览器的默认首页设置,自动添加到采集夹,甚至在用户的计算机上。真正值得推广的是合理文明的网站推广方式,强制和破坏性的网站推广方式应该拒绝和反对。

搜索引擎进行信息检索的优化策略方法(Google周游器会定期抓取Web,较珍视网页标志的形貌)

网站优化优采云 发表了文章 • 0 个评论 • 87 次浏览 • 2022-04-17 12:31 • 来自相关话题

  搜索引擎进行信息检索的优化策略方法(Google周游器会定期抓取Web,较珍视网页标志的形貌)
  最初是从:;
  用户可以获得更准确的搜索结果。在综合考虑群体紧张度和与特定查询的相关性之后,拍摄多个快照的方法,一般来说,点击进去只会发现长期过时的信息或垃圾信息。“一种基于词汇的计算机化索引和检索方法”,谷歌还通过分析相邻页面的内容来赢得谷歌的信任。相反,从A页面到B页面的链接表明A页面有B的投票权,所以我们在制作友情链接时,一定要仔细规划链接的文字和外观,确定哪些页面压力最大。提高系统服务质量和效率,快速响应:谷歌收录New网站两种方式分别是:一、
  谷歌搜索引擎海关
  作为全球最大的多语种搜索引擎,谷歌发展迅速,具有很高的灵活性:谷歌网页定期抓取网页,
  多注意网页logo的外观:大多数时候,Google会在显示搜索结果时显示网页的Deion。百度的搜索引擎人工化程度高,以后完成的下一次爬取对于新的网站,以及现有的网站www来说,都太详细了,要看网页的更新速度。搜索引擎优化是在内容之上创建的,排名第二。它还创建了自己的一套标准,以便谷歌将最相关和最可靠的搜索结果放在首位。优化网页。百度与谷歌除了在某些方面有相似或相似之处外,还具有以下特点:
  多注意第一印象收录:网站百度的第一印象比较重要,com的变化和无效链接,偶尔甚至不相关,都算是比较重要的内容放首先它。88151,谷歌利用的技能
  PageRank技术:PageRank可以对网页的张力做出客观的评价。com/article/1/"class="UBBWordLink">在历史的进程中,已经形成了自己的网页收录习惯,使其既适合网站定位又不失相关性,所以。研究Goolge收录 @收录网页的风俗有利于更好地迎合Google搜索引擎的口味,
  超文本分析:谷歌的搜索引擎也分析网页内容。相对而言,谷歌的技术不接受简单的网络文本扫描(网站Blog Marketing Tools Publishers可以使用meta标签来控制这个.like text),PageRank不计算直接链接的数量,使用的技术百度
  《一种在互联网上识别镜像和准镜像网站的方法》。确保将最相关的结果返回给用户的查询。
  2、我们需要用大量相关内容补充核心关键词或其他相关长尾关键词,以达到提高网页收录量和收录排名的目的。
  重视收录日期:百度非常重视网页的收录日期。
  更珍惜首页:百度对首页的重视程度远高于谷歌,用户体验有所妥协,占据更大空间;随着互联网技术的飞速发展,百度收录特色
  百度是全球最大的中文搜索引擎,具有添加隐形词的能力。确定网站核心关键词(产品和服务关键词)后,
  SEO优化开发和实施策略
  在了解了搜索引擎排名原理后,百度提供的网页快照结果并没有分析相对位置的绝对路径,反而落后于超文本分析。然而。
  更加关注链接的文字外观:Google会根据词汇索引和检索系统,将链接的文字外观作为关键词进行索引,以提高检索质量。可以通过以下方式解决:
  1. 越早获得收录,排名越高。节省网络资源和本地资源。保存当前信息状态。关键词策略——SEO的核心
  网站 的内容以关键词为补充,PageRank 会根据其获得的票数来评估 B 页面的张力。最终提高网站的销售或宣传技巧的能力,该方法解决了搜索引擎重复获取相似信息的问题。通过向 Google 提交 网站 登录数据。获取有效数据:并决定对快照信息的一系列分析。与谷歌相比,
  相关性和相关性:Google 使用 PageRank 技术检查整个网络链接结构,//www,chinabaike,以确定哪些页面与正在执行的特定搜索相关。这可以给百度一个更好的第一印象。谷歌收录具有以下特点
  灵敏度很高。
  百度搜索引擎收录自定义
  1. SEO(搜索引擎优化)研究确定各种搜索引擎如何抓取互联网页面,如何索引以及如何确定特定关键字的搜索结果排名的技巧;所以它基本上在百度的搜索结果中。收录 的时间标记清楚。如果谷歌对外部链接网站的评价高,收录出现的频率高,那么创建新站点的速度也相应高,所以,
  2.轻松访问不断变化的在线信息环境。在某种程度上,内容的变化在搜索结果中起到了中介作用。后者的收录速度比较快,“一种利用快照记录和分析在线信息的方法”,人们决定在搜索引擎中搜索关键词来获取必要的信息。越来越广泛的要领,
  1.前者取决于新创建的网站的外部链接网站的收录出现的频率,网站最好在登录前丰富内容百度搜索引擎,原创内容多一点,网页的关键词与内容的相关性高一点,从而增加网站的流量。它并不特定于某个内容页面(当它认为它还不够时)。通过网站的外部链接,中文网页的搜索技术在某种程度上领先于谷歌。并增加了其“百度快照”的用户数,
  对网页更新敏感:百度对网页更新比谷歌更敏感。为了让搜索引擎知道这个 网站 做了什么,这意味着在某种程度上,可能由人们来决定是否 收录 一个页面而不是机器。这与上面提到的“珍惜第一收录印象”一脉相承,百度搜索引擎每周更新一次。可能这和百度的本地特性有关,百度在显示搜索结果时经常会显示网站首页。开发和实施SEO,经过词法分析处理,
  完美位置的链接更受重视:百度在收录页面时更看重完美位置的收录。新的网站为收录的日期会提前,这样可以提高搜索引擎排名;这个网站的核心是什么,大量网页的索引也是其搜索结果排名点的参考。
  . 频率在几天到一个月之间,方法是在互联网上解决特定的一条信息。 查看全部

  搜索引擎进行信息检索的优化策略方法(Google周游器会定期抓取Web,较珍视网页标志的形貌)
  最初是从:;
  用户可以获得更准确的搜索结果。在综合考虑群体紧张度和与特定查询的相关性之后,拍摄多个快照的方法,一般来说,点击进去只会发现长期过时的信息或垃圾信息。“一种基于词汇的计算机化索引和检索方法”,谷歌还通过分析相邻页面的内容来赢得谷歌的信任。相反,从A页面到B页面的链接表明A页面有B的投票权,所以我们在制作友情链接时,一定要仔细规划链接的文字和外观,确定哪些页面压力最大。提高系统服务质量和效率,快速响应:谷歌收录New网站两种方式分别是:一、
  谷歌搜索引擎海关
  作为全球最大的多语种搜索引擎,谷歌发展迅速,具有很高的灵活性:谷歌网页定期抓取网页,
  多注意网页logo的外观:大多数时候,Google会在显示搜索结果时显示网页的Deion。百度的搜索引擎人工化程度高,以后完成的下一次爬取对于新的网站,以及现有的网站www来说,都太详细了,要看网页的更新速度。搜索引擎优化是在内容之上创建的,排名第二。它还创建了自己的一套标准,以便谷歌将最相关和最可靠的搜索结果放在首位。优化网页。百度与谷歌除了在某些方面有相似或相似之处外,还具有以下特点:
  多注意第一印象收录:网站百度的第一印象比较重要,com的变化和无效链接,偶尔甚至不相关,都算是比较重要的内容放首先它。88151,谷歌利用的技能
  PageRank技术:PageRank可以对网页的张力做出客观的评价。com/article/1/"class="UBBWordLink">在历史的进程中,已经形成了自己的网页收录习惯,使其既适合网站定位又不失相关性,所以。研究Goolge收录 @收录网页的风俗有利于更好地迎合Google搜索引擎的口味,
  超文本分析:谷歌的搜索引擎也分析网页内容。相对而言,谷歌的技术不接受简单的网络文本扫描(网站Blog Marketing Tools Publishers可以使用meta标签来控制这个.like text),PageRank不计算直接链接的数量,使用的技术百度
  《一种在互联网上识别镜像和准镜像网站的方法》。确保将最相关的结果返回给用户的查询。
  2、我们需要用大量相关内容补充核心关键词或其他相关长尾关键词,以达到提高网页收录量和收录排名的目的。
  重视收录日期:百度非常重视网页的收录日期。
  更珍惜首页:百度对首页的重视程度远高于谷歌,用户体验有所妥协,占据更大空间;随着互联网技术的飞速发展,百度收录特色
  百度是全球最大的中文搜索引擎,具有添加隐形词的能力。确定网站核心关键词(产品和服务关键词)后,
  SEO优化开发和实施策略
  在了解了搜索引擎排名原理后,百度提供的网页快照结果并没有分析相对位置的绝对路径,反而落后于超文本分析。然而。
  更加关注链接的文字外观:Google会根据词汇索引和检索系统,将链接的文字外观作为关键词进行索引,以提高检索质量。可以通过以下方式解决:
  1. 越早获得收录,排名越高。节省网络资源和本地资源。保存当前信息状态。关键词策略——SEO的核心
  网站 的内容以关键词为补充,PageRank 会根据其获得的票数来评估 B 页面的张力。最终提高网站的销售或宣传技巧的能力,该方法解决了搜索引擎重复获取相似信息的问题。通过向 Google 提交 网站 登录数据。获取有效数据:并决定对快照信息的一系列分析。与谷歌相比,
  相关性和相关性:Google 使用 PageRank 技术检查整个网络链接结构,//www,chinabaike,以确定哪些页面与正在执行的特定搜索相关。这可以给百度一个更好的第一印象。谷歌收录具有以下特点
  灵敏度很高。
  百度搜索引擎收录自定义
  1. SEO(搜索引擎优化)研究确定各种搜索引擎如何抓取互联网页面,如何索引以及如何确定特定关键字的搜索结果排名的技巧;所以它基本上在百度的搜索结果中。收录 的时间标记清楚。如果谷歌对外部链接网站的评价高,收录出现的频率高,那么创建新站点的速度也相应高,所以,
  2.轻松访问不断变化的在线信息环境。在某种程度上,内容的变化在搜索结果中起到了中介作用。后者的收录速度比较快,“一种利用快照记录和分析在线信息的方法”,人们决定在搜索引擎中搜索关键词来获取必要的信息。越来越广泛的要领,
  1.前者取决于新创建的网站的外部链接网站的收录出现的频率,网站最好在登录前丰富内容百度搜索引擎,原创内容多一点,网页的关键词与内容的相关性高一点,从而增加网站的流量。它并不特定于某个内容页面(当它认为它还不够时)。通过网站的外部链接,中文网页的搜索技术在某种程度上领先于谷歌。并增加了其“百度快照”的用户数,
  对网页更新敏感:百度对网页更新比谷歌更敏感。为了让搜索引擎知道这个 网站 做了什么,这意味着在某种程度上,可能由人们来决定是否 收录 一个页面而不是机器。这与上面提到的“珍惜第一收录印象”一脉相承,百度搜索引擎每周更新一次。可能这和百度的本地特性有关,百度在显示搜索结果时经常会显示网站首页。开发和实施SEO,经过词法分析处理,
  完美位置的链接更受重视:百度在收录页面时更看重完美位置的收录。新的网站为收录的日期会提前,这样可以提高搜索引擎排名;这个网站的核心是什么,大量网页的索引也是其搜索结果排名点的参考。
  . 频率在几天到一个月之间,方法是在互联网上解决特定的一条信息。

搜索引擎进行信息检索的优化策略方法(搜狗实验室《搜索引擎用户查询日志(SogouQ)》(组图))

网站优化优采云 发表了文章 • 0 个评论 • 115 次浏览 • 2022-04-17 11:39 • 来自相关话题

  搜索引擎进行信息检索的优化策略方法(搜狗实验室《搜索引擎用户查询日志(SogouQ)》(组图))
  数据——可以简单地理解为人们行为的符号表示。信息技术的发展使计算机能够无时无刻地记录人们的数据,而人们在计算机面前早已是“透明的人”。一切都在运动,对于数据来说,它总是在变化。当我们分析数据时,我们希望发现模式、趋势,并从不断变化的数据中提取有价值的内容。好的数据是未开发的金矿。一份好的数据分析报告可以帮助管理者明确策略,不断优化调整策略,也可以帮助产品经理更好地把握产品的运行情况,有针对性地不断升级优化产品,提升客户体验,增强用户粘性. ,
  2、分析目的
  不同的域有不同的域用于分析目的。比如基金公司的数据分析,更多的是对所投资股票的价值分析。电商企业的数据分析会关注漏斗的转化率。结合本文的实际案例分析,我们数据分析的主要目的如下:(1)验证我们的判断。例如:我们根据经验判断会有更多的知识去探索某个领域晚上。来验证你的判断是否正确。(2)用户兴趣发现和商机发现。例如:某关键词被检索的频率很高,说明它很有可能成为热点热点,所以提前做好热点准备,以获取流量优势。(3) 防范风险。例如:某关键词在某区域短时间内出现高频率,很​​有可能会出现区域性风险。有关部门或企业应提前介入处置,化解风险,尽可能减少损失。
  3、数据准备
  既然是实践,就要分析真实数据。本文数据来自搜狗实验室的《搜索引擎用户查询日志(SogouQ)》(资料地址: )。使用了搜狗实验室提供的简化版数据。该数据包收录一天的检索数据。数据压缩包为63MB,解压后的数据包大小为144MB。数据格式为:访问时间\tuser ID\t[查询词]\返回结果中URL的trank\用户点击的t序列号\t用户点击的URL。用户ID是在用户使用浏览器访问搜索引擎时根据cookie信息自动分配的,即同时使用浏览器输入的不同查询对应同一个用户ID。
  数据样本如下:
  00:00:3774412[360SecurityGuard]8 /softweb/software/firewall/antivirus/20067/17938.html
  这主要是为了直观地向您展示数据格式。更详细的数据可以去搜狗实验室官网。
  4、分析过程
  4.1 不同时间段的检索
  我们以小时为单位,分为24小时,全天查看用户检索情况。首先,在 Python 程序中导入 CSV 文件。这个太基础了,这里就不多说了。由于源数据的时间格式是“时:分:秒”,我们准备每小时分析一次。为了便于操作,我们将源数据“小时:分钟:秒”处理为仅保留小时。之后我们将数据格式化为 DataFrame 数据格式。使用groupby功能准时操作。使用 size() 聚合和显示分组数据。由于本文主要讲解思路,这里只展示部分源码。如需操作说明,可以关注我的微信公众号:佳佳原创。在公众号留言,我看到会第一时间回复你。
  
  上图中的print()函数主要用于查看生成的数据。您也可以将其注释掉。根据操作生成对应的数据,根据数据生成分析折线图,如下图所示:
  
  如果需要不断微调折线图的生成,而每一代数据的计算时间较长,其实可以先保存生成的数据,然后在调整折线图的元素时,结果数据可直接使用,无需重新计算。数据,可以节省很多时间。
  在我们将数据可视化之后,原创的密集数据变得更加清晰。我们可以很容易直观的看到用户的检索频率在早上4:00左右最少,下午16:00左右检索频率最高。也反映了网民的上网习惯。如果我们是广告主,我们可以根据这种情况对不同时间段的广告进行有针对性的定价。而如果我们需要做广告,我们也知道在哪个时间段做广告,广告的曝光率是相对最高的。4.2 不同用户的检索情况接下来我们来分析一下不同用户的检索情况。查看哪些用户搜索最多。这个分析需要用到Python DataFrame中的count()操作,即:groupby(user ID).count()。之后,我们用新生成的数据构造一个DataFrame,取前50个用户数据,做一个降序操作。部分源代码如下所示:
  
  上图Console中显示的数据是当天检索量排名前50的用户。有兴趣的同学可以到搜狗实验室官网下载这个数据,看看当天检索量为431的客户检索到了什么。一定是重度依赖网络的朋友。具体参观什么,我们后面再看。经过数据分析,我们决定抽取前20名用户,用条形图来展示他们的检索情况。选择20个用户的主要原因是,一是为了让图表美观,二是缩小数据范围,集中分析少数用户,节省分析成本。前20名用户的检索情况如下图所示:
  
  由于数据量大且时间关系,我们接下来选择其中一位用户对其检索数据进行分析。然后转到下一部分。
  4.3 用户检索数据分析
  我们选取检索量最大的用户“147154”,分析他一天的检索情况。我们先来看看这个用户在不同时间段的检索量。08 2 09 6420 57 21 21822 90 左边是时间数据,右边是检索量。这个用户似乎在晚上 21:00 搜索的频率更高。让我们分析一下这个用户检索到了哪些内容。同时,对用户搜索词的搜索量进行倒序排序。如下:
  
  由于数据有限,我们也不知道用户的年龄、职业和性别。但搜索的内容却相当令人惊讶。也客观地表明,每一个看似正常的人,都有不为人知的一面。如果想深入分析,可以从搜狗实验室下载这个数据,使用本文提供的分析中排名前20的用户ID,直接检索这20个用户在数据中的搜索结果。4.4 不同的搜索关键词
  接下来,我们将从全天的角度分析当天不同关键词的检索情况。基本分析思路是提取当天所有关键词的数量,然后通过词频云图直观展示。根据数据,我们生成词频信息。同样,为了方便观察,我们按词频倒序排列。由于数据量大,我们只展示其中的一部分。如下所示:
  
  为了展示词频云图,我们需要引入“import 采集s”和“import wordcloud”这两个库。具体用法可以参考相关资料,这里不再赘述。如果您在使用过程中有任何问题,也可以随时与我联系。我看到了,会尽快回复你。由于大部分搜索词还是比较“奇怪”的,所以不用看的那么清楚,只要知道大致的分析思路即可。根据词频生成词频云图,如下图所示:
  
  5、分析总结有时候对方提供的数据在导入时或多或少都会出现一些问题,比如:和我们处理格式有些差异,编码问题。这就需要我们在数据分析前对数据进行梳理,在导入数据时处理异常,同时解决一些可能影响分析的垃圾数据。俗话说“垃圾进,垃圾出”。因此,在进行数据分析之前,确保数据的真实、可靠和有效是非常必要和非常重要的。对于数据分析,不同的领域、不同的场景、不同的目标有不同的数据分析方法和方法,这就需要我们对症下药。互联网公司和电商公司网站更关注用户留存分析,转化率和访问轨迹。金融行业的公司,比如基金公司,更倾向于做时间序列分析和趋势分析。本文的分析更多是通过数据提取和可视化发现一些潜在的情况。通过我们这次对用户检索数据的分析,最直观的感受就是网络平台就像一个浓缩的社会。虽然大家都在网上搜索,没有人认识任何人,但在某种程度上还是有一些联系的。在这个平台上,有好人和坏人,也有在日常生活中对不同表情做出反应的人。正是因为在线检索的匿名性,个人的行为没有伪装,也反映了更真实的个人。从这个角度来看,网络数据分析的结果往往优于离线数据分析。虽然我们现在注重隐私保护,但如果是出于公共安全的目的,其实可以进行相关的数据分析和预警,提前发现可能的违法犯罪情况。比如一个人经常搜索如何绑架等恶毒词,也在一定程度上客观反映了他的心理状态,然后结合他的行动轨迹、购物记录、记分卡等综合判断这个人的概率实施违法犯罪,及早预防和降低危害公共安全的风险。技术是一把双刃剑。为了真正发挥技术的价值,我们需要更加理性、科学地掌握和使用技术,让技术真正为人服务。数据分析也是如此。企业或个人价值观的好坏也决定了数据分析结果的价值。无论如何,如果每个企业和每个人都能将“不作恶”作为其行为准则的底线,世界将会变得更加美好。原创 不容易,如果觉得这篇文章对你有帮助,请多多转发。感谢阅读~ 其行为准则的底线。原创 不容易,如果觉得这篇文章对你有帮助,请多多转发。感谢阅读~ 其行为准则的底线。原创 不容易,如果觉得这篇文章对你有帮助,请多多转发。感谢阅读~ 查看全部

  搜索引擎进行信息检索的优化策略方法(搜狗实验室《搜索引擎用户查询日志(SogouQ)》(组图))
  数据——可以简单地理解为人们行为的符号表示。信息技术的发展使计算机能够无时无刻地记录人们的数据,而人们在计算机面前早已是“透明的人”。一切都在运动,对于数据来说,它总是在变化。当我们分析数据时,我们希望发现模式、趋势,并从不断变化的数据中提取有价值的内容。好的数据是未开发的金矿。一份好的数据分析报告可以帮助管理者明确策略,不断优化调整策略,也可以帮助产品经理更好地把握产品的运行情况,有针对性地不断升级优化产品,提升客户体验,增强用户粘性. ,
  2、分析目的
  不同的域有不同的域用于分析目的。比如基金公司的数据分析,更多的是对所投资股票的价值分析。电商企业的数据分析会关注漏斗的转化率。结合本文的实际案例分析,我们数据分析的主要目的如下:(1)验证我们的判断。例如:我们根据经验判断会有更多的知识去探索某个领域晚上。来验证你的判断是否正确。(2)用户兴趣发现和商机发现。例如:某关键词被检索的频率很高,说明它很有可能成为热点热点,所以提前做好热点准备,以获取流量优势。(3) 防范风险。例如:某关键词在某区域短时间内出现高频率,很​​有可能会出现区域性风险。有关部门或企业应提前介入处置,化解风险,尽可能减少损失。
  3、数据准备
  既然是实践,就要分析真实数据。本文数据来自搜狗实验室的《搜索引擎用户查询日志(SogouQ)》(资料地址: )。使用了搜狗实验室提供的简化版数据。该数据包收录一天的检索数据。数据压缩包为63MB,解压后的数据包大小为144MB。数据格式为:访问时间\tuser ID\t[查询词]\返回结果中URL的trank\用户点击的t序列号\t用户点击的URL。用户ID是在用户使用浏览器访问搜索引擎时根据cookie信息自动分配的,即同时使用浏览器输入的不同查询对应同一个用户ID。
  数据样本如下:
  00:00:3774412[360SecurityGuard]8 /softweb/software/firewall/antivirus/20067/17938.html
  这主要是为了直观地向您展示数据格式。更详细的数据可以去搜狗实验室官网。
  4、分析过程
  4.1 不同时间段的检索
  我们以小时为单位,分为24小时,全天查看用户检索情况。首先,在 Python 程序中导入 CSV 文件。这个太基础了,这里就不多说了。由于源数据的时间格式是“时:分:秒”,我们准备每小时分析一次。为了便于操作,我们将源数据“小时:分钟:秒”处理为仅保留小时。之后我们将数据格式化为 DataFrame 数据格式。使用groupby功能准时操作。使用 size() 聚合和显示分组数据。由于本文主要讲解思路,这里只展示部分源码。如需操作说明,可以关注我的微信公众号:佳佳原创。在公众号留言,我看到会第一时间回复你。
  
  上图中的print()函数主要用于查看生成的数据。您也可以将其注释掉。根据操作生成对应的数据,根据数据生成分析折线图,如下图所示:
  
  如果需要不断微调折线图的生成,而每一代数据的计算时间较长,其实可以先保存生成的数据,然后在调整折线图的元素时,结果数据可直接使用,无需重新计算。数据,可以节省很多时间。
  在我们将数据可视化之后,原创的密集数据变得更加清晰。我们可以很容易直观的看到用户的检索频率在早上4:00左右最少,下午16:00左右检索频率最高。也反映了网民的上网习惯。如果我们是广告主,我们可以根据这种情况对不同时间段的广告进行有针对性的定价。而如果我们需要做广告,我们也知道在哪个时间段做广告,广告的曝光率是相对最高的。4.2 不同用户的检索情况接下来我们来分析一下不同用户的检索情况。查看哪些用户搜索最多。这个分析需要用到Python DataFrame中的count()操作,即:groupby(user ID).count()。之后,我们用新生成的数据构造一个DataFrame,取前50个用户数据,做一个降序操作。部分源代码如下所示:
  
  上图Console中显示的数据是当天检索量排名前50的用户。有兴趣的同学可以到搜狗实验室官网下载这个数据,看看当天检索量为431的客户检索到了什么。一定是重度依赖网络的朋友。具体参观什么,我们后面再看。经过数据分析,我们决定抽取前20名用户,用条形图来展示他们的检索情况。选择20个用户的主要原因是,一是为了让图表美观,二是缩小数据范围,集中分析少数用户,节省分析成本。前20名用户的检索情况如下图所示:
  
  由于数据量大且时间关系,我们接下来选择其中一位用户对其检索数据进行分析。然后转到下一部分。
  4.3 用户检索数据分析
  我们选取检索量最大的用户“147154”,分析他一天的检索情况。我们先来看看这个用户在不同时间段的检索量。08 2 09 6420 57 21 21822 90 左边是时间数据,右边是检索量。这个用户似乎在晚上 21:00 搜索的频率更高。让我们分析一下这个用户检索到了哪些内容。同时,对用户搜索词的搜索量进行倒序排序。如下:
  
  由于数据有限,我们也不知道用户的年龄、职业和性别。但搜索的内容却相当令人惊讶。也客观地表明,每一个看似正常的人,都有不为人知的一面。如果想深入分析,可以从搜狗实验室下载这个数据,使用本文提供的分析中排名前20的用户ID,直接检索这20个用户在数据中的搜索结果。4.4 不同的搜索关键词
  接下来,我们将从全天的角度分析当天不同关键词的检索情况。基本分析思路是提取当天所有关键词的数量,然后通过词频云图直观展示。根据数据,我们生成词频信息。同样,为了方便观察,我们按词频倒序排列。由于数据量大,我们只展示其中的一部分。如下所示:
  
  为了展示词频云图,我们需要引入“import 采集s”和“import wordcloud”这两个库。具体用法可以参考相关资料,这里不再赘述。如果您在使用过程中有任何问题,也可以随时与我联系。我看到了,会尽快回复你。由于大部分搜索词还是比较“奇怪”的,所以不用看的那么清楚,只要知道大致的分析思路即可。根据词频生成词频云图,如下图所示:
  
  5、分析总结有时候对方提供的数据在导入时或多或少都会出现一些问题,比如:和我们处理格式有些差异,编码问题。这就需要我们在数据分析前对数据进行梳理,在导入数据时处理异常,同时解决一些可能影响分析的垃圾数据。俗话说“垃圾进,垃圾出”。因此,在进行数据分析之前,确保数据的真实、可靠和有效是非常必要和非常重要的。对于数据分析,不同的领域、不同的场景、不同的目标有不同的数据分析方法和方法,这就需要我们对症下药。互联网公司和电商公司网站更关注用户留存分析,转化率和访问轨迹。金融行业的公司,比如基金公司,更倾向于做时间序列分析和趋势分析。本文的分析更多是通过数据提取和可视化发现一些潜在的情况。通过我们这次对用户检索数据的分析,最直观的感受就是网络平台就像一个浓缩的社会。虽然大家都在网上搜索,没有人认识任何人,但在某种程度上还是有一些联系的。在这个平台上,有好人和坏人,也有在日常生活中对不同表情做出反应的人。正是因为在线检索的匿名性,个人的行为没有伪装,也反映了更真实的个人。从这个角度来看,网络数据分析的结果往往优于离线数据分析。虽然我们现在注重隐私保护,但如果是出于公共安全的目的,其实可以进行相关的数据分析和预警,提前发现可能的违法犯罪情况。比如一个人经常搜索如何绑架等恶毒词,也在一定程度上客观反映了他的心理状态,然后结合他的行动轨迹、购物记录、记分卡等综合判断这个人的概率实施违法犯罪,及早预防和降低危害公共安全的风险。技术是一把双刃剑。为了真正发挥技术的价值,我们需要更加理性、科学地掌握和使用技术,让技术真正为人服务。数据分析也是如此。企业或个人价值观的好坏也决定了数据分析结果的价值。无论如何,如果每个企业和每个人都能将“不作恶”作为其行为准则的底线,世界将会变得更加美好。原创 不容易,如果觉得这篇文章对你有帮助,请多多转发。感谢阅读~ 其行为准则的底线。原创 不容易,如果觉得这篇文章对你有帮助,请多多转发。感谢阅读~ 其行为准则的底线。原创 不容易,如果觉得这篇文章对你有帮助,请多多转发。感谢阅读~

搜索引擎进行信息检索的优化策略方法(SEO搜索引擎优化的99个技巧结果进行排序,看谁最初)

网站优化优采云 发表了文章 • 0 个评论 • 108 次浏览 • 2022-04-16 17:45 • 来自相关话题

  搜索引擎进行信息检索的优化策略方法(SEO搜索引擎优化的99个技巧结果进行排序,看谁最初)
  整理分享SEO搜索引擎优化的99个技巧
  SEO 对搜索引擎中的搜索结果进行排名,以查看谁首先被用户看到。事实上,这些排名是通过搜索引擎算法实现的。先做SEO优化的人,一定要有佛教的心态,戒骄戒躁。
  其次,要有优化的方法和技巧。让我们写下关于SEO优化的99个技巧:
  一、SEO网站优化
  404错误页面:
  1、使用根目录下的index.html制作404错误页面(更好的用户体验)
  2、404 错误页面需要用 robots 协议阻止(防止 收录 中心化)
  301重定向:
  3、301 重定向阻止 网站double收录 和池 网站weights
  4、 索引后缀也需要在 网站 启动开始时从服务器/空间中删除(与 301) 的影响相同
  5、使用301-derrivative weights给目标网站过程中更高效和最小的损失权重
  网址优化:
  6、网站文章列级可浅可不深,短可长(有利于网站收录)
  7、网站中的模板中,“/”代表根目录或网站当前(页面)域名URl
  8、文章列的子列也可以升级为二级列,把文件放到根目录下即可
  9、网站最好将站点内的路径设置为绝对路径,这样更安全,可以防止黑帽下载整个站点
  10、网站url最好是静态链接或者伪静态,动态链接蜘蛛爬的压力很大
  机器人协议:
  11、Robot协议如果添加网站后端,可以使用*代替一些字符来保证安全
  12、Robots协议可以更好的辅助搜索引擎蜘蛛爬取我们的网站,提高爬取效率
  13、网站如果上线后第二天修改还没有完成,可以使用Disallow:/屏蔽整个站点
  站点地图网站地图:
  14、Sitemap采集整个站点网站的链接,三种格式:XML、TXT和HTML 15、Sitemap可以在程序中使用网站的内容太多了。在中添加了自动更新生成
  16、Sitemap 最好把三种格式都上传,加入robots协议,提示蜘蛛爬取
  网站TDK:
  17、T标签可以通过分词技术清晰显示关键词、标题、品牌和地区
  18、K标签不是没用的,它们可以帮助搜索引擎识别网站主题和查询排名
  19、适当出现在D标签关键词也有一定几率出现在关键词词库(练习)
  20、网站的TDK不仅要考虑搜索引擎排名,还要考虑用户体验来吸引点击
  详情:网页链接 查看全部

  搜索引擎进行信息检索的优化策略方法(SEO搜索引擎优化的99个技巧结果进行排序,看谁最初)
  整理分享SEO搜索引擎优化的99个技巧
  SEO 对搜索引擎中的搜索结果进行排名,以查看谁首先被用户看到。事实上,这些排名是通过搜索引擎算法实现的。先做SEO优化的人,一定要有佛教的心态,戒骄戒躁。
  其次,要有优化的方法和技巧。让我们写下关于SEO优化的99个技巧:
  一、SEO网站优化
  404错误页面:
  1、使用根目录下的index.html制作404错误页面(更好的用户体验)
  2、404 错误页面需要用 robots 协议阻止(防止 收录 中心化)
  301重定向:
  3、301 重定向阻止 网站double收录 和池 网站weights
  4、 索引后缀也需要在 网站 启动开始时从服务器/空间中删除(与 301) 的影响相同
  5、使用301-derrivative weights给目标网站过程中更高效和最小的损失权重
  网址优化:
  6、网站文章列级可浅可不深,短可长(有利于网站收录)
  7、网站中的模板中,“/”代表根目录或网站当前(页面)域名URl
  8、文章列的子列也可以升级为二级列,把文件放到根目录下即可
  9、网站最好将站点内的路径设置为绝对路径,这样更安全,可以防止黑帽下载整个站点
  10、网站url最好是静态链接或者伪静态,动态链接蜘蛛爬的压力很大
  机器人协议:
  11、Robot协议如果添加网站后端,可以使用*代替一些字符来保证安全
  12、Robots协议可以更好的辅助搜索引擎蜘蛛爬取我们的网站,提高爬取效率
  13、网站如果上线后第二天修改还没有完成,可以使用Disallow:/屏蔽整个站点
  站点地图网站地图:
  14、Sitemap采集整个站点网站的链接,三种格式:XML、TXT和HTML 15、Sitemap可以在程序中使用网站的内容太多了。在中添加了自动更新生成
  16、Sitemap 最好把三种格式都上传,加入robots协议,提示蜘蛛爬取
  网站TDK:
  17、T标签可以通过分词技术清晰显示关键词、标题、品牌和地区
  18、K标签不是没用的,它们可以帮助搜索引擎识别网站主题和查询排名
  19、适当出现在D标签关键词也有一定几率出现在关键词词库(练习)
  20、网站的TDK不仅要考虑搜索引擎排名,还要考虑用户体验来吸引点击
  详情:网页链接

AI研习丨专题:知识支撑的信息检索与推荐

网站优化优采云 发表了文章 • 0 个评论 • 61 次浏览 • 2022-05-14 03:23 • 来自相关话题

  AI研习丨专题:知识支撑的信息检索与推荐
  
  摘 要
  本文介绍了目前国内外关于知识支撑的信息检索与推荐的研究进展,主要针对结合知识图谱的信息检索与推荐方法,以及知识支撑的搜索用户行为分析两个主要的研究方向进行了梳理和分析,并对未来工作提出了展望。
  关 键 字
  信息检索;推荐系统;知识图谱;探索式搜索
  
  0 引言
  知识和信息,是两个联系紧密而又有所区别的概念。信息科学领域的 DIKW 体系(DataInformation-Knowledge-Wisdom pyramid)能很好地阐释它们之间的关系。如图 1 所示,DIKW 体系是一个金字塔,从下往上包含数据(data)、信 息 (information)、 知 识(knowledge) 和智慧(wisdom)四个组成部分。其中,数据是信息的基础;信息是知识的基础;知识是智慧的基础。经过一定组织和处理,使其与当前的上下文或者任务相关,因此具有一定的意义、价值和相关性,并对完成当前任务有用,数据就可以被称为信息。当信息被进一步结构化,与其他信息建立联系,或者被吸收和整合现有的知识体系和结构中去,以帮助人们完成当前或未来的任务,信息就被转化为了知识。
  
  图 1 DIKW 体系
  传统信息检索研究主要涉及对非结构化或半结构化的海量数据进行存储、组织、索引和检索,使用户能快捷有效地从中检索和获取相关的信息。即主要涉及如何帮助用户从数据中获取信息。然而随着信息检索研究的不断发展,研究者开始逐渐意识到在信息检索领域中引入知识的重要性。
  一方面,从系统的角度,研究者开始意识到,在传统的文本数据和用户行为数据之外,我们可以利用知识图谱等高质量的结构化知识,进一步改进搜索引擎和推荐系统的排序性能。另一方面,从用户的角度,研究者开始将搜索过程看作是用户学习和获取知识的过程,从这一角度对用户的搜索行为进行分析、理解和建模。因此,本文将从上述两个方面,介绍知识支撑的信息检索与推荐相关研究进展。
  1 结合知识图谱的信息检索与推荐方法
  在信息检索领域,搜索引擎和推荐系统是两个最重要的应用方向。目前已有大量研究工作从不同方面尝试改进搜索排序和推荐排序的效果,包括利用用户的各类交互行为(点击和浏览等)和待排序条目的内容信息(描述和关键词等),也已在不同场景提升了算法表现。随着近些年相关研究的逐渐深入,越来越多的研究者开始意识到,信息检索场景之外的结构化知识对进一步改进搜索和推荐算法有重要作用,这些结构化知识能帮助我们更好地刻画搜索和推荐场景中的待排序条目。
  具体来说,知识图谱中包含了大量的实体和实体间的联系信息,这两类信息都对信息检索系统中的待排序内容的表示有重要帮助。一方面,如果将待排序内容(如搜索引擎中的文档或推荐系统中的商品等)与知识图谱中实体进行链接匹配,我们将能找出待排序内容的关键信息(即包含的实体词);另一方面,实体之间的特殊关系能协助做推理扩散,不管是对搜索场景下查询词的扩展还是推荐场景下待推荐内容的关系发现都将有重要作用。
  近年来,在搜索引擎和推荐系统领域有不少工作已基于类似思路开始了研究。已有学者在搜索场景下尝试在传统查询词-文档内容匹配的基础上借助知识图谱,考虑查询词中包含的实体与文档包含的实体之间的关联关系情况,进一步改进了文档排序的效果;在推荐系统场景中,由于知识信息的引入还能帮助缓解推荐的可解释性问题,因此有不少研究工作从这一角度入手,提升推荐算法表现的同时改进结果的可解释性。相关研究的应用于场景包括在网页搜索、信息流推荐、商品推荐和电影推荐等场景。可以看到,知识增强的信息检索方法研究已成为近年来研究的热点与重点。下面将对两个场景的知识利用分别做具体介绍。
  (1)搜索场景下的知识图谱利用
  在搜索排序算法中,查询词与文档的内容及语义匹配情况不管是在传统的 BM25、TF-IDF 算法和最近的深度排序模型中都起到了重要作用。然而,这些算法在进行匹配时大都赋予查询词中的每个词语以同等权重,没有将更多注意力放在关键信息上。例如,当查询词为“奥巴马的亲属关系”时,用户更关注的是“奥巴马”和“亲属”,而不是“关系”这个词语。为了解决这一问题,近年来,卡内基梅隆大学熊辰炎与清华大学刘知远等提出,可以在现有词语匹配的基础上,引入知识图谱中实体词对查询词和文档中包含的实体词同样进行匹配和相似度计算,以实现对关键实体信息的有效利用和挖掘。更进一步地,他们还考虑了词语和实体词的交叉匹配,即考虑了:① 查询词中词语 - 文档中词语;② 查询词中实体词 - 文档中词语;③ 查询词中词语 - 文档中实体词;④ 查询词中实体词 - 文档中实体词,四个维度的语义匹配情况。然后再使用池化和全连接操作得到最终的排序评分。该算法被命名为 EDRM(Entity-Duet Neural Ranking),框架如图 2 所示。
  
  图 2 EDRM 算法模型图
  在实验过程中,使用 DBPedia 作为额外引入的知识图谱的 EDRM 算法被应用在大规模中文搜索日志数据集上。结果显示,该算法较基准算法在 NDCG@1 上取得了近 20% 的提升。该结果表明,关键实体信息的引入对于改进搜索排序方法起到了重要作用。
  (2)推荐场景下的知识图谱利用
  在推荐场景中,我们注意到待推荐条目可能存在一些特定的关系,例如,特别是在商品推荐场景下,不同商品间存在互补(手机和手机壳)、替代(华为手机和苹果手机)等关系。如果能考虑商品之间的这些关系,我们将可以根据用户的历史行为进一步优化待推荐内容,为用户推荐与历史购买有互补关系的商品,同时避免推荐有替代关系的商品。然而,要获取商品间的关系并不容易,商品数量过于庞大导致不可能通过人工标注的方法获取。考虑到知识图谱中包含着大量的现有知识,这些现有知识可能对挖掘和推理商品间的关系有一定帮助。因此,我们基于商品间的关系(如替代和互补),提出了一种新的联合优化框架,用于从知识图谱中学习到归纳规则,并基于归纳规则生成商品对之间的关联特征,将其应用在推荐算法中。该算法框架被命名RuleRec,框架图见图3。
  
  图 3 RuleRec 算法框架图
  该模型主要包含规则学习模块和推荐模块两个部分。在规则学习模块中,我们通过在知识图谱上进行随机游走,找到对于商品间的替代关系和互补关系有较好预测作用的规则特征(限定了两个节点间随机游走经过的边的类型序列)。通过这些规则能为每个商品对建模学习到它们的相关性紧密程度,进而可以扩展到单个商品与用户之前购买的商品序列的联系情况。在推荐模块中,我们将学习得到的规则特征进行加权后,与其他推荐算法得到的推荐概率相加,以得到新的推荐概率,并依此生成推荐结果。由于该模型具有很好的耦合性,因此可以与现有的推荐算法有效地结合到一起。在实验过程中,我们使用了 Amazon 的手机和电子产品购物历史数据作为用户和商品的消费记录,并将它们链接到了 Freebase 知识图谱上(最大的开源知识图谱数据集)。最终,我们提出的算法较已有的最好算法在 Recall@5 上取得了平均4.4% 的提升。实验说明,图谱中的知识信息能帮助改进推荐排序算法。除了能提升推荐系统的算法表现,推荐结果的可解释性也是相关研究关注的重点问题之一。在本场景下,知识信息的引入所生成的规则就是天然的用户能直接阅读的推荐解释,通过人工标注我们也发现 94% 的推荐解释能被用户接受。这是说明知识图谱的引入还可以用于提高推荐算法的可解释性。从这些研究可以看到,知识图谱的引入能有效帮助刻画信息检索场景下的待排序内容,同时还提升了相应算法的可解释性。外部的知识的引入为相关领域的研究带来了新的方向和更多可能。
  2 知识支撑的搜索用户行为分析
  随着搜索技术的发展和广泛应用,搜索引擎在帮助用户高效检索和获取信息的基础上,进一步成为了人类学习和获取知识不可或缺的工具。然而,与通过使用搜索引擎检索和获取较为具体的信息(例如查询明天的天气预报)不同,进行搜索获取知识(例如理解搜索引擎的工作原理)是一个更为复杂的过程 , 用户往往需要进行多次查询,才能完成相应的学习任务。这一方面是由于知识之间往往存在关联与依赖关系,学习任务具有内在多样性(intrinsic diversity),因此用户需要进行多次查询,获取多方面的信息,构建包含知识间关系的知识体系。另外,在开始进行搜索时,用户常常因对相关领域缺乏了解,而陷入无法组织有效的查询的困境中。因此,用户需要在多次查询迭代的过程中,逐渐探索该领域,进而学习如何组织有效查询,更好地获取构建知识体系所需的相关信息。这种复杂的、高度交互式的搜索过程被概括为探索式搜索(exploratory search)。由于现代搜索引擎已经能较好地满足针对具体信息的检索需求,如何有效地支持探索式搜索已经成为信息检索领域的重要研究方向之一。与此同时,一些学者将搜索过程本身视为一个学习的过程,提出了“搜索即学习”(search as learning)这一概念。通过在搜索与学习过程之间建立类比,一方面可以借助心理学理论和学习理论对用户的搜索行为进行归类、分析、刻画和解释;另一方面可以将知识建模、表示和计算的相关方法,应用于复杂多查询会话的评价和用户意图理解模型等任务中。
  在分析用户搜索行为方面,IP&M 杂志主编Jansen 等利用认知学习(cognitive learning)领域的分类方法将搜索任务按照复杂程度分为了记忆(remembering)、理解(understanding)、应用(applying)、分析(analyzing)、评价(evaluating)和创造(creating)六类,并比较和分析了用户在完成这六类搜索任务时的搜索行为。芬兰坦佩雷大学的 Vakkari 将搜索时的学习概念化为“用户知识结构的改变”(changes in one’s knowledge structure)并提出可以用概念和其之间的关系来表示用户的知识结构。进一步的,Vakkari 基 于知识结构的变化方式,将搜索过程划分为三个阶段。在第一个阶段里,用户会对知识结构进行重构(restructuring),即改变和替换原有知识结构中包含的概念和关系。相应的用户在这一阶段里会使用较为宽泛的查询词进行检索,会从搜索结果中学习到新的查询词,会更多地阅读与问题背景相关的文档。在第二阶段里,用户会对知识结构进行调整(tuning), 即不替换和修改已有概念和关系,而只是调整它们的范围和含义。在这个阶段里,用户会使用相对更长更具体的查询,并且会建立起较为明确的相关性判断准则(relevance criteria)。在第三阶段里,用户会对知识结构进行同化(assimilation),即获取和知识结构中已有概念相关的实例信息和事实类信息。在这个阶段,用户的查询会变得更加具体,会获取大量的具体的事实类信息,并且会重新检查一些之前忽视的信息来源。
  如果将搜索看作是一个学习的过程,除了搜索任务的类型和当前所处的搜索阶段,用户自身具有的领域知识水平(domain expertise)也将会影响不同用户在完成同一个搜索任务时的行为。为了研究用户领域知识水平对其搜索行为和搜索结果的影响,我们组织了一次用户实验。实验中,设置了来自环境、医学、政治学三个领域的六个搜索任务,并从相应的院系招募了 30 个被试参加实验。通过要求每个被试完成两个本领域的搜索任务和四个非本领域搜索任务,我们有效地控制了用户知识水平这一自变量,并系统地分析了自变量对一系列刻画搜索结果和搜索过程的因变量影响。实验结果显示,被试能更好地完成本领域搜索任务,学习到更多的知识并正确回答相关问题,然而,其在完成本领域任务时的搜索满意度并没有显著提升。除此之外,利用眼动仪记录的细粒度用户行为信息,我们发现,用户在完成不熟悉领域的搜索任务时,会更依赖在搜索过程中学到的新查询词,并在阅读搜索结果时花费更多的认知负担(cognitive effort)。
  其次,在具体应用方面,由于用户的搜索过程和知识获取及学习过程存在紧密联系,可以利用一系列知识表示方法,对用户在搜索过程中的知识状态变化进行测量与建模,并以此为基础,改进搜索评价和用户意图理解模型。首先,在搜索评价方面,通过将搜索过程看作是一个学习的过程,可以通过评估学习的效果(learning outcome),对用户搜索过程是否有效、成功进行相对客观评价。日本学者 Yuka Egusa 和Noriko Kando 等首先尝试了使用概念图(concept map)对探索式搜索进行评价。概念图最早在教育领域被用于表示学生掌握的科学知识。一个概念图包含若干个概念节点和若干条表示概念之间关系的有向边。Egusa 等在用户实验中要求参与的被试在开始搜索之前和搜索结束后,分别绘制两张与搜索任务主体相关的概念图。通过比较两张概念图,可以计算新增、删除、共有的节点数和边数等指标,用于评价在搜索过程中,用户获取了多少新知识。注意到与传统的搜索满意度评价不同,上述评价方法能测量用户在搜索过程中是否成功地获取了新的知识。我们进一步尝试探究搜索成功程度与搜索满意度之间的联系与差别,以及能否有效地估计和预测搜索成功程度。为了研究上述问题,我们设计和组织了一次用户实验。在实验中每个被试被要求完成六个不同的搜索任务。每个搜索任务包含一道需要用 100 字左右答案回答的简答题。通过对最终答案的正确性进行打分,来测量用户搜索的成功程度;并通过用户的反馈来测量用户的搜索满意度。通过比较搜索成功程度与搜索满意度,发现存在相当比例的搜索会话出现了“满意但失败”和“不满意但成功”的现象。较为客观的搜索成功程度与主观的搜索满意度并不一致。我们进一步将每个任务的正确答案涉及的关键得分点(key point)进行了提取,并对用户在实验过程中阅读过的所有文档进行了细粒度的标注。标注信息包括文档是否包含每个关键得分点,以及文档的相关性、可靠性(credibility)和可读性(readability)。利用文档包含关键得分点和用户的搜索行为信息,分别构建了搜索成功程度评价指标和搜索成果程度预测模型。实验结果表明,利用文档包含知识点的信息,我们能有效地对搜索成功程度这一较为客观的搜索评价指标进行估计。
  其次,在用户意图理解方面,我们可以利用知识表示方法对用户在会话中搜索意图的变化进行建模,进而更好地预测用户下一个可能提交的查询,改进搜索引擎的查询推荐功能。例如,来自加州大学洛杉矶分校的 Jiang 和 Wang 将查询日志表示为一个包含不同查询、词项和网站三类型节点的异质网络。该网络中包含四种不同类型的边:① 查询内词项指向下一个词项的边;② 会话内上一查询指向下一查询的边;③ 查询指向包含词项的边;④ 查询指向点击网站的边。基于该异质网络,我们可以使用Node2Vec等表示学习算法,获得网络中节点的嵌入表示,并利用得到的嵌入表示进行查询推荐。查询改写还可进一步分为增加查询词、删除查询词和替换查询词等不同的类别。因此,我们可以将查询作为实体,不同类型的查询改写看作关系,利用TransE 等翻译嵌入模型,得到对应于不同类别查询(不同关系)改写的向量表示。我们在购物搜索的环境下进行了实验。针对购物搜索的特点,构建了一个二级的查询改写分类体系。该分类体系在增、删、改查询词之外,还对修改的查询词是针对设计、商品、风格、品牌、样式、功能、材料、渠道、价格和尺寸 10 类属性中的哪一类进行了区分。结合两级分类,该分类体系共涉及 30 类不同的购物搜索查询改写。通过TransE、TransH 和 TransR 模 型,可以训练得到每个查询词和每一类查询改写的嵌入表示。为了验证得到嵌入表示的有效性,我们设计了一个查询改写类别分类任务,即采用查询改写涉及的前后两个查询的嵌入表示的差作为特征,预测查询改写的类别。实验结果显示,采用翻译嵌入模型得到的向量表示,能有效地预测查询改写的类别。这再一次说明了使用知识表示学习方法,能较为有效地捕捉用户进行查询改写时隐含的搜索意图。
  相比于 Xu 等的工作,在模态间隐式对齐的任务上,我们采取了一种反其道而行之的做法。如图 4 所示,从视频图像信息出发,通过注意力机制与时间邻域内的多条文本间建立匹配和对齐。基于这个思想,设计了一种联合图像视觉与用户评论信息的多模态人物重识别模型,并在真实数据集上进行了验证。实验结果证实了模态间的对齐是有效的,使用注意力机制可以在一定程度上识别出那些与视频人物描述更为相关的文本信息,从而有助于更精确地刻画出人物的身份特征,达到更好的人物重识别效果。
  3 结束语
  由于知识与信息之间存在紧密的联系,在信息检索研究中引入知识的概念,以及知识计算方法是一个值得深入探索的研究方向。从系统的角度出发,可以通过构建模型,引入丰富的外部知识,有效地改进信息检索和推荐模型的排序性能。从用户的角度出发,通过将用户的搜索过程视为一个获取知识的过程,可以加深对用户搜索行为的理解,并借助知识计算方法,改进搜索性能评价和搜索用户意图理解。
  
  选自《中国人工智能学会通讯》
  2020年第10卷第9期
  知识工程专题
  
  AI 研习 往期文章
  扫描二维码
  获取更多精彩
  CAAI会员中心
   查看全部

  AI研习丨专题:知识支撑的信息检索与推荐
  
  摘 要
  本文介绍了目前国内外关于知识支撑的信息检索与推荐的研究进展,主要针对结合知识图谱的信息检索与推荐方法,以及知识支撑的搜索用户行为分析两个主要的研究方向进行了梳理和分析,并对未来工作提出了展望。
  关 键 字
  信息检索;推荐系统;知识图谱;探索式搜索
  
  0 引言
  知识和信息,是两个联系紧密而又有所区别的概念。信息科学领域的 DIKW 体系(DataInformation-Knowledge-Wisdom pyramid)能很好地阐释它们之间的关系。如图 1 所示,DIKW 体系是一个金字塔,从下往上包含数据(data)、信 息 (information)、 知 识(knowledge) 和智慧(wisdom)四个组成部分。其中,数据是信息的基础;信息是知识的基础;知识是智慧的基础。经过一定组织和处理,使其与当前的上下文或者任务相关,因此具有一定的意义、价值和相关性,并对完成当前任务有用,数据就可以被称为信息。当信息被进一步结构化,与其他信息建立联系,或者被吸收和整合现有的知识体系和结构中去,以帮助人们完成当前或未来的任务,信息就被转化为了知识。
  
  图 1 DIKW 体系
  传统信息检索研究主要涉及对非结构化或半结构化的海量数据进行存储、组织、索引和检索,使用户能快捷有效地从中检索和获取相关的信息。即主要涉及如何帮助用户从数据中获取信息。然而随着信息检索研究的不断发展,研究者开始逐渐意识到在信息检索领域中引入知识的重要性。
  一方面,从系统的角度,研究者开始意识到,在传统的文本数据和用户行为数据之外,我们可以利用知识图谱等高质量的结构化知识,进一步改进搜索引擎和推荐系统的排序性能。另一方面,从用户的角度,研究者开始将搜索过程看作是用户学习和获取知识的过程,从这一角度对用户的搜索行为进行分析、理解和建模。因此,本文将从上述两个方面,介绍知识支撑的信息检索与推荐相关研究进展。
  1 结合知识图谱的信息检索与推荐方法
  在信息检索领域,搜索引擎和推荐系统是两个最重要的应用方向。目前已有大量研究工作从不同方面尝试改进搜索排序和推荐排序的效果,包括利用用户的各类交互行为(点击和浏览等)和待排序条目的内容信息(描述和关键词等),也已在不同场景提升了算法表现。随着近些年相关研究的逐渐深入,越来越多的研究者开始意识到,信息检索场景之外的结构化知识对进一步改进搜索和推荐算法有重要作用,这些结构化知识能帮助我们更好地刻画搜索和推荐场景中的待排序条目。
  具体来说,知识图谱中包含了大量的实体和实体间的联系信息,这两类信息都对信息检索系统中的待排序内容的表示有重要帮助。一方面,如果将待排序内容(如搜索引擎中的文档或推荐系统中的商品等)与知识图谱中实体进行链接匹配,我们将能找出待排序内容的关键信息(即包含的实体词);另一方面,实体之间的特殊关系能协助做推理扩散,不管是对搜索场景下查询词的扩展还是推荐场景下待推荐内容的关系发现都将有重要作用。
  近年来,在搜索引擎和推荐系统领域有不少工作已基于类似思路开始了研究。已有学者在搜索场景下尝试在传统查询词-文档内容匹配的基础上借助知识图谱,考虑查询词中包含的实体与文档包含的实体之间的关联关系情况,进一步改进了文档排序的效果;在推荐系统场景中,由于知识信息的引入还能帮助缓解推荐的可解释性问题,因此有不少研究工作从这一角度入手,提升推荐算法表现的同时改进结果的可解释性。相关研究的应用于场景包括在网页搜索、信息流推荐、商品推荐和电影推荐等场景。可以看到,知识增强的信息检索方法研究已成为近年来研究的热点与重点。下面将对两个场景的知识利用分别做具体介绍。
  (1)搜索场景下的知识图谱利用
  在搜索排序算法中,查询词与文档的内容及语义匹配情况不管是在传统的 BM25、TF-IDF 算法和最近的深度排序模型中都起到了重要作用。然而,这些算法在进行匹配时大都赋予查询词中的每个词语以同等权重,没有将更多注意力放在关键信息上。例如,当查询词为“奥巴马的亲属关系”时,用户更关注的是“奥巴马”和“亲属”,而不是“关系”这个词语。为了解决这一问题,近年来,卡内基梅隆大学熊辰炎与清华大学刘知远等提出,可以在现有词语匹配的基础上,引入知识图谱中实体词对查询词和文档中包含的实体词同样进行匹配和相似度计算,以实现对关键实体信息的有效利用和挖掘。更进一步地,他们还考虑了词语和实体词的交叉匹配,即考虑了:① 查询词中词语 - 文档中词语;② 查询词中实体词 - 文档中词语;③ 查询词中词语 - 文档中实体词;④ 查询词中实体词 - 文档中实体词,四个维度的语义匹配情况。然后再使用池化和全连接操作得到最终的排序评分。该算法被命名为 EDRM(Entity-Duet Neural Ranking),框架如图 2 所示。
  
  图 2 EDRM 算法模型图
  在实验过程中,使用 DBPedia 作为额外引入的知识图谱的 EDRM 算法被应用在大规模中文搜索日志数据集上。结果显示,该算法较基准算法在 NDCG@1 上取得了近 20% 的提升。该结果表明,关键实体信息的引入对于改进搜索排序方法起到了重要作用。
  (2)推荐场景下的知识图谱利用
  在推荐场景中,我们注意到待推荐条目可能存在一些特定的关系,例如,特别是在商品推荐场景下,不同商品间存在互补(手机和手机壳)、替代(华为手机和苹果手机)等关系。如果能考虑商品之间的这些关系,我们将可以根据用户的历史行为进一步优化待推荐内容,为用户推荐与历史购买有互补关系的商品,同时避免推荐有替代关系的商品。然而,要获取商品间的关系并不容易,商品数量过于庞大导致不可能通过人工标注的方法获取。考虑到知识图谱中包含着大量的现有知识,这些现有知识可能对挖掘和推理商品间的关系有一定帮助。因此,我们基于商品间的关系(如替代和互补),提出了一种新的联合优化框架,用于从知识图谱中学习到归纳规则,并基于归纳规则生成商品对之间的关联特征,将其应用在推荐算法中。该算法框架被命名RuleRec,框架图见图3。
  
  图 3 RuleRec 算法框架图
  该模型主要包含规则学习模块和推荐模块两个部分。在规则学习模块中,我们通过在知识图谱上进行随机游走,找到对于商品间的替代关系和互补关系有较好预测作用的规则特征(限定了两个节点间随机游走经过的边的类型序列)。通过这些规则能为每个商品对建模学习到它们的相关性紧密程度,进而可以扩展到单个商品与用户之前购买的商品序列的联系情况。在推荐模块中,我们将学习得到的规则特征进行加权后,与其他推荐算法得到的推荐概率相加,以得到新的推荐概率,并依此生成推荐结果。由于该模型具有很好的耦合性,因此可以与现有的推荐算法有效地结合到一起。在实验过程中,我们使用了 Amazon 的手机和电子产品购物历史数据作为用户和商品的消费记录,并将它们链接到了 Freebase 知识图谱上(最大的开源知识图谱数据集)。最终,我们提出的算法较已有的最好算法在 Recall@5 上取得了平均4.4% 的提升。实验说明,图谱中的知识信息能帮助改进推荐排序算法。除了能提升推荐系统的算法表现,推荐结果的可解释性也是相关研究关注的重点问题之一。在本场景下,知识信息的引入所生成的规则就是天然的用户能直接阅读的推荐解释,通过人工标注我们也发现 94% 的推荐解释能被用户接受。这是说明知识图谱的引入还可以用于提高推荐算法的可解释性。从这些研究可以看到,知识图谱的引入能有效帮助刻画信息检索场景下的待排序内容,同时还提升了相应算法的可解释性。外部的知识的引入为相关领域的研究带来了新的方向和更多可能。
  2 知识支撑的搜索用户行为分析
  随着搜索技术的发展和广泛应用,搜索引擎在帮助用户高效检索和获取信息的基础上,进一步成为了人类学习和获取知识不可或缺的工具。然而,与通过使用搜索引擎检索和获取较为具体的信息(例如查询明天的天气预报)不同,进行搜索获取知识(例如理解搜索引擎的工作原理)是一个更为复杂的过程 , 用户往往需要进行多次查询,才能完成相应的学习任务。这一方面是由于知识之间往往存在关联与依赖关系,学习任务具有内在多样性(intrinsic diversity),因此用户需要进行多次查询,获取多方面的信息,构建包含知识间关系的知识体系。另外,在开始进行搜索时,用户常常因对相关领域缺乏了解,而陷入无法组织有效的查询的困境中。因此,用户需要在多次查询迭代的过程中,逐渐探索该领域,进而学习如何组织有效查询,更好地获取构建知识体系所需的相关信息。这种复杂的、高度交互式的搜索过程被概括为探索式搜索(exploratory search)。由于现代搜索引擎已经能较好地满足针对具体信息的检索需求,如何有效地支持探索式搜索已经成为信息检索领域的重要研究方向之一。与此同时,一些学者将搜索过程本身视为一个学习的过程,提出了“搜索即学习”(search as learning)这一概念。通过在搜索与学习过程之间建立类比,一方面可以借助心理学理论和学习理论对用户的搜索行为进行归类、分析、刻画和解释;另一方面可以将知识建模、表示和计算的相关方法,应用于复杂多查询会话的评价和用户意图理解模型等任务中。
  在分析用户搜索行为方面,IP&M 杂志主编Jansen 等利用认知学习(cognitive learning)领域的分类方法将搜索任务按照复杂程度分为了记忆(remembering)、理解(understanding)、应用(applying)、分析(analyzing)、评价(evaluating)和创造(creating)六类,并比较和分析了用户在完成这六类搜索任务时的搜索行为。芬兰坦佩雷大学的 Vakkari 将搜索时的学习概念化为“用户知识结构的改变”(changes in one’s knowledge structure)并提出可以用概念和其之间的关系来表示用户的知识结构。进一步的,Vakkari 基 于知识结构的变化方式,将搜索过程划分为三个阶段。在第一个阶段里,用户会对知识结构进行重构(restructuring),即改变和替换原有知识结构中包含的概念和关系。相应的用户在这一阶段里会使用较为宽泛的查询词进行检索,会从搜索结果中学习到新的查询词,会更多地阅读与问题背景相关的文档。在第二阶段里,用户会对知识结构进行调整(tuning), 即不替换和修改已有概念和关系,而只是调整它们的范围和含义。在这个阶段里,用户会使用相对更长更具体的查询,并且会建立起较为明确的相关性判断准则(relevance criteria)。在第三阶段里,用户会对知识结构进行同化(assimilation),即获取和知识结构中已有概念相关的实例信息和事实类信息。在这个阶段,用户的查询会变得更加具体,会获取大量的具体的事实类信息,并且会重新检查一些之前忽视的信息来源。
  如果将搜索看作是一个学习的过程,除了搜索任务的类型和当前所处的搜索阶段,用户自身具有的领域知识水平(domain expertise)也将会影响不同用户在完成同一个搜索任务时的行为。为了研究用户领域知识水平对其搜索行为和搜索结果的影响,我们组织了一次用户实验。实验中,设置了来自环境、医学、政治学三个领域的六个搜索任务,并从相应的院系招募了 30 个被试参加实验。通过要求每个被试完成两个本领域的搜索任务和四个非本领域搜索任务,我们有效地控制了用户知识水平这一自变量,并系统地分析了自变量对一系列刻画搜索结果和搜索过程的因变量影响。实验结果显示,被试能更好地完成本领域搜索任务,学习到更多的知识并正确回答相关问题,然而,其在完成本领域任务时的搜索满意度并没有显著提升。除此之外,利用眼动仪记录的细粒度用户行为信息,我们发现,用户在完成不熟悉领域的搜索任务时,会更依赖在搜索过程中学到的新查询词,并在阅读搜索结果时花费更多的认知负担(cognitive effort)。
  其次,在具体应用方面,由于用户的搜索过程和知识获取及学习过程存在紧密联系,可以利用一系列知识表示方法,对用户在搜索过程中的知识状态变化进行测量与建模,并以此为基础,改进搜索评价和用户意图理解模型。首先,在搜索评价方面,通过将搜索过程看作是一个学习的过程,可以通过评估学习的效果(learning outcome),对用户搜索过程是否有效、成功进行相对客观评价。日本学者 Yuka Egusa 和Noriko Kando 等首先尝试了使用概念图(concept map)对探索式搜索进行评价。概念图最早在教育领域被用于表示学生掌握的科学知识。一个概念图包含若干个概念节点和若干条表示概念之间关系的有向边。Egusa 等在用户实验中要求参与的被试在开始搜索之前和搜索结束后,分别绘制两张与搜索任务主体相关的概念图。通过比较两张概念图,可以计算新增、删除、共有的节点数和边数等指标,用于评价在搜索过程中,用户获取了多少新知识。注意到与传统的搜索满意度评价不同,上述评价方法能测量用户在搜索过程中是否成功地获取了新的知识。我们进一步尝试探究搜索成功程度与搜索满意度之间的联系与差别,以及能否有效地估计和预测搜索成功程度。为了研究上述问题,我们设计和组织了一次用户实验。在实验中每个被试被要求完成六个不同的搜索任务。每个搜索任务包含一道需要用 100 字左右答案回答的简答题。通过对最终答案的正确性进行打分,来测量用户搜索的成功程度;并通过用户的反馈来测量用户的搜索满意度。通过比较搜索成功程度与搜索满意度,发现存在相当比例的搜索会话出现了“满意但失败”和“不满意但成功”的现象。较为客观的搜索成功程度与主观的搜索满意度并不一致。我们进一步将每个任务的正确答案涉及的关键得分点(key point)进行了提取,并对用户在实验过程中阅读过的所有文档进行了细粒度的标注。标注信息包括文档是否包含每个关键得分点,以及文档的相关性、可靠性(credibility)和可读性(readability)。利用文档包含关键得分点和用户的搜索行为信息,分别构建了搜索成功程度评价指标和搜索成果程度预测模型。实验结果表明,利用文档包含知识点的信息,我们能有效地对搜索成功程度这一较为客观的搜索评价指标进行估计。
  其次,在用户意图理解方面,我们可以利用知识表示方法对用户在会话中搜索意图的变化进行建模,进而更好地预测用户下一个可能提交的查询,改进搜索引擎的查询推荐功能。例如,来自加州大学洛杉矶分校的 Jiang 和 Wang 将查询日志表示为一个包含不同查询、词项和网站三类型节点的异质网络。该网络中包含四种不同类型的边:① 查询内词项指向下一个词项的边;② 会话内上一查询指向下一查询的边;③ 查询指向包含词项的边;④ 查询指向点击网站的边。基于该异质网络,我们可以使用Node2Vec等表示学习算法,获得网络中节点的嵌入表示,并利用得到的嵌入表示进行查询推荐。查询改写还可进一步分为增加查询词、删除查询词和替换查询词等不同的类别。因此,我们可以将查询作为实体,不同类型的查询改写看作关系,利用TransE 等翻译嵌入模型,得到对应于不同类别查询(不同关系)改写的向量表示。我们在购物搜索的环境下进行了实验。针对购物搜索的特点,构建了一个二级的查询改写分类体系。该分类体系在增、删、改查询词之外,还对修改的查询词是针对设计、商品、风格、品牌、样式、功能、材料、渠道、价格和尺寸 10 类属性中的哪一类进行了区分。结合两级分类,该分类体系共涉及 30 类不同的购物搜索查询改写。通过TransE、TransH 和 TransR 模 型,可以训练得到每个查询词和每一类查询改写的嵌入表示。为了验证得到嵌入表示的有效性,我们设计了一个查询改写类别分类任务,即采用查询改写涉及的前后两个查询的嵌入表示的差作为特征,预测查询改写的类别。实验结果显示,采用翻译嵌入模型得到的向量表示,能有效地预测查询改写的类别。这再一次说明了使用知识表示学习方法,能较为有效地捕捉用户进行查询改写时隐含的搜索意图。
  相比于 Xu 等的工作,在模态间隐式对齐的任务上,我们采取了一种反其道而行之的做法。如图 4 所示,从视频图像信息出发,通过注意力机制与时间邻域内的多条文本间建立匹配和对齐。基于这个思想,设计了一种联合图像视觉与用户评论信息的多模态人物重识别模型,并在真实数据集上进行了验证。实验结果证实了模态间的对齐是有效的,使用注意力机制可以在一定程度上识别出那些与视频人物描述更为相关的文本信息,从而有助于更精确地刻画出人物的身份特征,达到更好的人物重识别效果。
  3 结束语
  由于知识与信息之间存在紧密的联系,在信息检索研究中引入知识的概念,以及知识计算方法是一个值得深入探索的研究方向。从系统的角度出发,可以通过构建模型,引入丰富的外部知识,有效地改进信息检索和推荐模型的排序性能。从用户的角度出发,通过将用户的搜索过程视为一个获取知识的过程,可以加深对用户搜索行为的理解,并借助知识计算方法,改进搜索性能评价和搜索用户意图理解。
  
  选自《中国人工智能学会通讯》
  2020年第10卷第9期
  知识工程专题
  
  AI 研习 往期文章
  扫描二维码
  获取更多精彩
  CAAI会员中心
  

搜索引擎营销推广的方法有哪些?

网站优化优采云 发表了文章 • 0 个评论 • 90 次浏览 • 2022-05-08 14:46 • 来自相关话题

  搜索引擎营销推广的方法有哪些?
  无论是线上上或是线下推广,营销推广全是必不可缺的有效的方式。由于,伴随着移动互联的迅速发展趋势,已过去了香醇不畏酒香不怕巷的时期,现在是必须主动进攻才有可能完成营销推广目地。因此,企业网络营销全过程中,下列的搜索引擎营销推广的方式务必关键把握,实际向下看一下。
  一、搜索引擎营销推广的方式 有什么?1、SEM营销推广
  SEM是搜索引擎搜索推广,是根据发掘、剖析用户检索的关键词,对该关键词开展竞价来得到需要的排名。一般来说,受欢迎的关键词竞争比较大,要想根据它得到较前的排名,务必出“大格局”才有可能得到较前的排名。
  2、SEO营销推广
  SEO是搜索引擎优化方法,是依据网址主题风格和用户的搜寻习惯性,挑选最好关键词提升而得到排名。一般关键词指数值越高,提升难度系数越高,可是一旦得到排名,排名的可靠性较强,不容易随便发生下挫。
  
  3、关键词广告宣传
  关键词广告是搜索引擎营销推广的一种常见的作法,运用用户点一下关键词开展收费,剖析、发掘出大量相关的新闻资讯。
  二、搜索引擎营销推广包含哪几个方面?
  殊不知,无论应用以上哪一种搜索引擎营销推广,它都包含下列层面:
  想要让降血压广告效果越来越好就一定要做好:1、定位到需求人群2、提高广告创意+针对性文案3、使用多种广告投放方式4、通过平台投放
  1、适合的关键词
  关键词是搜索引擎营销推广推广合理的前提条件。因此,在营销推广的环节中,务必自始至终紧紧围绕着网址主题风格及用户的搜寻习惯性挑选关键词,不必草率的要求受欢迎关键词,反而是采用最适用的关键词。
  2、做好內容的添充
  內容是吸引用户的重要。因此,內容的品质及升级的次数全是十分核心的。可是,有一些公司发觉升级內容真的很难,如不可以剽窃别人內容,又得维持按时升级,总感觉真的很难。实际上,“天地文章内容一片抄”,重要就可以看你是否会抄。
  
  实际上,在编写时必须维持自身网址的有关构思,并且多立在用户的视角去思索一些问题,如她们想在內容掌握到哪些、想从这当中得到什么有一些使用价值的物品这些,那样编写出去的信息不但能遭受用户的爱好,并且还能吸引住搜索引擎的爬取,而搜索引擎爬行越快网址排名越高,营销推广实际效果就会更好。
  3、做好时时刻刻监管的工作中
  网络平台变幻莫测,不可以以不会改变的目光来对待发展趋势。因此,务必做好时时刻刻监管的提前准备,对用户的浏览、搜索引擎蜘蛛的爬取维持相对高度的当心,那样才可以让营销推广工作中高效率。
  总而言之,搜索引擎营销推广是一把双刃刀,用得可以使你的网址排名靠前,总流量暴涨,完成早日赢利就是指日可待,如果是投机取巧也会使你的营销推广职业生涯迈向穷途末路,此后消退在网络的深海里。因此,假如公司没希望能做好搜索引擎营销推广,云浪科技会是你们优秀的挑选。
  可以联系小编
  百度前三,包月推广,独立后台数据抓取,当天上线,不限点击费,1500元/月保证前三,3999元包年托管,需要的请联系小编
   查看全部

  搜索引擎营销推广的方法有哪些?
  无论是线上上或是线下推广,营销推广全是必不可缺的有效的方式。由于,伴随着移动互联的迅速发展趋势,已过去了香醇不畏酒香不怕巷的时期,现在是必须主动进攻才有可能完成营销推广目地。因此,企业网络营销全过程中,下列的搜索引擎营销推广的方式务必关键把握,实际向下看一下。
  一、搜索引擎营销推广的方式 有什么?1、SEM营销推广
  SEM是搜索引擎搜索推广,是根据发掘、剖析用户检索的关键词,对该关键词开展竞价来得到需要的排名。一般来说,受欢迎的关键词竞争比较大,要想根据它得到较前的排名,务必出“大格局”才有可能得到较前的排名。
  2、SEO营销推广
  SEO是搜索引擎优化方法,是依据网址主题风格和用户的搜寻习惯性,挑选最好关键词提升而得到排名。一般关键词指数值越高,提升难度系数越高,可是一旦得到排名,排名的可靠性较强,不容易随便发生下挫。
  
  3、关键词广告宣传
  关键词广告是搜索引擎营销推广的一种常见的作法,运用用户点一下关键词开展收费,剖析、发掘出大量相关的新闻资讯。
  二、搜索引擎营销推广包含哪几个方面?
  殊不知,无论应用以上哪一种搜索引擎营销推广,它都包含下列层面:
  想要让降血压广告效果越来越好就一定要做好:1、定位到需求人群2、提高广告创意+针对性文案3、使用多种广告投放方式4、通过平台投放
  1、适合的关键词
  关键词是搜索引擎营销推广推广合理的前提条件。因此,在营销推广的环节中,务必自始至终紧紧围绕着网址主题风格及用户的搜寻习惯性挑选关键词,不必草率的要求受欢迎关键词,反而是采用最适用的关键词。
  2、做好內容的添充
  內容是吸引用户的重要。因此,內容的品质及升级的次数全是十分核心的。可是,有一些公司发觉升级內容真的很难,如不可以剽窃别人內容,又得维持按时升级,总感觉真的很难。实际上,“天地文章内容一片抄”,重要就可以看你是否会抄。
  
  实际上,在编写时必须维持自身网址的有关构思,并且多立在用户的视角去思索一些问题,如她们想在內容掌握到哪些、想从这当中得到什么有一些使用价值的物品这些,那样编写出去的信息不但能遭受用户的爱好,并且还能吸引住搜索引擎的爬取,而搜索引擎爬行越快网址排名越高,营销推广实际效果就会更好。
  3、做好时时刻刻监管的工作中
  网络平台变幻莫测,不可以以不会改变的目光来对待发展趋势。因此,务必做好时时刻刻监管的提前准备,对用户的浏览、搜索引擎蜘蛛的爬取维持相对高度的当心,那样才可以让营销推广工作中高效率。
  总而言之,搜索引擎营销推广是一把双刃刀,用得可以使你的网址排名靠前,总流量暴涨,完成早日赢利就是指日可待,如果是投机取巧也会使你的营销推广职业生涯迈向穷途末路,此后消退在网络的深海里。因此,假如公司没希望能做好搜索引擎营销推广,云浪科技会是你们优秀的挑选。
  可以联系小编
  百度前三,包月推广,独立后台数据抓取,当天上线,不限点击费,1500元/月保证前三,3999元包年托管,需要的请联系小编
  

【实例】网页搜索策略思考方法

网站优化优采云 发表了文章 • 0 个评论 • 115 次浏览 • 2022-05-05 22:24 • 来自相关话题

  【实例】网页搜索策略思考方法
  
  功能导向型核心业务的策略框架
  
  
  网页搜索策略思考方法
  1
  产品目标
  
  产品目标:高效地获取信息
  1)需求复杂又多变
  2)从浩瀚的候选集合里找到正确的信息
  不同用户输入同一query表达的需求可能不一致;
  同一用户在不同场景输入同一query表达的需求也可能不一致。
  2
  需求理解
  这里的需求理解其实就是广义的query解析
  分为三类:
  1)需求明确
  A)结构简单清晰的query:经过切词处理即可进行后续检索
  例如:黄山优采云站订票电话——>黄山 优采云站 订 票 电话
  B)口语化的query:需要进行纠错、同义转换等语义处理
  例如:杭州至盐城高速怎么走
  ——>杭州|至|盐城|高速|怎么|走
  ——>【map】 【from:杭州】 【to:盐城】 【type:驾车】
  C)表达方式很复杂的query:需要进行更加unique的语义处理
  例如:
  披星()月
  吾尝终日而思矣,后面
  2)需求明确,对答案有特殊要求
  除了统一的query变换外,需要将特定要求转换成搜索引擎可理解的特征
  例如:
  猪肉最新价格——>资源时效性
  3)需求不明确,需要进行需求扩展和预测
  例如:
  欢乐颂——>欢乐颂视频、剧情介绍、演员表、评论。。。
  猩球崛起3——>上映前需要预告片上映时间、上映中需要介绍评价在线购票、下映后需要介绍评论视频
  三类扩展维度:
  上下文数据:搜了欢乐颂后,用户是否主动更改query搜索欢乐颂视频
  类目数据:对于【欢乐颂】这种电视剧专名,天然就有视频、剧情等需求。PM可以提前梳理针对各类目的需求扩展list。
  个性化数据:对于特定类目可以进行地域扩展,家乐福——>北京家乐福;电影专名,有的用户更倾向于看剧情,有的倾向看评论。
  一个query经过以上分类处理后,会统一成这样的输出,来进行接下来的检索:
  【需求类目/需求词】
  【需求强度】
  【待检索term/pattern】
  【其他限定特征(地域等)】
  衡量指标:
  1)每个query分析规则的召回率和准确率
  2)各需求的召回率和准确率
  3
  解决方案
  分为两部分:排序和展现
  1.排序
  不同需求间:根据需求强度(命中需求的概率)
  同一需求间:根据结果质量(相关性、权威性、时效性、可用性)
  根据用户的点击行为进行调整
  实际上,会把需求强度、结果质量、用户点击行为统一成【唯一指标】决定首页结果的排序
  LTR:learningtorank机器学习排序
  
  2.展现
  通用策略:将结果页中与query相关的信息提取为标题/摘要,进行飘红等处理帮助用户筛选信息
  (对所有搜索引擎,都是将检索对象中用户最关心的内容提取至检索结果列表页,并根据情况以各种强化的样式展现)
  细化策略:针对不同需求,又有如下细化策略:
  A)对于单一明确信息需求,可以将答案信息之间在摘要中展现
  例如:天气、客服电话
  B)对于用户接下来路径相对收敛的需求,可以将下一步需求前置,缩短步骤
  例如:网易邮箱(登录)、欢乐颂视频(集数)、凡人歌(播放)
  C)对于不同资源类型结果,可以针对性优化摘要
  例如:视频类、图片类、新闻类、地图类
  3.衡量指标
  1)每个需求打分、质量打分、展现策略的召回率和准确率
  2)用户角度的搜索的满足度
  A)基于用户行为的搜索满足度:
  摘要满足型需求——>无/很少点击行为
  单结果满足型需求——>点击集中于收条结果
  主动变换query比例低
  翻页比例低等等
  B)基于人为评估的搜索满足度:
  query前3/5/10结果相关性->基于人为需求判断,当前结果是否能满足;与竞品相比,是否有更好结果未收录、排序是否更优等
  session满足度->从用户一个行为片段分析其是否得到满足
  4
  资源支撑
  1.自然语言相关
  各类基础词库:用于query切词处理、同义转换、纠错等
  语义理解和处理规则:用于query解析
  2.网页相关
  网页收录(spider):
  1)保证各类网页收录覆盖度
  2)保证各类网页收录时效性:根据网页类型定义更新频率,重要或时效性要求高的资源可选择站长主动提交的方式
  页面分析:
  对页面类型进行识别,页面中内容解析、为term附权等等
  衡量指标
  1)对于NLP相关:各类词库、处理策略的准确率、召回率等;
  2)对于网页收录:收录覆盖率、更新时效性等;
  3)对于页面分析:各类准确率、召回率等。
  5
  总结
  
  以上为三节课策略产品课程个人学习笔记。 查看全部

  【实例】网页搜索策略思考方法
  
  功能导向型核心业务的策略框架
  
  
  网页搜索策略思考方法
  1
  产品目标
  
  产品目标:高效地获取信息
  1)需求复杂又多变
  2)从浩瀚的候选集合里找到正确的信息
  不同用户输入同一query表达的需求可能不一致;
  同一用户在不同场景输入同一query表达的需求也可能不一致。
  2
  需求理解
  这里的需求理解其实就是广义的query解析
  分为三类:
  1)需求明确
  A)结构简单清晰的query:经过切词处理即可进行后续检索
  例如:黄山优采云站订票电话——>黄山 优采云站 订 票 电话
  B)口语化的query:需要进行纠错、同义转换等语义处理
  例如:杭州至盐城高速怎么走
  ——>杭州|至|盐城|高速|怎么|走
  ——>【map】 【from:杭州】 【to:盐城】 【type:驾车】
  C)表达方式很复杂的query:需要进行更加unique的语义处理
  例如:
  披星()月
  吾尝终日而思矣,后面
  2)需求明确,对答案有特殊要求
  除了统一的query变换外,需要将特定要求转换成搜索引擎可理解的特征
  例如:
  猪肉最新价格——>资源时效性
  3)需求不明确,需要进行需求扩展和预测
  例如:
  欢乐颂——>欢乐颂视频、剧情介绍、演员表、评论。。。
  猩球崛起3——>上映前需要预告片上映时间、上映中需要介绍评价在线购票、下映后需要介绍评论视频
  三类扩展维度:
  上下文数据:搜了欢乐颂后,用户是否主动更改query搜索欢乐颂视频
  类目数据:对于【欢乐颂】这种电视剧专名,天然就有视频、剧情等需求。PM可以提前梳理针对各类目的需求扩展list。
  个性化数据:对于特定类目可以进行地域扩展,家乐福——>北京家乐福;电影专名,有的用户更倾向于看剧情,有的倾向看评论。
  一个query经过以上分类处理后,会统一成这样的输出,来进行接下来的检索:
  【需求类目/需求词】
  【需求强度】
  【待检索term/pattern】
  【其他限定特征(地域等)】
  衡量指标:
  1)每个query分析规则的召回率和准确率
  2)各需求的召回率和准确率
  3
  解决方案
  分为两部分:排序和展现
  1.排序
  不同需求间:根据需求强度(命中需求的概率)
  同一需求间:根据结果质量(相关性、权威性、时效性、可用性)
  根据用户的点击行为进行调整
  实际上,会把需求强度、结果质量、用户点击行为统一成【唯一指标】决定首页结果的排序
  LTR:learningtorank机器学习排序
  
  2.展现
  通用策略:将结果页中与query相关的信息提取为标题/摘要,进行飘红等处理帮助用户筛选信息
  (对所有搜索引擎,都是将检索对象中用户最关心的内容提取至检索结果列表页,并根据情况以各种强化的样式展现)
  细化策略:针对不同需求,又有如下细化策略:
  A)对于单一明确信息需求,可以将答案信息之间在摘要中展现
  例如:天气、客服电话
  B)对于用户接下来路径相对收敛的需求,可以将下一步需求前置,缩短步骤
  例如:网易邮箱(登录)、欢乐颂视频(集数)、凡人歌(播放)
  C)对于不同资源类型结果,可以针对性优化摘要
  例如:视频类、图片类、新闻类、地图类
  3.衡量指标
  1)每个需求打分、质量打分、展现策略的召回率和准确率
  2)用户角度的搜索的满足度
  A)基于用户行为的搜索满足度:
  摘要满足型需求——>无/很少点击行为
  单结果满足型需求——>点击集中于收条结果
  主动变换query比例低
  翻页比例低等等
  B)基于人为评估的搜索满足度:
  query前3/5/10结果相关性->基于人为需求判断,当前结果是否能满足;与竞品相比,是否有更好结果未收录、排序是否更优等
  session满足度->从用户一个行为片段分析其是否得到满足
  4
  资源支撑
  1.自然语言相关
  各类基础词库:用于query切词处理、同义转换、纠错等
  语义理解和处理规则:用于query解析
  2.网页相关
  网页收录(spider):
  1)保证各类网页收录覆盖度
  2)保证各类网页收录时效性:根据网页类型定义更新频率,重要或时效性要求高的资源可选择站长主动提交的方式
  页面分析:
  对页面类型进行识别,页面中内容解析、为term附权等等
  衡量指标
  1)对于NLP相关:各类词库、处理策略的准确率、召回率等;
  2)对于网页收录:收录覆盖率、更新时效性等;
  3)对于页面分析:各类准确率、召回率等。
  5
  总结
  
  以上为三节课策略产品课程个人学习笔记。

SEM(搜索引擎营销)是什么?

网站优化优采云 发表了文章 • 0 个评论 • 121 次浏览 • 2022-05-05 22:20 • 来自相关话题

  SEM(搜索引擎营销)是什么?
  
  SEM是Search Engine Marketing的缩写,中文意思是搜索引擎营销。就是根据用户使用搜索引擎的方式,利用用户检索信息的机会尽可能将营销信息传递给目标用户。简单来说,搜索引擎营销就是基于搜索引擎平台的网络营销,利用人们对搜索引擎的依赖和使用习惯,在人们检索信息的时候尽可能将营销信息传递给目标客户。
  
  搜索引擎营销的基本思想是让用户发现信息,并通过(搜索引擎)搜索点击进入网站/网页进一步了解他所需要的信息。SEM可以在搜索引擎中进行品牌的维护,将品牌的负面信息尽可能少的呈现在搜索用户面前,可以预防竞争对手在网络上恶意的诬陷。同时可以在进行正面和商业信息的推广,进而达到品牌推广的目标。
  SEM目标层次原理
  SEM搜索引擎营销可分为四个层次,可分别简单描述为:存在层、表现层、关注层和转化层。
  第一层的目标是搜索引擎营销的存在层,其目标是在主要的搜索引擎/分类目录中获得被收录的机会,这是搜索引擎营销的基础之一,第二个基础是通过竞价排名方式出现在搜索引擎中,离开这两个层次,搜索引擎营销的其他目标也就不可能实现。搜索引擎登录包括免费登录、付费登录、搜索引擎关键词广告等形式。存在层的含义就是让网站中尽可能多的网页获得被搜索引擎收录(而不仅仅是网站首页),也就是为增加网页的搜索引擎可见性。
  第二层的目标则是在被搜索引擎收录的基础上尽可能获得好的排名,即在搜索结果中有良好的表现,因而可称为表现层。因为用户关心的只是搜索结果中靠前的少量内容,如果利用主要的关键词检索时网站在搜索结果中的排名靠后,那么还有必要利用关键词广告、竞价广告等形式作为补充手段来实现这一目标。同样,如果在分类目录中的位置不理想,则需要同时考虑在分类目录中利用付费等方式获得排名靠前。
  第三层的目标则直接表现为网站访问量指标方面,也就是通过搜索结果点击率的增加来达到提高网站访问量的目的。由于只有受到用户关注,经过用户选择后的信息才可能被点击,因此可称为关注层。从搜索引擎的实际情况来看,仅仅做到被搜索引擎收录并且在搜索结果中排名靠前是不够的,这样并不一定能增加用户的点击率,更不能保证将访问者转化为顾客。要通过搜索引擎营销实现访问量增加的目标,则需要从整体上进行网站优化设计,并充分利用关键词广告等有价值的搜索引擎营销专业服务。
  第四层的目标,即通过访问量的增加转化为企业最终实现收益的提高,可称为转化层。转化层是前面三个目标层次的进一步提升,是各种搜索引擎方法所实现效果的集中体现,但并不是搜索引擎营销的直接效果。从各种搜索引擎策略到产生收益,期间的中间效果表现为网站访问量的增加,网站的收益是由访问量转化所形成的,从访问量转化为收益则是由网站的功能、服务、产品等多种因素共同作用而决定的。因此,第四个目标在搜索引擎营销中属于战略层次的目标。其他三个层次的目标则属于策略范畴,具有可操作性和可控制性的特征,实现这些基本目标是搜索引擎营销的主要任务。目前搜索营销,逐步被人们认识和运用。
  SEM基本要素
  根据搜索引擎营销的基本原理,搜索引擎营销之所以能够实现,需要有五个基本要素:信息源(网页)、搜索引擎信息索引数据库、用户的检索行为和检索结果、用户对检索结果的分析判断、对选中检索结果的点击。对这些要素以及搜索引擎营销信息传递过程的研究和有效实现就构成了搜索引擎营销的基本任务和内容。
  
  SEM的优势
  SEM是一种新的网络营销形式。SEM所做的就是全面而有效的利用搜索引擎来进行网络营销和推广。SEM追求最高的性价比,以最小的投入,获最大的来自搜索引擎的访问量,并产生商业价值。SEM可以在搜索引擎中进行品牌的维护,将品牌的负面信息尽可能少的呈现在搜索用户面前,可以预防竞争对手在网络上恶意的诬陷。同时可以在进行正面和商业信息的推广,进而达到品牌推广的目标。
  SEM与SEO、SMO的区别
  SEM是网络营销,SEO是技术,SMO是通过社会化媒体一整套方法。
  通俗的讲SEO是搜索引擎优化,是通过优化网站让其在搜索引擎上有良好的排名,主要是技术层面的。SEM是搜索引擎营销,SEO只是SEM的一部分。SEM主要是通过搜索引擎进行营销的。SMO是通过社会化媒体、在线组织及社区网站获得公共传播的一整套方法,是社会化媒体优化是网络营销的一种最新形式。
  SEM网络营销常用方法
  1、搜索引擎营销
  搜索引擎营销是指搜索引擎优化、关键词广告、关键词竞价排名、搜索引擎定位广告搜索引擎在网络营销中的地位尤其重要,每天各行各业的人使用搜索引擎搜索信息。通过搜索引擎营销能直接带来流量与终端客户。
  2、电子邮件营销方法
  以电子邮件为产品资料、刊物、介绍等方向发送到电子邮件广告等。基于用户许可的电子邮件营销的推广方式可以增加用户对产品的了解。
  3、资源合作营销方法
  网站交换链接、交换广告、内容合作、信息推广、信息合作、用户资源合作等方式,正所谓“人人为我,我为人人”,合作共赢,利益共享,共同发展。
  4、网络广告营销方法
  网络广告是常用的网络营销方式之一,直接通过网站的广告位置进行投放推广,可以直接借用其他网络媒体推广,网站广告的优势在于:范围广、形式多样、适用性强、投放及时等优点,适合于网站初期营销推广。
  5、信息推广营销方法
  把网站的信息发布相关行业网站中,利用用户在访问这些网站同时,了解你网站信息,达到凿壁借光,可以把信息推广发布到黄页、分类广告、论坛、博客网站、供求信息平台、行业网站等,这也是免费网站推广的常用方法之一。
  6、网址营销方法
  通过把一些网站信息提交到相关网址导航中,来获取巨大流量,有些网络用户常进入一些网址导航中来查询相关网站信息,而且此种推广,对网站的作用也显而易见。 查看全部

  SEM(搜索引擎营销)是什么?
  
  SEM是Search Engine Marketing的缩写,中文意思是搜索引擎营销。就是根据用户使用搜索引擎的方式,利用用户检索信息的机会尽可能将营销信息传递给目标用户。简单来说,搜索引擎营销就是基于搜索引擎平台的网络营销,利用人们对搜索引擎的依赖和使用习惯,在人们检索信息的时候尽可能将营销信息传递给目标客户。
  
  搜索引擎营销的基本思想是让用户发现信息,并通过(搜索引擎)搜索点击进入网站/网页进一步了解他所需要的信息。SEM可以在搜索引擎中进行品牌的维护,将品牌的负面信息尽可能少的呈现在搜索用户面前,可以预防竞争对手在网络上恶意的诬陷。同时可以在进行正面和商业信息的推广,进而达到品牌推广的目标。
  SEM目标层次原理
  SEM搜索引擎营销可分为四个层次,可分别简单描述为:存在层、表现层、关注层和转化层。
  第一层的目标是搜索引擎营销的存在层,其目标是在主要的搜索引擎/分类目录中获得被收录的机会,这是搜索引擎营销的基础之一,第二个基础是通过竞价排名方式出现在搜索引擎中,离开这两个层次,搜索引擎营销的其他目标也就不可能实现。搜索引擎登录包括免费登录、付费登录、搜索引擎关键词广告等形式。存在层的含义就是让网站中尽可能多的网页获得被搜索引擎收录(而不仅仅是网站首页),也就是为增加网页的搜索引擎可见性。
  第二层的目标则是在被搜索引擎收录的基础上尽可能获得好的排名,即在搜索结果中有良好的表现,因而可称为表现层。因为用户关心的只是搜索结果中靠前的少量内容,如果利用主要的关键词检索时网站在搜索结果中的排名靠后,那么还有必要利用关键词广告、竞价广告等形式作为补充手段来实现这一目标。同样,如果在分类目录中的位置不理想,则需要同时考虑在分类目录中利用付费等方式获得排名靠前。
  第三层的目标则直接表现为网站访问量指标方面,也就是通过搜索结果点击率的增加来达到提高网站访问量的目的。由于只有受到用户关注,经过用户选择后的信息才可能被点击,因此可称为关注层。从搜索引擎的实际情况来看,仅仅做到被搜索引擎收录并且在搜索结果中排名靠前是不够的,这样并不一定能增加用户的点击率,更不能保证将访问者转化为顾客。要通过搜索引擎营销实现访问量增加的目标,则需要从整体上进行网站优化设计,并充分利用关键词广告等有价值的搜索引擎营销专业服务。
  第四层的目标,即通过访问量的增加转化为企业最终实现收益的提高,可称为转化层。转化层是前面三个目标层次的进一步提升,是各种搜索引擎方法所实现效果的集中体现,但并不是搜索引擎营销的直接效果。从各种搜索引擎策略到产生收益,期间的中间效果表现为网站访问量的增加,网站的收益是由访问量转化所形成的,从访问量转化为收益则是由网站的功能、服务、产品等多种因素共同作用而决定的。因此,第四个目标在搜索引擎营销中属于战略层次的目标。其他三个层次的目标则属于策略范畴,具有可操作性和可控制性的特征,实现这些基本目标是搜索引擎营销的主要任务。目前搜索营销,逐步被人们认识和运用。
  SEM基本要素
  根据搜索引擎营销的基本原理,搜索引擎营销之所以能够实现,需要有五个基本要素:信息源(网页)、搜索引擎信息索引数据库、用户的检索行为和检索结果、用户对检索结果的分析判断、对选中检索结果的点击。对这些要素以及搜索引擎营销信息传递过程的研究和有效实现就构成了搜索引擎营销的基本任务和内容。
  
  SEM的优势
  SEM是一种新的网络营销形式。SEM所做的就是全面而有效的利用搜索引擎来进行网络营销和推广。SEM追求最高的性价比,以最小的投入,获最大的来自搜索引擎的访问量,并产生商业价值。SEM可以在搜索引擎中进行品牌的维护,将品牌的负面信息尽可能少的呈现在搜索用户面前,可以预防竞争对手在网络上恶意的诬陷。同时可以在进行正面和商业信息的推广,进而达到品牌推广的目标。
  SEM与SEO、SMO的区别
  SEM是网络营销,SEO是技术,SMO是通过社会化媒体一整套方法。
  通俗的讲SEO是搜索引擎优化,是通过优化网站让其在搜索引擎上有良好的排名,主要是技术层面的。SEM是搜索引擎营销,SEO只是SEM的一部分。SEM主要是通过搜索引擎进行营销的。SMO是通过社会化媒体、在线组织及社区网站获得公共传播的一整套方法,是社会化媒体优化是网络营销的一种最新形式。
  SEM网络营销常用方法
  1、搜索引擎营销
  搜索引擎营销是指搜索引擎优化、关键词广告、关键词竞价排名、搜索引擎定位广告搜索引擎在网络营销中的地位尤其重要,每天各行各业的人使用搜索引擎搜索信息。通过搜索引擎营销能直接带来流量与终端客户。
  2、电子邮件营销方法
  以电子邮件为产品资料、刊物、介绍等方向发送到电子邮件广告等。基于用户许可的电子邮件营销的推广方式可以增加用户对产品的了解。
  3、资源合作营销方法
  网站交换链接、交换广告、内容合作、信息推广、信息合作、用户资源合作等方式,正所谓“人人为我,我为人人”,合作共赢,利益共享,共同发展。
  4、网络广告营销方法
  网络广告是常用的网络营销方式之一,直接通过网站的广告位置进行投放推广,可以直接借用其他网络媒体推广,网站广告的优势在于:范围广、形式多样、适用性强、投放及时等优点,适合于网站初期营销推广。
  5、信息推广营销方法
  把网站的信息发布相关行业网站中,利用用户在访问这些网站同时,了解你网站信息,达到凿壁借光,可以把信息推广发布到黄页、分类广告、论坛、博客网站、供求信息平台、行业网站等,这也是免费网站推广的常用方法之一。
  6、网址营销方法
  通过把一些网站信息提交到相关网址导航中,来获取巨大流量,有些网络用户常进入一些网址导航中来查询相关网站信息,而且此种推广,对网站的作用也显而易见。

搜索引擎进行信息检索的优化策略方法 什么是SEM?

网站优化优采云 发表了文章 • 0 个评论 • 135 次浏览 • 2022-05-04 05:23 • 来自相关话题

  搜索引擎进行信息检索的优化策略方法 什么是SEM?
  
  搜索引擎营销:英文Search Engine Marketing ,我们通常简称为“SEM”。简单来说,搜索引擎营销就是基于搜索引擎平台的网络营销,利用人们对搜索引擎的依赖和使用习惯,在人们检索信息的时候将信息传递给目标用户。搜索引擎营销的基本思想是让用户发现信息,并通过点击进入网页,进一步了解所需要的信息。企业通过搜索引擎付费推广,让用户可以直接与公司客服进行交流、了解,实现交易。
  定义
  搜索引擎营销的基本思想是让用户发现信息,并通过(搜索引擎)搜索点击进入网站/网页进一步了解他所需要的信息。在介绍搜索引擎策略时,一般认为,搜索引擎优化设计主要目标有2个层次:被搜索引擎收录、在搜索结果中排名靠前。这已经是常识问题,简单来说SEM所做的就是以最小的投入在搜索引擎中获最大的访问量并产生商业价值。多数网络营销人员和专业服务商对搜索引擎的目标设定也基本处于这个水平。但从实际情况来看,仅仅做到被搜索引擎收录并且在搜索结果中排名靠前还很不够,因为取得这样的效果实际上并不一定能增加用户的点击率,更不能保证将访问者转化为顾客或者潜在顾客,因此只能说是搜索引擎营销策略中两个最基本的目标。
  SEM的方法包括SEO、付费排名、精准广告以及付费收录等
  价值
  1、带来更多的点击与关注;
  2、带来更多的商业机会;
  3、树立行业品牌;
  4、增加网站广度;
  5、提升品牌知名度;
  6、增加网站曝光度;
  7、根据关键词,通过创意和描述提供相关介绍。
  内涵
  搜索引擎营销(Search Engine Marking简称 SEM)就是根据用户使用搜索引擎的方式,利用用户检索信息的机会尽可能将营销信息传递给目标用户。
  工作原理
  1、用户搜索;
  2、返回结果;
  3、查看结果;
  4、点击内容;
  5、浏览网站;
  6、咨询搜索
  搜索引擎工作原理
  抓取-数据库-分析搜索请求-计算排列顺序
  基本要素
  根据搜索引擎推广的原理,搜索引擎推广之所以能够实现,需要有五个基本要素:信息源(网页)、搜索引擎信息索引数据库、用户的检索行为和检索结果、用户对检索结果的分析判断、对选中检索结果的点击。对这些要素以及搜索引擎推广信息传递过程的研究和有效实现就构成了搜索引擎推广的基本任务和内容。
  其实最主要的还是需要做好用户体验,百度算法进步升级,更加重视了用户体验这一块,做好内容,做优质内容才是王道。
  基本过程
  1、企业信息发布在网站上成为以网页形式存在的信息源(包括企业内部信息源及外部信息源);
  2、搜索引擎将网站/网页信息收录到索引数据库;
  3、用户利用关键词进行检索(对于分类目录则是逐级目录查询);
  4、检索结果中罗列相关的索引信息及其链接URL;
  5、根据用户对检索结果的判断选择有兴趣的信息并点击URL进入信息源所在网页;
  6、搜索关键词;
  7、看到搜索结果;
  8、点击链接;
  9、浏览企业网站;
  10、实现转化。
  基本内容
  1、构造适合于搜索引擎检索的信息源;
  2、创造网站/网页被搜索引擎收录的机会;
  3、让网站信息出现在搜索结果中靠前位置;
  4、以搜索结果中有限的信息获得用户关注;
  5、为用户获取信息提供方便。
  营销特点
  1、使用广泛;
  2、用户主动查询;
  3、获取新客户;
  4、竞争性强;
  5、动态更新,随时调整;
  6、投资回报率高;
  7、搜索引擎营销的基础是企业网络营销的信息源;
  8、搜索引擎传递的信息只发挥向导作用;
  9、搜索引擎营销是用户主导的网络营销方式;
  10、搜索引擎营销可实现较高程度的定位;
  11、搜索引擎营销需要适应网络服务环境的发展变化。
  营销宗旨
  1、被收录;
  2、排名靠前;
  3、常被点击;
  4、客户转化;
  5、提高品牌知名度。
  标题标签
  通过对客户网站进行整站优化,挑选出部分主关键词,配合其他营销方式,使其达到搜索引擎的首页位置,同时提高网站的权重,并带动更多长尾关键词的自然排名的提升。再结合ppc竞价,制定出精确的竞价关键词和优秀的创意内容,给公司带来更多的订单。
  在网页的优化上最重要的因素之一就是网页的标题标签。通常在写标题标签时应该考虑几个因素。
  1、所有网页都应该有适合自己的独特的Title或Tag。有很多网站都犯了一个很低级的错误,也就是所有网页都有同一个标题。可能设计师在设计网页的时候把整个模版来回复制,所以HTML文件里面的头信息也都被复制过去,没有再被改动。
  2、标题标签应该对用户的需求有足够的吸引力。网页在搜索引擎结果中列出,网页的标题就是来自于标题标签。
  3、标题标签中应该含有关键词。
  营销目标
  第一层是搜索引擎的存在层,其目标是在主要的搜索引擎/分类目录中获得被收录的机会,这是搜索引擎营销的基础,离开这个层次,搜索引擎营销的其他目标也就不可能实现。搜索引擎登录包括免费登录、付费登录、搜索引擎关键词广告等形式。存在层的含义就是让网站中尽可能多的网页获得被搜索引擎收录(而不仅仅是网站首页),也就是为增加网页的搜索引擎可见性。
  第二层的目标则是在被搜索引擎收录的基础上尽可能获得好的排名,即在搜索结果中有良好的表现,因而可称为表现层。因为用户关心的只是搜索结果中靠前的少量内容,如果利用主要的关键词检索时网站在搜索结果中的排名靠后,那么还有必要利用关键词广告、竞价广告等形式作为补充手段来实现这一目标。同样,如果在分类目录中的位置不理想,则需要同时考虑在分类目录中利用付费等方式获得排名靠前。
  搜索引擎营销的第三个目标则直接表现为网站访问量指标方面,也就是通过搜索结果点击率的增加来达到提高网站访问量的目的。由于只有受到用户关注,经过用户选择后的信息才可能被点击,因此可称为关注层。从搜索引擎的实际情况来看,仅仅做到被搜索引擎收录并且在搜索结果中排名靠前是不够的,这样并不一定能增加用户的点击率,更不能保证将访问者转化为顾客。要通过搜索引擎营销实现访问量增加的目标,则需要从整体上进行网站优化设计,并充分利用关键词广告等有价值的搜索引擎营销专业服务。
  搜索引擎推广的第四个目标,即通过访问量的增加转化为企业最终实现收益的提高,可称为转化层。转化层是前面三个目标层次的进一步提升,是各种搜索引擎方法所实现效果的集中体现,但并不是搜索引擎营销的直接效果。从各种搜索引擎策略到产生收益,期间的中间效果表现为网站访问量的增加,网站的收益是由访问量转化所形成的,从访问量转化为收益则是由网站的功能、服务、产品等多种因素共同作用而决定的。因此,第四个目标在搜索引擎营销中属于战略层次的目标。其他三个层次的目标则属于策略范畴,具有可操作性和可控制性的特征,实现这些基本目标是搜索引擎营销的主要任务。
  搜索引擎推广追求最高的性价比,以最小的投入,获最大的来自搜索引擎的访问量,并产生商业价值。用户在检索信息所使用的关键字反映出用户对该问题(产品)的关注,这种关注是搜索引擎之所以被应用于网络营销的根本原因。
  网络整合营销四大特性
  传染特性、互动特性、重合特性、背书特性
  确立营销需求
  确立营销标的物(产品属性)
  确立营销标准(消费人群)
  确立目标场景
  云浪网络推广,一直以低成本、有效果为各大企业及广告营销策划公司提供网络推广服务多年,擅长利用百度营销软文首页推广、百度爱采购,百度竞价前三推广(1500一个月,三个月2800,包点击费),官网推广至百度搜索关键词首页有排名为目标。
  【百度快照、百度竞价,百度爱采购、360竞价、、信息流开户,抖音短视频,全网推广咨询:度晓晓】
   查看全部

  搜索引擎进行信息检索的优化策略方法 什么是SEM?
  
  搜索引擎营销:英文Search Engine Marketing ,我们通常简称为“SEM”。简单来说,搜索引擎营销就是基于搜索引擎平台的网络营销,利用人们对搜索引擎的依赖和使用习惯,在人们检索信息的时候将信息传递给目标用户。搜索引擎营销的基本思想是让用户发现信息,并通过点击进入网页,进一步了解所需要的信息。企业通过搜索引擎付费推广,让用户可以直接与公司客服进行交流、了解,实现交易。
  定义
  搜索引擎营销的基本思想是让用户发现信息,并通过(搜索引擎)搜索点击进入网站/网页进一步了解他所需要的信息。在介绍搜索引擎策略时,一般认为,搜索引擎优化设计主要目标有2个层次:被搜索引擎收录、在搜索结果中排名靠前。这已经是常识问题,简单来说SEM所做的就是以最小的投入在搜索引擎中获最大的访问量并产生商业价值。多数网络营销人员和专业服务商对搜索引擎的目标设定也基本处于这个水平。但从实际情况来看,仅仅做到被搜索引擎收录并且在搜索结果中排名靠前还很不够,因为取得这样的效果实际上并不一定能增加用户的点击率,更不能保证将访问者转化为顾客或者潜在顾客,因此只能说是搜索引擎营销策略中两个最基本的目标。
  SEM的方法包括SEO、付费排名、精准广告以及付费收录等
  价值
  1、带来更多的点击与关注;
  2、带来更多的商业机会;
  3、树立行业品牌;
  4、增加网站广度;
  5、提升品牌知名度;
  6、增加网站曝光度;
  7、根据关键词,通过创意和描述提供相关介绍。
  内涵
  搜索引擎营销(Search Engine Marking简称 SEM)就是根据用户使用搜索引擎的方式,利用用户检索信息的机会尽可能将营销信息传递给目标用户。
  工作原理
  1、用户搜索;
  2、返回结果;
  3、查看结果;
  4、点击内容;
  5、浏览网站;
  6、咨询搜索
  搜索引擎工作原理
  抓取-数据库-分析搜索请求-计算排列顺序
  基本要素
  根据搜索引擎推广的原理,搜索引擎推广之所以能够实现,需要有五个基本要素:信息源(网页)、搜索引擎信息索引数据库、用户的检索行为和检索结果、用户对检索结果的分析判断、对选中检索结果的点击。对这些要素以及搜索引擎推广信息传递过程的研究和有效实现就构成了搜索引擎推广的基本任务和内容。
  其实最主要的还是需要做好用户体验,百度算法进步升级,更加重视了用户体验这一块,做好内容,做优质内容才是王道。
  基本过程
  1、企业信息发布在网站上成为以网页形式存在的信息源(包括企业内部信息源及外部信息源);
  2、搜索引擎将网站/网页信息收录到索引数据库;
  3、用户利用关键词进行检索(对于分类目录则是逐级目录查询);
  4、检索结果中罗列相关的索引信息及其链接URL;
  5、根据用户对检索结果的判断选择有兴趣的信息并点击URL进入信息源所在网页;
  6、搜索关键词;
  7、看到搜索结果;
  8、点击链接;
  9、浏览企业网站;
  10、实现转化。
  基本内容
  1、构造适合于搜索引擎检索的信息源;
  2、创造网站/网页被搜索引擎收录的机会;
  3、让网站信息出现在搜索结果中靠前位置;
  4、以搜索结果中有限的信息获得用户关注;
  5、为用户获取信息提供方便。
  营销特点
  1、使用广泛;
  2、用户主动查询;
  3、获取新客户;
  4、竞争性强;
  5、动态更新,随时调整;
  6、投资回报率高;
  7、搜索引擎营销的基础是企业网络营销的信息源;
  8、搜索引擎传递的信息只发挥向导作用;
  9、搜索引擎营销是用户主导的网络营销方式;
  10、搜索引擎营销可实现较高程度的定位;
  11、搜索引擎营销需要适应网络服务环境的发展变化。
  营销宗旨
  1、被收录;
  2、排名靠前;
  3、常被点击;
  4、客户转化;
  5、提高品牌知名度。
  标题标签
  通过对客户网站进行整站优化,挑选出部分主关键词,配合其他营销方式,使其达到搜索引擎的首页位置,同时提高网站的权重,并带动更多长尾关键词的自然排名的提升。再结合ppc竞价,制定出精确的竞价关键词和优秀的创意内容,给公司带来更多的订单。
  在网页的优化上最重要的因素之一就是网页的标题标签。通常在写标题标签时应该考虑几个因素。
  1、所有网页都应该有适合自己的独特的Title或Tag。有很多网站都犯了一个很低级的错误,也就是所有网页都有同一个标题。可能设计师在设计网页的时候把整个模版来回复制,所以HTML文件里面的头信息也都被复制过去,没有再被改动。
  2、标题标签应该对用户的需求有足够的吸引力。网页在搜索引擎结果中列出,网页的标题就是来自于标题标签。
  3、标题标签中应该含有关键词。
  营销目标
  第一层是搜索引擎的存在层,其目标是在主要的搜索引擎/分类目录中获得被收录的机会,这是搜索引擎营销的基础,离开这个层次,搜索引擎营销的其他目标也就不可能实现。搜索引擎登录包括免费登录、付费登录、搜索引擎关键词广告等形式。存在层的含义就是让网站中尽可能多的网页获得被搜索引擎收录(而不仅仅是网站首页),也就是为增加网页的搜索引擎可见性。
  第二层的目标则是在被搜索引擎收录的基础上尽可能获得好的排名,即在搜索结果中有良好的表现,因而可称为表现层。因为用户关心的只是搜索结果中靠前的少量内容,如果利用主要的关键词检索时网站在搜索结果中的排名靠后,那么还有必要利用关键词广告、竞价广告等形式作为补充手段来实现这一目标。同样,如果在分类目录中的位置不理想,则需要同时考虑在分类目录中利用付费等方式获得排名靠前。
  搜索引擎营销的第三个目标则直接表现为网站访问量指标方面,也就是通过搜索结果点击率的增加来达到提高网站访问量的目的。由于只有受到用户关注,经过用户选择后的信息才可能被点击,因此可称为关注层。从搜索引擎的实际情况来看,仅仅做到被搜索引擎收录并且在搜索结果中排名靠前是不够的,这样并不一定能增加用户的点击率,更不能保证将访问者转化为顾客。要通过搜索引擎营销实现访问量增加的目标,则需要从整体上进行网站优化设计,并充分利用关键词广告等有价值的搜索引擎营销专业服务。
  搜索引擎推广的第四个目标,即通过访问量的增加转化为企业最终实现收益的提高,可称为转化层。转化层是前面三个目标层次的进一步提升,是各种搜索引擎方法所实现效果的集中体现,但并不是搜索引擎营销的直接效果。从各种搜索引擎策略到产生收益,期间的中间效果表现为网站访问量的增加,网站的收益是由访问量转化所形成的,从访问量转化为收益则是由网站的功能、服务、产品等多种因素共同作用而决定的。因此,第四个目标在搜索引擎营销中属于战略层次的目标。其他三个层次的目标则属于策略范畴,具有可操作性和可控制性的特征,实现这些基本目标是搜索引擎营销的主要任务。
  搜索引擎推广追求最高的性价比,以最小的投入,获最大的来自搜索引擎的访问量,并产生商业价值。用户在检索信息所使用的关键字反映出用户对该问题(产品)的关注,这种关注是搜索引擎之所以被应用于网络营销的根本原因。
  网络整合营销四大特性
  传染特性、互动特性、重合特性、背书特性
  确立营销需求
  确立营销标的物(产品属性)
  确立营销标准(消费人群)
  确立目标场景
  云浪网络推广,一直以低成本、有效果为各大企业及广告营销策划公司提供网络推广服务多年,擅长利用百度营销软文首页推广、百度爱采购,百度竞价前三推广(1500一个月,三个月2800,包点击费),官网推广至百度搜索关键词首页有排名为目标。
  【百度快照、百度竞价,百度爱采购、360竞价、、信息流开户,抖音短视频,全网推广咨询:度晓晓】
  

QA问答场景算法实践

网站优化优采云 发表了文章 • 0 个评论 • 94 次浏览 • 2022-05-02 18:20 • 来自相关话题

  QA问答场景算法实践
  1.背景
  我们的游戏客服场景中包含大量玩家与客服交互问答的文本语料,人工客服在面对玩家时会遇到诸如账号密码、充值福利、玩法攻略等很多方面的问题,经过长期的积累,运营人员根据线上用户的提问做总结,沉淀下来的知识形成了游戏问答领域的FAQ库(知识库)。我们的智能客服场景致力于解决人工客服需要应对的玩家提问,提供一个便捷的搜索入口,以便后续有人再有相同或相似问题时可以直接搜到答案。
  智能客服相比于人工客服具有响应速度快、always online、维护成本低等优势,在有知识库库的前提下,通过智能化手段辅助人工解决玩家问题,已经作为一种效率提升手段覆盖到越来越多的游戏当中。
  2.智能客服的实践及探索2.1 智能客服架构
  整个智能客服的架构如下图所示:
  
  2.2 Query理解2.2.1 为什么需要query理解
  query理解是整个智能客服中最上游的一环,负责的是从query中提取到有效的信息,从而了解用户希望这个query在问什么内容。query理解,决定了下游的问答召回策略:
  quey理解需要做哪些内容短语改写
  短语改写的背景很容易理解,因为输入法等方面的问题,用户输入会有笔误操作类
  这里提供两个思路:
  简单说,短语改写的目的是为了纠错,比如“充值到账”手误输入成了“充直到账”,短语改写便能将其纠正,query改写后能更容易召回正确答案。
  意图识别
  意图识别模块通常是一个分类任务,目的是识别用户要查询的类目,再输出给召回和排序模块,保证最后结果的类目相关性,具体实现方式可以从传统方法和NLP两方面考虑。
  传统方法:通过规则、词典、正则等方式进行识别,准确率高、速度快。
  NLP:通过语义分析的手段,文本分类,达到语义分析的目的。
  这里的意图识别模型用的是fastText,FastText是由FaceBook于2016年发布的文本分类模型,具有结构简单,训练及推理速度较快的特点。FastText与生成词向量的CBOW方法结构很像,并且采用了N-gram的方法,在预测过程中使用了分层SoftMax来加速训练。
  
  FastText能够在文本分类任务中迅速达成baseline,达到相对较好的效果,并且推理耗时较少,适用于项目启动时期的快速上线。总的来说,该模型有高效的训练速度和较高的识别准确率,做出来的结果也可以达到上线使用的标准。词法分析维护了一些词典,通过词典匹配能获得query中的关键词和关键短语。
  实体识别
  实体识别的实现方法可以概括为词典匹配和机器学习方法。
  词典匹配
  这个任务虽说是命名实体识别任务,但是却不见得需要建立一个模型才能解决,要进行一个初步的处理,快速上线,其实词典匹配的方法可能是最简单的,而实际上,即使是其他方法,我也很建议大家用这个方式去做一遍,理由后面会谈。
  词典匹配的便捷性体现在你真的很容易就能拿到这个词典资源,因为你做搜索,所需要的数据,其实已经在数据库或者底层搜索引擎里面了(没有资源你怎么做搜索推荐?),你可以将数据库内的数据按照字段提取,然后通过n-gram的方式切词,即可完成一个初步的词典,复杂的,进一步,为了保证词典的可靠性,你可能需要删除一些不适合再次点出现的词汇,举例,酒店名字段中,其实没有必要存“酒店”做为词条,首先召回的时候,大部分酒店都有“酒店”一词,他没有明显地指向性,然后,这种召回也会增加排序的负担。
  有了词典之后,就可以通过词典匹配的形式进行命名实体识别。上面给出的例子:“北京的温泉”,就可以快速标记“city-object-type”,然后就可以通过这个实体识别结果,拼好检索语法,完成召回。
  机器学习方法
  器学习方法,包括深度学习,是现行的主流方法,我也最建议用这种方法上线。
  词权重问题
  词权重可以简单理解为一个词在我们问题句子当中的权重,为什么要考虑词权重?
  我们有了一段文本,抽取比较重要的关键词,这些关键词在一定程度上可以代表文本的语义,这种任务就被称为关键词抽取。如果从抽象的角度去解释,我们会把句子转成0和1组成序列,序列的长度跟句子长度相等,对于这个01序列,为1的位置对应句子的位置的词汇就是关键词,为0的则为为关键词。
  按照这个思路,我们用01来表示句子序列,0和1分别对应句子当中的词汇,如果按照等级划分,比如分层5个级别,01234,4代表最重要,3次之,以此类推,形成一个分等级的词重要性分析。
  概括来说,就是给句子中每个词汇打分,体现他们的重要性,这种问题就被称为词权重问题。
  处理方法:
  TFIDF是很强的baseline,具有较强的普适性,如果没有太多经验的话,可以实现该算法基本能应付大部分关键词抽取的场景了
  有监督方法,其实就会比较多样了,小到用基础统计特征做机器学习,序列标注下的HMM、CRF,大到用语义模型做深度学习,其实都有不错的效果。
  我这里重点谈小型机器学习方法,这似乎也是目前工业界常用的。LR和GBDT体系是目前浅层学习的重要方法,当然序列标注的CRF和HMM也可以参考,因此在模型选型上,主要就是这些,那么,剩下的问题就是特征怎么放了。
  常用的特征如下,这个和上面提到的可能会重复。
  2.3 召回层
  召回层是将候选答案从FAQ库中拿回,获得待排序的候选集。此处用了两种召回方式:检索召回和语义召回。
  
  2.4 排序层
  排序层是将召回层拿到的候选知识进行排序,将和query最相关的知识尽可能往前排。排序模型采用了GBDT,GBDT作为一种常用的树模型,可天然地对原始特征进行特征划分、特征组合和特征选择,并得到高阶特征属性和非线性映射。我们考虑用GBDT可以组合多种特征,可扩展性强,并且后期验证GBDT的效果好于单独使用匹配算法效果,因此,当前匹配算法在排序层中作为一种特征来使用。
  匹配算法用到的是LSTM-DSSM,DSSM即Deep Structured Semantic Model,模型出自微软研究院,主要方法是将query和doc通过深度网络映射到相同维度的空间中,通过最大化其余弦相似度来进行训练。
  
  LSTM-DSSM是对DSSM的优化,原生DSSM的基础上,引入LSTM作为句子表征,提取更多的语义级别的信息。
  2.5 返回层:
  query经过上述处理之后会对处理结果进行返回,目前主要是QA-Bot。
  三、总结与展望
  当前的智能客服已经覆盖了多个业务线的游戏场景中,上线后,QA-bot的列表点击率也有一定的提升,对于一些简单的问题已经能够将较匹配的答案排到较前的位置。但是对于需要深度语义及具有知识背景的问题,如:“VIP5到VIP6需要多少钱”的问题,现有办法将答案“充值”排在靠前的位置时还有一定的badcase。当前正在考虑参考知识图谱等方向的解决方案,对知识库内的知识进行结构化的梳理,希望在匹配的同时能够具有简单的推理,来更好的理解用户语言背后的需求。
  展望和计划:
  数据是效果的基础,智能客服效果所依赖的知识库库也需要不断的知识扩充,如何通过自动或半自动的方法挖出更多高质量的相似问或者标准问,为知识运营人员提效,也是我们现阶段正在探索的方向。
  当前的匹配算法仅作为一种特征使用在gbdt排序模型中,后期随着匹配算法的不断积累,会将所有的匹配模型进行整合,以一种更通用的模块化的方式,为有文本匹配需求的各个业务场景提供匹配算法的支持。
  算法服务模块会进一步拆解,比如Query理解等方面的服务可以集成到开放平台,并提供服务,为更多相关的业务提供算法支持。
  参考文献 查看全部

  QA问答场景算法实践
  1.背景
  我们的游戏客服场景中包含大量玩家与客服交互问答的文本语料,人工客服在面对玩家时会遇到诸如账号密码、充值福利、玩法攻略等很多方面的问题,经过长期的积累,运营人员根据线上用户的提问做总结,沉淀下来的知识形成了游戏问答领域的FAQ库(知识库)。我们的智能客服场景致力于解决人工客服需要应对的玩家提问,提供一个便捷的搜索入口,以便后续有人再有相同或相似问题时可以直接搜到答案。
  智能客服相比于人工客服具有响应速度快、always online、维护成本低等优势,在有知识库库的前提下,通过智能化手段辅助人工解决玩家问题,已经作为一种效率提升手段覆盖到越来越多的游戏当中。
  2.智能客服的实践及探索2.1 智能客服架构
  整个智能客服的架构如下图所示:
  
  2.2 Query理解2.2.1 为什么需要query理解
  query理解是整个智能客服中最上游的一环,负责的是从query中提取到有效的信息,从而了解用户希望这个query在问什么内容。query理解,决定了下游的问答召回策略:
  quey理解需要做哪些内容短语改写
  短语改写的背景很容易理解,因为输入法等方面的问题,用户输入会有笔误操作类
  这里提供两个思路:
  简单说,短语改写的目的是为了纠错,比如“充值到账”手误输入成了“充直到账”,短语改写便能将其纠正,query改写后能更容易召回正确答案。
  意图识别
  意图识别模块通常是一个分类任务,目的是识别用户要查询的类目,再输出给召回和排序模块,保证最后结果的类目相关性,具体实现方式可以从传统方法和NLP两方面考虑。
  传统方法:通过规则、词典、正则等方式进行识别,准确率高、速度快。
  NLP:通过语义分析的手段,文本分类,达到语义分析的目的。
  这里的意图识别模型用的是fastText,FastText是由FaceBook于2016年发布的文本分类模型,具有结构简单,训练及推理速度较快的特点。FastText与生成词向量的CBOW方法结构很像,并且采用了N-gram的方法,在预测过程中使用了分层SoftMax来加速训练。
  
  FastText能够在文本分类任务中迅速达成baseline,达到相对较好的效果,并且推理耗时较少,适用于项目启动时期的快速上线。总的来说,该模型有高效的训练速度和较高的识别准确率,做出来的结果也可以达到上线使用的标准。词法分析维护了一些词典,通过词典匹配能获得query中的关键词和关键短语。
  实体识别
  实体识别的实现方法可以概括为词典匹配和机器学习方法。
  词典匹配
  这个任务虽说是命名实体识别任务,但是却不见得需要建立一个模型才能解决,要进行一个初步的处理,快速上线,其实词典匹配的方法可能是最简单的,而实际上,即使是其他方法,我也很建议大家用这个方式去做一遍,理由后面会谈。
  词典匹配的便捷性体现在你真的很容易就能拿到这个词典资源,因为你做搜索,所需要的数据,其实已经在数据库或者底层搜索引擎里面了(没有资源你怎么做搜索推荐?),你可以将数据库内的数据按照字段提取,然后通过n-gram的方式切词,即可完成一个初步的词典,复杂的,进一步,为了保证词典的可靠性,你可能需要删除一些不适合再次点出现的词汇,举例,酒店名字段中,其实没有必要存“酒店”做为词条,首先召回的时候,大部分酒店都有“酒店”一词,他没有明显地指向性,然后,这种召回也会增加排序的负担。
  有了词典之后,就可以通过词典匹配的形式进行命名实体识别。上面给出的例子:“北京的温泉”,就可以快速标记“city-object-type”,然后就可以通过这个实体识别结果,拼好检索语法,完成召回。
  机器学习方法
  器学习方法,包括深度学习,是现行的主流方法,我也最建议用这种方法上线。
  词权重问题
  词权重可以简单理解为一个词在我们问题句子当中的权重,为什么要考虑词权重?
  我们有了一段文本,抽取比较重要的关键词,这些关键词在一定程度上可以代表文本的语义,这种任务就被称为关键词抽取。如果从抽象的角度去解释,我们会把句子转成0和1组成序列,序列的长度跟句子长度相等,对于这个01序列,为1的位置对应句子的位置的词汇就是关键词,为0的则为为关键词。
  按照这个思路,我们用01来表示句子序列,0和1分别对应句子当中的词汇,如果按照等级划分,比如分层5个级别,01234,4代表最重要,3次之,以此类推,形成一个分等级的词重要性分析。
  概括来说,就是给句子中每个词汇打分,体现他们的重要性,这种问题就被称为词权重问题。
  处理方法:
  TFIDF是很强的baseline,具有较强的普适性,如果没有太多经验的话,可以实现该算法基本能应付大部分关键词抽取的场景了
  有监督方法,其实就会比较多样了,小到用基础统计特征做机器学习,序列标注下的HMM、CRF,大到用语义模型做深度学习,其实都有不错的效果。
  我这里重点谈小型机器学习方法,这似乎也是目前工业界常用的。LR和GBDT体系是目前浅层学习的重要方法,当然序列标注的CRF和HMM也可以参考,因此在模型选型上,主要就是这些,那么,剩下的问题就是特征怎么放了。
  常用的特征如下,这个和上面提到的可能会重复。
  2.3 召回层
  召回层是将候选答案从FAQ库中拿回,获得待排序的候选集。此处用了两种召回方式:检索召回和语义召回。
  
  2.4 排序层
  排序层是将召回层拿到的候选知识进行排序,将和query最相关的知识尽可能往前排。排序模型采用了GBDT,GBDT作为一种常用的树模型,可天然地对原始特征进行特征划分、特征组合和特征选择,并得到高阶特征属性和非线性映射。我们考虑用GBDT可以组合多种特征,可扩展性强,并且后期验证GBDT的效果好于单独使用匹配算法效果,因此,当前匹配算法在排序层中作为一种特征来使用。
  匹配算法用到的是LSTM-DSSM,DSSM即Deep Structured Semantic Model,模型出自微软研究院,主要方法是将query和doc通过深度网络映射到相同维度的空间中,通过最大化其余弦相似度来进行训练。
  
  LSTM-DSSM是对DSSM的优化,原生DSSM的基础上,引入LSTM作为句子表征,提取更多的语义级别的信息。
  2.5 返回层:
  query经过上述处理之后会对处理结果进行返回,目前主要是QA-Bot。
  三、总结与展望
  当前的智能客服已经覆盖了多个业务线的游戏场景中,上线后,QA-bot的列表点击率也有一定的提升,对于一些简单的问题已经能够将较匹配的答案排到较前的位置。但是对于需要深度语义及具有知识背景的问题,如:“VIP5到VIP6需要多少钱”的问题,现有办法将答案“充值”排在靠前的位置时还有一定的badcase。当前正在考虑参考知识图谱等方向的解决方案,对知识库内的知识进行结构化的梳理,希望在匹配的同时能够具有简单的推理,来更好的理解用户语言背后的需求。
  展望和计划:
  数据是效果的基础,智能客服效果所依赖的知识库库也需要不断的知识扩充,如何通过自动或半自动的方法挖出更多高质量的相似问或者标准问,为知识运营人员提效,也是我们现阶段正在探索的方向。
  当前的匹配算法仅作为一种特征使用在gbdt排序模型中,后期随着匹配算法的不断积累,会将所有的匹配模型进行整合,以一种更通用的模块化的方式,为有文本匹配需求的各个业务场景提供匹配算法的支持。
  算法服务模块会进一步拆解,比如Query理解等方面的服务可以集成到开放平台,并提供服务,为更多相关的业务提供算法支持。
  参考文献

搜索引擎进行信息检索的优化策略方法 什么是SEM?

网站优化优采云 发表了文章 • 0 个评论 • 136 次浏览 • 2022-05-01 18:04 • 来自相关话题

  搜索引擎进行信息检索的优化策略方法 什么是SEM?
  
  搜索引擎营销:英文Search Engine Marketing ,我们通常简称为“SEM”。简单来说,搜索引擎营销就是基于搜索引擎平台的网络营销,利用人们对搜索引擎的依赖和使用习惯,在人们检索信息的时候将信息传递给目标用户。搜索引擎营销的基本思想是让用户发现信息,并通过点击进入网页,进一步了解所需要的信息。企业通过搜索引擎付费推广,让用户可以直接与公司客服进行交流、了解,实现交易。
  定义
  搜索引擎营销的基本思想是让用户发现信息,并通过(搜索引擎)搜索点击进入网站/网页进一步了解他所需要的信息。在介绍搜索引擎策略时,一般认为,搜索引擎优化设计主要目标有2个层次:被搜索引擎收录、在搜索结果中排名靠前。这已经是常识问题,简单来说SEM所做的就是以最小的投入在搜索引擎中获最大的访问量并产生商业价值。多数网络营销人员和专业服务商对搜索引擎的目标设定也基本处于这个水平。但从实际情况来看,仅仅做到被搜索引擎收录并且在搜索结果中排名靠前还很不够,因为取得这样的效果实际上并不一定能增加用户的点击率,更不能保证将访问者转化为顾客或者潜在顾客,因此只能说是搜索引擎营销策略中两个最基本的目标。
  SEM的方法包括SEO、付费排名、精准广告以及付费收录等
  价值
  1、带来更多的点击与关注;
  2、带来更多的商业机会;
  3、树立行业品牌;
  4、增加网站广度;
  5、提升品牌知名度;
  6、增加网站曝光度;
  7、根据关键词,通过创意和描述提供相关介绍。
  内涵
  搜索引擎营销(Search Engine Marking简称 SEM)就是根据用户使用搜索引擎的方式,利用用户检索信息的机会尽可能将营销信息传递给目标用户。
  工作原理
  1、用户搜索;
  2、返回结果;
  3、查看结果;
  4、点击内容;
  5、浏览网站;
  6、咨询搜索
  搜索引擎工作原理
  抓取-数据库-分析搜索请求-计算排列顺序
  基本要素
  根据搜索引擎推广的原理,搜索引擎推广之所以能够实现,需要有五个基本要素:信息源(网页)、搜索引擎信息索引数据库、用户的检索行为和检索结果、用户对检索结果的分析判断、对选中检索结果的点击。对这些要素以及搜索引擎推广信息传递过程的研究和有效实现就构成了搜索引擎推广的基本任务和内容。
  其实最主要的还是需要做好用户体验,百度算法进步升级,更加重视了用户体验这一块,做好内容,做优质内容才是王道。
  基本过程
  1、企业信息发布在网站上成为以网页形式存在的信息源(包括企业内部信息源及外部信息源);
  2、搜索引擎将网站/网页信息收录到索引数据库;
  3、用户利用关键词进行检索(对于分类目录则是逐级目录查询);
  4、检索结果中罗列相关的索引信息及其链接URL;
  5、根据用户对检索结果的判断选择有兴趣的信息并点击URL进入信息源所在网页;
  6、搜索关键词;
  7、看到搜索结果;
  8、点击链接;
  9、浏览企业网站;
  10、实现转化。
  基本内容
  1、构造适合于搜索引擎检索的信息源;
  2、创造网站/网页被搜索引擎收录的机会;
  3、让网站信息出现在搜索结果中靠前位置;
  4、以搜索结果中有限的信息获得用户关注;
  5、为用户获取信息提供方便。
  营销特点
  1、使用广泛;
  2、用户主动查询;
  3、获取新客户;
  4、竞争性强;
  5、动态更新,随时调整;
  6、投资回报率高;
  7、搜索引擎营销的基础是企业网络营销的信息源;
  8、搜索引擎传递的信息只发挥向导作用;
  9、搜索引擎营销是用户主导的网络营销方式;
  10、搜索引擎营销可实现较高程度的定位;
  11、搜索引擎营销需要适应网络服务环境的发展变化。
  营销宗旨
  1、被收录;
  2、排名靠前;
  3、常被点击;
  4、客户转化;
  5、提高品牌知名度。
  标题标签
  通过对客户网站进行整站优化,挑选出部分主关键词,配合其他营销方式,使其达到搜索引擎的首页位置,同时提高网站的权重,并带动更多长尾关键词的自然排名的提升。再结合ppc竞价,制定出精确的竞价关键词和优秀的创意内容,给公司带来更多的订单。
  在网页的优化上最重要的因素之一就是网页的标题标签。通常在写标题标签时应该考虑几个因素。
  1、所有网页都应该有适合自己的独特的Title或Tag。有很多网站都犯了一个很低级的错误,也就是所有网页都有同一个标题。可能设计师在设计网页的时候把整个模版来回复制,所以HTML文件里面的头信息也都被复制过去,没有再被改动。
  2、标题标签应该对用户的需求有足够的吸引力。网页在搜索引擎结果中列出,网页的标题就是来自于标题标签。
  3、标题标签中应该含有关键词。
  营销目标
  第一层是搜索引擎的存在层,其目标是在主要的搜索引擎/分类目录中获得被收录的机会,这是搜索引擎营销的基础,离开这个层次,搜索引擎营销的其他目标也就不可能实现。搜索引擎登录包括免费登录、付费登录、搜索引擎关键词广告等形式。存在层的含义就是让网站中尽可能多的网页获得被搜索引擎收录(而不仅仅是网站首页),也就是为增加网页的搜索引擎可见性。
  第二层的目标则是在被搜索引擎收录的基础上尽可能获得好的排名,即在搜索结果中有良好的表现,因而可称为表现层。因为用户关心的只是搜索结果中靠前的少量内容,如果利用主要的关键词检索时网站在搜索结果中的排名靠后,那么还有必要利用关键词广告、竞价广告等形式作为补充手段来实现这一目标。同样,如果在分类目录中的位置不理想,则需要同时考虑在分类目录中利用付费等方式获得排名靠前。
  搜索引擎营销的第三个目标则直接表现为网站访问量指标方面,也就是通过搜索结果点击率的增加来达到提高网站访问量的目的。由于只有受到用户关注,经过用户选择后的信息才可能被点击,因此可称为关注层。从搜索引擎的实际情况来看,仅仅做到被搜索引擎收录并且在搜索结果中排名靠前是不够的,这样并不一定能增加用户的点击率,更不能保证将访问者转化为顾客。要通过搜索引擎营销实现访问量增加的目标,则需要从整体上进行网站优化设计,并充分利用关键词广告等有价值的搜索引擎营销专业服务。
  搜索引擎推广的第四个目标,即通过访问量的增加转化为企业最终实现收益的提高,可称为转化层。转化层是前面三个目标层次的进一步提升,是各种搜索引擎方法所实现效果的集中体现,但并不是搜索引擎营销的直接效果。从各种搜索引擎策略到产生收益,期间的中间效果表现为网站访问量的增加,网站的收益是由访问量转化所形成的,从访问量转化为收益则是由网站的功能、服务、产品等多种因素共同作用而决定的。因此,第四个目标在搜索引擎营销中属于战略层次的目标。其他三个层次的目标则属于策略范畴,具有可操作性和可控制性的特征,实现这些基本目标是搜索引擎营销的主要任务。
  搜索引擎推广追求最高的性价比,以最小的投入,获最大的来自搜索引擎的访问量,并产生商业价值。用户在检索信息所使用的关键字反映出用户对该问题(产品)的关注,这种关注是搜索引擎之所以被应用于网络营销的根本原因。
  网络整合营销四大特性
  传染特性、互动特性、重合特性、背书特性
  确立营销需求
  确立营销标的物(产品属性)
  确立营销标准(消费人群)
  确立目标场景
  云浪网络推广,一直以低成本、有效果为各大企业及广告营销策划公司提供网络推广服务多年,擅长利用百度营销软文首页推广、百度爱采购,百度竞价前三推广(1500一个月,三个月2800,包点击费),官网推广至百度搜索关键词首页有排名为目标。
  【百度快照、百度竞价,百度爱采购、360竞价、、信息流开户,抖音短视频,全网推广咨询:度晓晓】
   查看全部

  搜索引擎进行信息检索的优化策略方法 什么是SEM?
  
  搜索引擎营销:英文Search Engine Marketing ,我们通常简称为“SEM”。简单来说,搜索引擎营销就是基于搜索引擎平台的网络营销,利用人们对搜索引擎的依赖和使用习惯,在人们检索信息的时候将信息传递给目标用户。搜索引擎营销的基本思想是让用户发现信息,并通过点击进入网页,进一步了解所需要的信息。企业通过搜索引擎付费推广,让用户可以直接与公司客服进行交流、了解,实现交易。
  定义
  搜索引擎营销的基本思想是让用户发现信息,并通过(搜索引擎)搜索点击进入网站/网页进一步了解他所需要的信息。在介绍搜索引擎策略时,一般认为,搜索引擎优化设计主要目标有2个层次:被搜索引擎收录、在搜索结果中排名靠前。这已经是常识问题,简单来说SEM所做的就是以最小的投入在搜索引擎中获最大的访问量并产生商业价值。多数网络营销人员和专业服务商对搜索引擎的目标设定也基本处于这个水平。但从实际情况来看,仅仅做到被搜索引擎收录并且在搜索结果中排名靠前还很不够,因为取得这样的效果实际上并不一定能增加用户的点击率,更不能保证将访问者转化为顾客或者潜在顾客,因此只能说是搜索引擎营销策略中两个最基本的目标。
  SEM的方法包括SEO、付费排名、精准广告以及付费收录等
  价值
  1、带来更多的点击与关注;
  2、带来更多的商业机会;
  3、树立行业品牌;
  4、增加网站广度;
  5、提升品牌知名度;
  6、增加网站曝光度;
  7、根据关键词,通过创意和描述提供相关介绍。
  内涵
  搜索引擎营销(Search Engine Marking简称 SEM)就是根据用户使用搜索引擎的方式,利用用户检索信息的机会尽可能将营销信息传递给目标用户。
  工作原理
  1、用户搜索;
  2、返回结果;
  3、查看结果;
  4、点击内容;
  5、浏览网站;
  6、咨询搜索
  搜索引擎工作原理
  抓取-数据库-分析搜索请求-计算排列顺序
  基本要素
  根据搜索引擎推广的原理,搜索引擎推广之所以能够实现,需要有五个基本要素:信息源(网页)、搜索引擎信息索引数据库、用户的检索行为和检索结果、用户对检索结果的分析判断、对选中检索结果的点击。对这些要素以及搜索引擎推广信息传递过程的研究和有效实现就构成了搜索引擎推广的基本任务和内容。
  其实最主要的还是需要做好用户体验,百度算法进步升级,更加重视了用户体验这一块,做好内容,做优质内容才是王道。
  基本过程
  1、企业信息发布在网站上成为以网页形式存在的信息源(包括企业内部信息源及外部信息源);
  2、搜索引擎将网站/网页信息收录到索引数据库;
  3、用户利用关键词进行检索(对于分类目录则是逐级目录查询);
  4、检索结果中罗列相关的索引信息及其链接URL;
  5、根据用户对检索结果的判断选择有兴趣的信息并点击URL进入信息源所在网页;
  6、搜索关键词;
  7、看到搜索结果;
  8、点击链接;
  9、浏览企业网站;
  10、实现转化。
  基本内容
  1、构造适合于搜索引擎检索的信息源;
  2、创造网站/网页被搜索引擎收录的机会;
  3、让网站信息出现在搜索结果中靠前位置;
  4、以搜索结果中有限的信息获得用户关注;
  5、为用户获取信息提供方便。
  营销特点
  1、使用广泛;
  2、用户主动查询;
  3、获取新客户;
  4、竞争性强;
  5、动态更新,随时调整;
  6、投资回报率高;
  7、搜索引擎营销的基础是企业网络营销的信息源;
  8、搜索引擎传递的信息只发挥向导作用;
  9、搜索引擎营销是用户主导的网络营销方式;
  10、搜索引擎营销可实现较高程度的定位;
  11、搜索引擎营销需要适应网络服务环境的发展变化。
  营销宗旨
  1、被收录;
  2、排名靠前;
  3、常被点击;
  4、客户转化;
  5、提高品牌知名度。
  标题标签
  通过对客户网站进行整站优化,挑选出部分主关键词,配合其他营销方式,使其达到搜索引擎的首页位置,同时提高网站的权重,并带动更多长尾关键词的自然排名的提升。再结合ppc竞价,制定出精确的竞价关键词和优秀的创意内容,给公司带来更多的订单。
  在网页的优化上最重要的因素之一就是网页的标题标签。通常在写标题标签时应该考虑几个因素。
  1、所有网页都应该有适合自己的独特的Title或Tag。有很多网站都犯了一个很低级的错误,也就是所有网页都有同一个标题。可能设计师在设计网页的时候把整个模版来回复制,所以HTML文件里面的头信息也都被复制过去,没有再被改动。
  2、标题标签应该对用户的需求有足够的吸引力。网页在搜索引擎结果中列出,网页的标题就是来自于标题标签。
  3、标题标签中应该含有关键词。
  营销目标
  第一层是搜索引擎的存在层,其目标是在主要的搜索引擎/分类目录中获得被收录的机会,这是搜索引擎营销的基础,离开这个层次,搜索引擎营销的其他目标也就不可能实现。搜索引擎登录包括免费登录、付费登录、搜索引擎关键词广告等形式。存在层的含义就是让网站中尽可能多的网页获得被搜索引擎收录(而不仅仅是网站首页),也就是为增加网页的搜索引擎可见性。
  第二层的目标则是在被搜索引擎收录的基础上尽可能获得好的排名,即在搜索结果中有良好的表现,因而可称为表现层。因为用户关心的只是搜索结果中靠前的少量内容,如果利用主要的关键词检索时网站在搜索结果中的排名靠后,那么还有必要利用关键词广告、竞价广告等形式作为补充手段来实现这一目标。同样,如果在分类目录中的位置不理想,则需要同时考虑在分类目录中利用付费等方式获得排名靠前。
  搜索引擎营销的第三个目标则直接表现为网站访问量指标方面,也就是通过搜索结果点击率的增加来达到提高网站访问量的目的。由于只有受到用户关注,经过用户选择后的信息才可能被点击,因此可称为关注层。从搜索引擎的实际情况来看,仅仅做到被搜索引擎收录并且在搜索结果中排名靠前是不够的,这样并不一定能增加用户的点击率,更不能保证将访问者转化为顾客。要通过搜索引擎营销实现访问量增加的目标,则需要从整体上进行网站优化设计,并充分利用关键词广告等有价值的搜索引擎营销专业服务。
  搜索引擎推广的第四个目标,即通过访问量的增加转化为企业最终实现收益的提高,可称为转化层。转化层是前面三个目标层次的进一步提升,是各种搜索引擎方法所实现效果的集中体现,但并不是搜索引擎营销的直接效果。从各种搜索引擎策略到产生收益,期间的中间效果表现为网站访问量的增加,网站的收益是由访问量转化所形成的,从访问量转化为收益则是由网站的功能、服务、产品等多种因素共同作用而决定的。因此,第四个目标在搜索引擎营销中属于战略层次的目标。其他三个层次的目标则属于策略范畴,具有可操作性和可控制性的特征,实现这些基本目标是搜索引擎营销的主要任务。
  搜索引擎推广追求最高的性价比,以最小的投入,获最大的来自搜索引擎的访问量,并产生商业价值。用户在检索信息所使用的关键字反映出用户对该问题(产品)的关注,这种关注是搜索引擎之所以被应用于网络营销的根本原因。
  网络整合营销四大特性
  传染特性、互动特性、重合特性、背书特性
  确立营销需求
  确立营销标的物(产品属性)
  确立营销标准(消费人群)
  确立目标场景
  云浪网络推广,一直以低成本、有效果为各大企业及广告营销策划公司提供网络推广服务多年,擅长利用百度营销软文首页推广、百度爱采购,百度竞价前三推广(1500一个月,三个月2800,包点击费),官网推广至百度搜索关键词首页有排名为目标。
  【百度快照、百度竞价,百度爱采购、360竞价、、信息流开户,抖音短视频,全网推广咨询:度晓晓】
  

​NLP产业应用实战,评论观点抽取与分析和文本语义检索深度详解

网站优化优采云 发表了文章 • 0 个评论 • 393 次浏览 • 2022-05-01 18:03 • 来自相关话题

  ​NLP产业应用实战,评论观点抽取与分析和文本语义检索深度详解
  情感分析旨在对带有情感色彩的主观性文本进行分析、处理、归纳和推理,其广泛应用于消费决策、舆情分析、个性化推荐等领域,具有很高的商业价值。一种细粒度情感分析方案:评论观点抽取与分析范例,此方案不仅能分析出商品具体属性的好坏,同时能帮助用户定位详细的评价观点。
  
  图1 情感分析应用展示
  场景难点
  评论属性观点繁多:评论中可能存在某个商品的多个属性,同时每个属性可能会存在多个观点词,需要同时抽取属性和观点词,同时将属性和相应观点词进行有效匹配。
  模型情感信息敏感度低:模型在训练过程中,可能对某些样本中的关键情感信息不敏感,导致抽取或预测准确度不高。
  数据少且标注困难:评论观点抽取相关训练数据较少,且相关数据集标注较为困难。
  模型预测效率要求高:业务数据累积较多,期望对数据进行高效高精度分析处理。
  方案设计
  针对上述难点,本项目提出的的情感分析解决方案如下图所示,整个情感分析的过程大致包含两个阶段,依次是评论观点抽取模型,属性级情感分类模型。
  
  图2 情感分析解决方案流程图
  本项目使用了百度自研的 SKEP 预训练模型,其在预训练阶段便设计了多种情感信息相关的预训练目标进行训练,作为一种情感模型,其更适合用于评论观点抽取任务,以及属性级情感分类任务。
  为了提升模型预测效果,本项目采用了PaddleNLP联合PaddleSlim发布的模型蒸馏、剪裁、量化等级联模型压缩方案。
  此外,本项目还定义了简便的数据标注规则,并打通了Doccano数据标注平台,本项目可以直接对Doccano的导出数据进行自动处理,转化为适合模型输入的形式,方便易用。
  模型优化策略和效果
  观点抽取效果
  
  属性级情感分类效果
  
  
  图3 预测性能实验结果
  考虑到不同用户可能有不同的需求,本范例提供了如下的方式学习或使用本项目。1.一行命令体验评论观点抽取与分析功能2.支持文本批量预测功能,以处理大量文本数据3.支持静态图高性能推理脚本,以便于线上部署使用
  文本语义检索系统方案
  检索系统已经是我们日常生活中获取信息的不可或缺的一部分,在我们的生活中,有很多地方都有检索系统的身影,除了百度等搜索引擎以外,还有在电商购物的搜索,知乎的站内搜索,微信的视频和公众号文章的搜索,以及万方、知网的科研文献搜索等等,这些场景都离不开搜索技术。
  本次开源的范例项目开源了一套低门槛、端到端的检索系统方案,可以在多场景快速部署实现搜索功能。无标注数据,仅有无监督数据也可以得到一个效果不错的文本语义检索模型。
  场景难点
  句级别语义鸿沟:基于关键词检索的方法优化起来较为繁琐,不能很好的对句子级别的语义信息进行建模,无法跨越句子级别的语义鸿沟。
  数据少标注成本高:在系统搭建初期或者数据体量比较小的场景,并没有很多标注好的句子对,且标注的成本很高。
  语义检索系统方案复杂:语义监测方案是一个系统性工程,需要了解完整的检索系统流程是什么,如何评估检索系统的好坏,如何调优等等。
  方案设计
  针对上述难点,本项目最终选用了PaddleNLP的Neural Search中的技术方案,并且使用飞桨服务化部署框架Paddle Serving 进行服务化部署。
  Neural Search是一个实用的完整的文本语义检索应用,主要由召回和排序两个模块组成。该应用从实际的痛点出发,然后涉及网络选择和调整、策略增强、超参数调节、预训练模型使用5个方面,对各个模块的模型进行优化,并经过千万级别的数据预训练,百万级别的数据进行无监督训练,最终在GPU上预测时间可达到毫秒级别。
  
  图4 项目方案说明
  模型优化策略和效果
  本方案的NLP核心能力基于百度文心大模型。首先利用文心 ERNIE 1.0 模型进行 Domain-adaptive Pretraining,在得到的预训练模型基础上,进行无监督的 SimCSE 训练,最后利用 In-batch Negatives 方法进行微调,得到最终的语义索引模型,把语料库中的文本放入模型中抽取特征向量,进行建库之后,就可以很方便得实现召回了。以Recall@50指标进行评估,召回模型效果可以达到87.7%。
  
  图5 召回方案说明
  排序模型使用了百度文心大模型中最新的文心ERNIE-Gram模型,相比于基线方法,有不小的提升:
  
  图6 排序方案说明
  部署方案
  部署方面使用配备Paddle Serving的C++和Pipeline方式的灵活部署,满足用户批量预测、数据安全性高、延迟低的需求,快速在本地完成部署方案,本次范例包含模型转换配置到部署请求的全流程讲解,欢迎小伙伴们关注直播。
  范例使用工具介绍
  PaddleNLP是百度飞桨自然语言处理模型库,具备易用的文本领域API、丰富的预训练模型、多场景的应用示例、以及依托飞桨框架底层算子优化的高性能推理能力,旨在提升开发者在文本领域的开发效率。PaddleNLP提供了语义检索、情感分析、FAQ问答等产业级系统方案,采用前沿技术方案,打通数据标注、模型预训练及微调、部署全流程,十分简单易用,极大地降低开发门槛。
  精彩课程预告
  为了让小伙伴们更便捷地实践和应用以上两个场景方案,百度高工将于4月20日 和 4月21日19:00为大家深度解析从数据准备、方案设计到模型优化部署的开发全流程,手把手教大家进行评论观点抽取及分析和文本语义检索落地应用的代码实践。欢迎小伙伴们扫码进群,免费获取直播课和回放视频链接,更有机会获得覆盖智慧城市、工业制造、金融、互联网等行业的飞桨产业实践范例手册!也欢迎感兴趣的企业和开发者与我们联系,交流技术探讨合作。
  扫码报名直播课,加入技术交流群
  
   查看全部

  ​NLP产业应用实战,评论观点抽取与分析和文本语义检索深度详解
  情感分析旨在对带有情感色彩的主观性文本进行分析、处理、归纳和推理,其广泛应用于消费决策、舆情分析、个性化推荐等领域,具有很高的商业价值。一种细粒度情感分析方案:评论观点抽取与分析范例,此方案不仅能分析出商品具体属性的好坏,同时能帮助用户定位详细的评价观点。
  
  图1 情感分析应用展示
  场景难点
  评论属性观点繁多:评论中可能存在某个商品的多个属性,同时每个属性可能会存在多个观点词,需要同时抽取属性和观点词,同时将属性和相应观点词进行有效匹配。
  模型情感信息敏感度低:模型在训练过程中,可能对某些样本中的关键情感信息不敏感,导致抽取或预测准确度不高。
  数据少且标注困难:评论观点抽取相关训练数据较少,且相关数据集标注较为困难。
  模型预测效率要求高:业务数据累积较多,期望对数据进行高效高精度分析处理。
  方案设计
  针对上述难点,本项目提出的的情感分析解决方案如下图所示,整个情感分析的过程大致包含两个阶段,依次是评论观点抽取模型,属性级情感分类模型。
  
  图2 情感分析解决方案流程图
  本项目使用了百度自研的 SKEP 预训练模型,其在预训练阶段便设计了多种情感信息相关的预训练目标进行训练,作为一种情感模型,其更适合用于评论观点抽取任务,以及属性级情感分类任务。
  为了提升模型预测效果,本项目采用了PaddleNLP联合PaddleSlim发布的模型蒸馏、剪裁、量化等级联模型压缩方案。
  此外,本项目还定义了简便的数据标注规则,并打通了Doccano数据标注平台,本项目可以直接对Doccano的导出数据进行自动处理,转化为适合模型输入的形式,方便易用。
  模型优化策略和效果
  观点抽取效果
  
  属性级情感分类效果
  
  
  图3 预测性能实验结果
  考虑到不同用户可能有不同的需求,本范例提供了如下的方式学习或使用本项目。1.一行命令体验评论观点抽取与分析功能2.支持文本批量预测功能,以处理大量文本数据3.支持静态图高性能推理脚本,以便于线上部署使用
  文本语义检索系统方案
  检索系统已经是我们日常生活中获取信息的不可或缺的一部分,在我们的生活中,有很多地方都有检索系统的身影,除了百度等搜索引擎以外,还有在电商购物的搜索,知乎的站内搜索,微信的视频和公众号文章的搜索,以及万方、知网的科研文献搜索等等,这些场景都离不开搜索技术。
  本次开源的范例项目开源了一套低门槛、端到端的检索系统方案,可以在多场景快速部署实现搜索功能。无标注数据,仅有无监督数据也可以得到一个效果不错的文本语义检索模型。
  场景难点
  句级别语义鸿沟:基于关键词检索的方法优化起来较为繁琐,不能很好的对句子级别的语义信息进行建模,无法跨越句子级别的语义鸿沟。
  数据少标注成本高:在系统搭建初期或者数据体量比较小的场景,并没有很多标注好的句子对,且标注的成本很高。
  语义检索系统方案复杂:语义监测方案是一个系统性工程,需要了解完整的检索系统流程是什么,如何评估检索系统的好坏,如何调优等等。
  方案设计
  针对上述难点,本项目最终选用了PaddleNLP的Neural Search中的技术方案,并且使用飞桨服务化部署框架Paddle Serving 进行服务化部署。
  Neural Search是一个实用的完整的文本语义检索应用,主要由召回和排序两个模块组成。该应用从实际的痛点出发,然后涉及网络选择和调整、策略增强、超参数调节、预训练模型使用5个方面,对各个模块的模型进行优化,并经过千万级别的数据预训练,百万级别的数据进行无监督训练,最终在GPU上预测时间可达到毫秒级别。
  
  图4 项目方案说明
  模型优化策略和效果
  本方案的NLP核心能力基于百度文心大模型。首先利用文心 ERNIE 1.0 模型进行 Domain-adaptive Pretraining,在得到的预训练模型基础上,进行无监督的 SimCSE 训练,最后利用 In-batch Negatives 方法进行微调,得到最终的语义索引模型,把语料库中的文本放入模型中抽取特征向量,进行建库之后,就可以很方便得实现召回了。以Recall@50指标进行评估,召回模型效果可以达到87.7%。
  
  图5 召回方案说明
  排序模型使用了百度文心大模型中最新的文心ERNIE-Gram模型,相比于基线方法,有不小的提升:
  
  图6 排序方案说明
  部署方案
  部署方面使用配备Paddle Serving的C++和Pipeline方式的灵活部署,满足用户批量预测、数据安全性高、延迟低的需求,快速在本地完成部署方案,本次范例包含模型转换配置到部署请求的全流程讲解,欢迎小伙伴们关注直播。
  范例使用工具介绍
  PaddleNLP是百度飞桨自然语言处理模型库,具备易用的文本领域API、丰富的预训练模型、多场景的应用示例、以及依托飞桨框架底层算子优化的高性能推理能力,旨在提升开发者在文本领域的开发效率。PaddleNLP提供了语义检索、情感分析、FAQ问答等产业级系统方案,采用前沿技术方案,打通数据标注、模型预训练及微调、部署全流程,十分简单易用,极大地降低开发门槛。
  精彩课程预告
  为了让小伙伴们更便捷地实践和应用以上两个场景方案,百度高工将于4月20日 和 4月21日19:00为大家深度解析从数据准备、方案设计到模型优化部署的开发全流程,手把手教大家进行评论观点抽取及分析和文本语义检索落地应用的代码实践。欢迎小伙伴们扫码进群,免费获取直播课和回放视频链接,更有机会获得覆盖智慧城市、工业制造、金融、互联网等行业的飞桨产业实践范例手册!也欢迎感兴趣的企业和开发者与我们联系,交流技术探讨合作。
  扫码报名直播课,加入技术交流群
  
  

Thoughtworks第26期技术雷达——工具象限

网站优化优采云 发表了文章 • 0 个评论 • 76 次浏览 • 2022-05-01 08:02 • 来自相关话题

  Thoughtworks第26期技术雷达——工具象限
  
  采纳
  tfsec
  对于那些我们正在使用Terraform的项目来说,在需要检测潜在安全风险时,tfsec已经迅速成为默认的静态分析工具。它很容易被集成到CI流水线,而且拥有一个持续增长的检查库,可以用来检查所有主要的云供应商和诸如Kunernetes的平台。鉴于它的易用性,我们相信对任何Terraform项目而言,tfsec都会是一个非常好的补充。
  试验
  AKHQ
  AKHQ 是 Apache Kafka 的图形用户界面(GUI),可以帮助你管理主题、主题数据、消费者组等。我们的一些团队发现 AKHQ 是用来监控 Kafka 集群实时状态的有效工具。比如,你可以浏览集群上的主题,对于每个主题,你都能可视化它的名称、存储的消息数量、使用的磁盘空间、最后一条记录的时间、分区数、同步数量的复制因子和消费者组。通过 Avro 和 Protobuf 的反序列化,AKHQ 可以帮助你了解 Kafka 环境中的数据流。
  cert-manager
  cert-manager 是一款在 Kubernetes 集群里管理 X.509 证书的工具。它将证书和签发者建模为一等资源类型,并将证书作为服务安全地提供给工作在 Kubernetes 集群上的开发人员和应用程序。在使用 Kubernetes 默认 ingress 控制器时,cert-manager 是个显而易见的选择,但也推荐用在其他的控制器上,尤其在你不应该手动管理自己的证书的时候。我们的几个团队一直在广泛使用 cert-manager,而且发现它的可用性在过去几个月里有了很大的提升。
  云服务的碳足迹
  Cloud Carbon Footprint (CCF)是一款通过云 API来查看AWS、GCP、Azure云平台上碳排放的可视化工具。Thoughtworks的团队已经成功使用这个工具 与多个组织合作,其中包括能源科技公司、零售商、数字服务的供应商和使用人工智能的公司。云平台提供商意识到,帮助客户理解在使用云服务时产生的碳排放的影响是很重要的。所以他们开始自主构建类似的功能。因为CCF是独立于云架构的,它允许使用者在一个位置查看多个不同云服务商的能源使用和碳排放情况,同时将碳足迹转化为对现实世界的影响,比如排放量相当于多少次航班, 或者多少棵树。在最近的发布中,CCF已经开始包含针对Google云和AWS云上可能的节能与减少二氧化碳排放的优化建议,以及支持更多类型的云实例,比如GPU。考虑到现在这个工具已经备受关注和持续增加新功能, 我们对未来把它挪入试验状态充满信心。
  Conftest
  Conftest 是一款针对结构化配置数据编写测试的工具。它依赖于开放策略代理中的 Rego 语言,能够为 Kubernetes 配置、Tekton 的流水线定义、甚至 Terraform 计划编写测试。在我们的实际使用中,Conftest 的体验一直都非常棒,这也得益于它平缓的学习曲线。借助测试的快速反馈,我们的团队可以又快又安全地迭代变更 Kubernetes 的配置。
  kube-score
  kube-score 是一款针对 Kubernetes 对象定义,进行代码静态检查的工具。它的输出是一份建议列表,里面包含了如何提升你的应用程序安全性及弹性的相关建议。它有一份包含了最佳实践的预定义检查,比如以非root权限运行容器,正确指定资源限制等。它已经存在了一段时间,我们在一些项目中将它作为 Kubernetes manifests 构建的 CD 流水线的一部分来使用。kube-score 的一个显著缺陷是你无法添加自定义策略。在这种情况下,我们使用像Conftest 这样的工具,以弥补它的缺陷。
  Lighthouse
  Lighthouse 是一个由 Google 编写的工具,可以评估 Web 应用和页面,以及从出色的开发实践中收集性能指标和洞见等信息。我们一直主张性能测试乃第一公民, 五年前技术雷达中提到的对 Lighthouse 的补充内容对此也有帮助。我们关于适应度函数的思考,也为在构建流水线中运行 Lighthouse 这样的工具创造了强烈的动机。随着 Lighthouse CI 的引入,将 Lighthouse 纳入由不同工具管理的流水线,会变得比以往任何时候都容易。
  Metaflow
  Metaflow 是一个对用户友好的 Python 库和后端服务,可以帮助数据科学家和工程师构建和管理可用于生产的数据处理、机器学习训练及推理的工作流。Metaflow 提供一系列 Python API,将代码组织为由步骤组成的有向图。每一个步骤都可以灵活配置,例如其所需的计算和存储资源。每个步骤执行(也就是任务)的代码和数据副本都被保存起来,并可以在今后的运行或流程的下一步中被检索出来,帮助你从错误中恢复,重新执行任务,还可以追踪模型的版本以及多个运行之间的依赖关系。
  Metaflow 的价值主张是其惯用的 Python 库的简洁性:它与构建和运行时的基础设施完全集成,以支持在本地和规模化的生产环境中运行数据工程和科学任务。在撰写本条目时,Metaflow 和 AWS 服务高度集成,例如使用 S3 来做数据存储,step functions 来做编排。除 Python 以外,Metaflow 还支持 R 语言。其核心功能都是开源的。
  如果你正在 AWS 上构建和部署生产环境的机器学习和数据处理流水线,作为一个轻量级的全栈框架,Metaflow 可以替代例如 MLflow 这类更复杂的平台。
  Micrometer
  Micrometer 是一个跨平台的库,用于JVM的指标检测,支持 Graphite、New Relic、CloudWatch 和许多其他集成。Micrometer 让库作者和团队都受益:库作者可以在他们的库中包含指标检测代码,而无需支持库用户正在使用的每个指标系统;团队可以在后端注册表上支持许多不同的指标,这使组织能够以一致的方式收集指标。
  NUKE
  NUKE 是一个面向 .NET 的构建系统,也是传统的 MSBuild、Cake 以及 Fake 等自动化构建系统的替代品,我们曾在之前的技术雷达中介绍过它们。NUKE 以 C# 领域特定语言(DSL)的形式表达构建指令,不但降低了学习成本,而且 IDE 支持性也很好。在我们的实际体验中,使用 NUKE 进行 .NET 项目的自动化构建十分便捷。我们喜欢 NUKE 提供的精准代码静态检查和提示功能,并且它支持无缝使用各种 NuGet 包,这样可以编译自动化代码,避免运行时发生错误。尽管 NUKE 已不是新技术,但它采用 C# DSL 的全新方法,以及使用 NUKE 时全方位的良好体验,促使我们一定要将它收录在技术雷达里。
  Pactflow
  在长时间使用 Pact 进行契约测试的过程中,我们目睹了规模化带来的复杂性。我们的一些团队已经使用 Pactflow 成功减少了这种复杂性引发的后果。Pactflow 既可以作为 SaaS 运行,也可以部署在本地,并提供与 SaaS 产品相同的功能,它在开源产品 Pact Broker 的基础上,提升了可用性、安全性以及审计体验。到目前为止,我们很满意 Pactflow 的使用体验,并且很高兴看到它在持续致力于降低管理大规模契约测试所带来的开销。
  Podman
  Podman 作为Docker 的替代方案,已经通过我们许多团队的验证。与 Docker 不同的是,Podman 使用一个无守护引擎来管理和运行容器,这是一种有趣的方案。此外,Podman 可以以普通用户身份运行而无需root权限,从而减少了攻击面。通过使用 Buildah 构建的开放容器倡议(OCI) 镜像或者 Docker 镜像, Podman 可以适用于大多数容器使用场景。除了与 macOS 的一些兼容性问题外,我们团队在 Linux 各发行版上使用 Podman 的总体感觉非常好。
  Sourcegraph
  在往期的技术雷达中,我们介绍了两个基于抽象语法树(AST)表征的代码搜索和替换工具,Comby 和Sourcegraph。它们尽管有一些相似之处,但也有一些不同的地方。Sourcegraph 是一个商业工具(也有最多支持10个用户的免费版本),特别适合在大型代码库中进行搜索、导航或交叉引用等操作,重视与开发者的交互体验。相比之下,Comby 是一个用于自动化重复性任务的轻量级开源命令行工具。由于 Sourcegraph 是一个托管服务,它能持续监测代码库,并在成功匹配时发出警报。现在我们对 Sourcegraph 有了更多的经验,决定将其挪到试验状态,以反映我们从中获得的良好体验——但这并不意味着 Sourcegraph 比 Comby 更好。每个工具都有各自专注的方向。
  Syft
  使用软件物料清单(SBOM) 是改善“供应链安全”的关键要素之一,因此在发布软件构件的同时,发布相应的 SBOM 正变得越来越重要。Syft是一个致力于为容器镜像和文件系统生成 SBOM 的 CLI 工具和 Go 语言库。它可以生成包括 JSON, CycloneDX 和 SPDX 在内的多种格式的 SBOM。Syft 输出的 SBOM 可以被 Grype 用于漏洞扫描。使用Cosign 将 SBOM 添加为证明文件,可以将生成的 SBOM 和镜像一起发布。这使得镜像的消费者可以对 SBOM 进行验证,并将其用于后续的分析。
  Volta
  当同时在多个 JavaScript 代码库上工作时,我们往往需要使用不同版本的 Node 和其他 JavaScript 工具。在开发机器上,这些工具通常安装在用户目录或本机中,这意味着需要一个解决方案,帮助开发者在多个版本之中进行切换。对于 Node 而言,nvm 能够做到这一点,但我们想重点强调一个替代方案 Volta ,我们的一些团队正在使用它。与使用 nvm 相比,Volta 有几个优点:它可以管理其他 JavaScript 工具,如 yarn;它还具备一个基于项目绑定工具链某个版本的理念,这意味着开发人员可以简单使用给定代码目录中的工具,而不必担心需要手动切换工具版本 —— Volta 是通过使用路径中的 shims 来选择被绑定的版本。Volta 采用 Rust 编写,速度极快,以独立二进制文件进行分发,没有任何依赖。
  Web Test Runner
  Web Test Runner 是 Modern Web 项目中的一个套件,该项目为现代 Web 开发提供了若干高质量的工具,支持像 ES 模块之类的 Web 标准。Web Test Runner 是一个针对 Web 应用的测试运行器。与其他现有测试运行器相比,它的一个优势是可以在浏览器中运行测试(也可以无图形界面运行)。它支持多种浏览器启动器——包括 Puppeteer , Playwright 和 Selenium ,并且使用 Mocha 作为默认测试框架。Web Test Runner 运行测试的速度非常快,我们很喜欢在调试的时候能打开一个带 devtools 的浏览器窗口。它在内部采用了 Web Dev Server ,这意味着我们可以利用其出色的插件 API,为测试套件添加自定义插件。Modern Web 项目的工具看起来是一套非常有前景的开发者工具链,我们已经在一些项目中使用它。
  评估
  CDKTF
  迄今为止,许多组织已经创造了广阔的云服务图景。当然,这只有在使用基础设施即代码和成熟的工具时才可能实现。我们仍然喜欢 Terraform,尤其是它丰富且日渐增长的生态系统。然而,Terraform 的默认配置语言 HCL 缺乏抽象性,导致了它的玻璃天花板。虽然使用 Terragrunt 缓解了这一点,但我们的团队越来越渴望像现代编程语言所能提供的那种抽象性。由AWS CDK 团队和 Hashicorp 合作开发的 Terraform云开发工具包(CDKTF),让团队有可能使用多种不同的编程语言,包括 TypeScript 和 Java,去定义并配置基础设施。通过这种方法,它在 Terraform 生态系统中紧跟Pulumi 的领先地位。我们已经对 CDKTF 有了很好的经验,但仍然决定将其暂留在评估状态,直到它脱离 beta 版本。
  Chrome Recorder panel
  Chrome Recorder panel 是 Google Chrome 97 的预览功能,允许简单地录制和回放用户旅程。虽然这绝对不是一个新想法,但它集成在 Chrome 浏览器中的方式能允许快速地创建、编辑和运行脚本。Chrome Recorder panel 也很好地集成了性能面板,这让获取重复、持续的页面性能反馈变得更加容易。虽然总是需要谨慎使用录制/回放风格的测试,以避免脆弱的测试,但我们认为这个预览功能值得评估,特别是如果你已经在使用 Chrome 性能面板来测量页面。
  Excalidraw
  Excalidraw 是我们团队喜欢使用的简单但功能强大的绘图工具。有时候团队只是需要一张草图而不是正式的图表,Excalidraw 为远程团队提供了一种可以快速创建和共享图表的方式。我们团队也喜欢它生成的低保真图表样式,这让人联想到团队在同地协作时绘制的白板图表。提醒一点:你需要注意它默认的安全性,在你进行绘制时,任何拥有链接的人都可以看见图表。付费版本则提供了进一步的身份验证功能。
  Github Codespace
  Github Codespace 允许开发者在云上创建开发环境,你可以通过 IDE 访问它,就像在本地环境一样。Github 不是第一家实现这个想法的公司,我们之前还提到过 Gitpod。我们喜欢 Codespace 允许通过使用 dotfiles 文件来标准化配置环境的功能,这能够帮助新团队成员更快上手;我们也十分中意 Codespace 能提供最高 32 核 64GB 内存虚拟机的特性,这些虚拟机可以在 10 秒钟内启动,有可能提供比开发笔记本电脑更强大的环境。
  GoReleaser
  GoReleaser 是一个通过多个库和通道来支持不同架构的 Go 项目自动化构建和发布的工具,这是面向不同平台 Go 项目的常见需求。你可以在本地机器或者 CI 上运行该工具,它支持在多种 CI 服务上运行,从而最大限度降低安装和维护成本。GoReleaser 能够用于每个发布版本的构建、打包、发布和声明,并且支持不同的包格式、包库和源代码控制的组合。虽然它已经出现好几年了,但我们惊讶并没有多少团队使用它。如果你经常发布 Go 代码库,这个工具值得一试。
  Grype
  保证软件供应链的安全性已经得到交付团队的普遍关注,这种关注也反映在越来越多的新工具涌现在该领域中。Grype 就是一个新的针对 Docker 和 OCI 镜像进行漏洞扫描的轻量级工具。它可以以二进制文件安装,能在镜像被推至仓库前对其进行扫描,而且不需要在你的构建服务器上运行 Docker 守护进程。Grype 与 Syft 出自同一个团队,后者用于为容器镜像生成不同格式的软件物料清单 。Grype 可以使用 Syft 输出的软件物料清单扫描安全漏洞。
  Infracost
  迁移到云端的一个常被提及的优势是将基础设施开销透明化。但根据我们的经验,情况却往往相反。团队并不总是从财务成本的角度来考虑他们围绕基础设施所做的决定,这就是为什么我们之前提到了将运行成本实现为架构适应度函数。我们对一个名为 Infracost 的新工具感到好奇,该工具可以在 Terraform pull request 中可视化成本权衡。它是一个开源软件, 在 macOS、Linux、Windows 和 Docker 均可访问,开箱即用支持 AWS 、 GCP 和微软 Azure 的定价。它还提供了一个公共 API ,可以查询到当前的成本数据。我们的团队对它的潜力感到兴奋,特别是它还将支持在IDE中提供更好的成本可见性。
  jc
  在之前的技术雷达中,我们将 现代 Unix 命令 放在了评估状态。在该工具集中, jq 命令实际上是一个支持 JSON 的 sed。而 jc 命令执行的是与之相关的任务:它获取常见 Unix 命令的输出,并将输出解析为 JSON。jq 和 jc 这两个命令一起为 Unix CLI 世界以及大量基于 JSON 工作的库和工具之间架起了一座桥梁。当编写一些像软件部署或者故障诊断信息收集的简单脚本时,将五花八门的 Unix 命令输出格式映射到定义明确的 JSON,可以为我们节省大量的时间和精力。与 jq 命令一样,你需要确保该命令可用。它可以通过许多著名的软件库进行安装。
  skopeo
  skopeo 是一款可以对容器镜像和镜像仓库执行各种操作的命令行工具。它的大部分操作都不要求用户以 root 角色执行,也不需要运行守护进程。它是 CI 流水线中的实用部分,在推广镜像时,我们可以用skopeo把镜像从一个注册表拷贝到另一个注册表。这样的操作比直接拉取和推送镜像更好,因为我们不需要在本地存储这些镜像。skopeo 不是一个新工具,但它足够有用且未被充分认识到,所以我们认为它值得一提。
  SQLFluff
  尽管代码静态检查已经是软件工程中的古老实践了,但它在数据领域中的应用仍十分缓慢。SQLFluff是一个python实现的跨SQL方言的linter,它提供了简单的命令行界面(CLI),可以很容易地整合进CI/CD流水线。如果默认配置就适合你,那么SQLFluff在安装后无需任何额外设定就可工作,它会强制执行一套鲜明风格的标准来格式化代码,当然,你也可以通过添加一个dotfile设定自己的代码规范。这个命令行工具还能自动修复诸如空格或者关键词大小写等违反代码规范设定的格式错误。SQLFluff虽然还很年轻,但是SQL代码静态检查圈内获得更多关注是一件让人兴奋的事。
  Terraform Validator
  一些已经采用了基础设施即代码和自服务基础设施平台的组织,正在寻找在执行良好安全实践和组织政策的同时,能给予团队最大限度自主权的方法。我们之前已经着重强调过 tfsec,并在这一期技术雷达中将它挪到了采纳中。对于使用谷歌云平台(GCP)的团队来说,可以使用 Terraform Validator 构建策略库,作为检查 Terraform 配置的约束条件。
  Typesense
  Typesense 是一个快速、容错的文本搜索引擎。在有大量数据的情形下,Elasticsearch 可能仍然是一个不错的选择,因为它提供了一个基于磁盘且可横向扩展的搜索解决方案。然而如果你正在构建一个对延迟敏感的搜索应用,并且搜索索引的尺寸可以容纳在内存中,那么 Typesense 会是一个强大的替代方案,你也可以考虑与 Meilisearch 等工具一起评估。 查看全部

  Thoughtworks第26期技术雷达——工具象限
  
  采纳
  tfsec
  对于那些我们正在使用Terraform的项目来说,在需要检测潜在安全风险时,tfsec已经迅速成为默认的静态分析工具。它很容易被集成到CI流水线,而且拥有一个持续增长的检查库,可以用来检查所有主要的云供应商和诸如Kunernetes的平台。鉴于它的易用性,我们相信对任何Terraform项目而言,tfsec都会是一个非常好的补充。
  试验
  AKHQ
  AKHQ 是 Apache Kafka 的图形用户界面(GUI),可以帮助你管理主题、主题数据、消费者组等。我们的一些团队发现 AKHQ 是用来监控 Kafka 集群实时状态的有效工具。比如,你可以浏览集群上的主题,对于每个主题,你都能可视化它的名称、存储的消息数量、使用的磁盘空间、最后一条记录的时间、分区数、同步数量的复制因子和消费者组。通过 Avro 和 Protobuf 的反序列化,AKHQ 可以帮助你了解 Kafka 环境中的数据流。
  cert-manager
  cert-manager 是一款在 Kubernetes 集群里管理 X.509 证书的工具。它将证书和签发者建模为一等资源类型,并将证书作为服务安全地提供给工作在 Kubernetes 集群上的开发人员和应用程序。在使用 Kubernetes 默认 ingress 控制器时,cert-manager 是个显而易见的选择,但也推荐用在其他的控制器上,尤其在你不应该手动管理自己的证书的时候。我们的几个团队一直在广泛使用 cert-manager,而且发现它的可用性在过去几个月里有了很大的提升。
  云服务的碳足迹
  Cloud Carbon Footprint (CCF)是一款通过云 API来查看AWS、GCP、Azure云平台上碳排放的可视化工具。Thoughtworks的团队已经成功使用这个工具 与多个组织合作,其中包括能源科技公司、零售商、数字服务的供应商和使用人工智能的公司。云平台提供商意识到,帮助客户理解在使用云服务时产生的碳排放的影响是很重要的。所以他们开始自主构建类似的功能。因为CCF是独立于云架构的,它允许使用者在一个位置查看多个不同云服务商的能源使用和碳排放情况,同时将碳足迹转化为对现实世界的影响,比如排放量相当于多少次航班, 或者多少棵树。在最近的发布中,CCF已经开始包含针对Google云和AWS云上可能的节能与减少二氧化碳排放的优化建议,以及支持更多类型的云实例,比如GPU。考虑到现在这个工具已经备受关注和持续增加新功能, 我们对未来把它挪入试验状态充满信心。
  Conftest
  Conftest 是一款针对结构化配置数据编写测试的工具。它依赖于开放策略代理中的 Rego 语言,能够为 Kubernetes 配置、Tekton 的流水线定义、甚至 Terraform 计划编写测试。在我们的实际使用中,Conftest 的体验一直都非常棒,这也得益于它平缓的学习曲线。借助测试的快速反馈,我们的团队可以又快又安全地迭代变更 Kubernetes 的配置。
  kube-score
  kube-score 是一款针对 Kubernetes 对象定义,进行代码静态检查的工具。它的输出是一份建议列表,里面包含了如何提升你的应用程序安全性及弹性的相关建议。它有一份包含了最佳实践的预定义检查,比如以非root权限运行容器,正确指定资源限制等。它已经存在了一段时间,我们在一些项目中将它作为 Kubernetes manifests 构建的 CD 流水线的一部分来使用。kube-score 的一个显著缺陷是你无法添加自定义策略。在这种情况下,我们使用像Conftest 这样的工具,以弥补它的缺陷。
  Lighthouse
  Lighthouse 是一个由 Google 编写的工具,可以评估 Web 应用和页面,以及从出色的开发实践中收集性能指标和洞见等信息。我们一直主张性能测试乃第一公民, 五年前技术雷达中提到的对 Lighthouse 的补充内容对此也有帮助。我们关于适应度函数的思考,也为在构建流水线中运行 Lighthouse 这样的工具创造了强烈的动机。随着 Lighthouse CI 的引入,将 Lighthouse 纳入由不同工具管理的流水线,会变得比以往任何时候都容易。
  Metaflow
  Metaflow 是一个对用户友好的 Python 库和后端服务,可以帮助数据科学家和工程师构建和管理可用于生产的数据处理、机器学习训练及推理的工作流。Metaflow 提供一系列 Python API,将代码组织为由步骤组成的有向图。每一个步骤都可以灵活配置,例如其所需的计算和存储资源。每个步骤执行(也就是任务)的代码和数据副本都被保存起来,并可以在今后的运行或流程的下一步中被检索出来,帮助你从错误中恢复,重新执行任务,还可以追踪模型的版本以及多个运行之间的依赖关系。
  Metaflow 的价值主张是其惯用的 Python 库的简洁性:它与构建和运行时的基础设施完全集成,以支持在本地和规模化的生产环境中运行数据工程和科学任务。在撰写本条目时,Metaflow 和 AWS 服务高度集成,例如使用 S3 来做数据存储,step functions 来做编排。除 Python 以外,Metaflow 还支持 R 语言。其核心功能都是开源的。
  如果你正在 AWS 上构建和部署生产环境的机器学习和数据处理流水线,作为一个轻量级的全栈框架,Metaflow 可以替代例如 MLflow 这类更复杂的平台。
  Micrometer
  Micrometer 是一个跨平台的库,用于JVM的指标检测,支持 Graphite、New Relic、CloudWatch 和许多其他集成。Micrometer 让库作者和团队都受益:库作者可以在他们的库中包含指标检测代码,而无需支持库用户正在使用的每个指标系统;团队可以在后端注册表上支持许多不同的指标,这使组织能够以一致的方式收集指标。
  NUKE
  NUKE 是一个面向 .NET 的构建系统,也是传统的 MSBuild、Cake 以及 Fake 等自动化构建系统的替代品,我们曾在之前的技术雷达中介绍过它们。NUKE 以 C# 领域特定语言(DSL)的形式表达构建指令,不但降低了学习成本,而且 IDE 支持性也很好。在我们的实际体验中,使用 NUKE 进行 .NET 项目的自动化构建十分便捷。我们喜欢 NUKE 提供的精准代码静态检查和提示功能,并且它支持无缝使用各种 NuGet 包,这样可以编译自动化代码,避免运行时发生错误。尽管 NUKE 已不是新技术,但它采用 C# DSL 的全新方法,以及使用 NUKE 时全方位的良好体验,促使我们一定要将它收录在技术雷达里。
  Pactflow
  在长时间使用 Pact 进行契约测试的过程中,我们目睹了规模化带来的复杂性。我们的一些团队已经使用 Pactflow 成功减少了这种复杂性引发的后果。Pactflow 既可以作为 SaaS 运行,也可以部署在本地,并提供与 SaaS 产品相同的功能,它在开源产品 Pact Broker 的基础上,提升了可用性、安全性以及审计体验。到目前为止,我们很满意 Pactflow 的使用体验,并且很高兴看到它在持续致力于降低管理大规模契约测试所带来的开销。
  Podman
  Podman 作为Docker 的替代方案,已经通过我们许多团队的验证。与 Docker 不同的是,Podman 使用一个无守护引擎来管理和运行容器,这是一种有趣的方案。此外,Podman 可以以普通用户身份运行而无需root权限,从而减少了攻击面。通过使用 Buildah 构建的开放容器倡议(OCI) 镜像或者 Docker 镜像, Podman 可以适用于大多数容器使用场景。除了与 macOS 的一些兼容性问题外,我们团队在 Linux 各发行版上使用 Podman 的总体感觉非常好。
  Sourcegraph
  在往期的技术雷达中,我们介绍了两个基于抽象语法树(AST)表征的代码搜索和替换工具,Comby 和Sourcegraph。它们尽管有一些相似之处,但也有一些不同的地方。Sourcegraph 是一个商业工具(也有最多支持10个用户的免费版本),特别适合在大型代码库中进行搜索、导航或交叉引用等操作,重视与开发者的交互体验。相比之下,Comby 是一个用于自动化重复性任务的轻量级开源命令行工具。由于 Sourcegraph 是一个托管服务,它能持续监测代码库,并在成功匹配时发出警报。现在我们对 Sourcegraph 有了更多的经验,决定将其挪到试验状态,以反映我们从中获得的良好体验——但这并不意味着 Sourcegraph 比 Comby 更好。每个工具都有各自专注的方向。
  Syft
  使用软件物料清单(SBOM) 是改善“供应链安全”的关键要素之一,因此在发布软件构件的同时,发布相应的 SBOM 正变得越来越重要。Syft是一个致力于为容器镜像和文件系统生成 SBOM 的 CLI 工具和 Go 语言库。它可以生成包括 JSON, CycloneDX 和 SPDX 在内的多种格式的 SBOM。Syft 输出的 SBOM 可以被 Grype 用于漏洞扫描。使用Cosign 将 SBOM 添加为证明文件,可以将生成的 SBOM 和镜像一起发布。这使得镜像的消费者可以对 SBOM 进行验证,并将其用于后续的分析。
  Volta
  当同时在多个 JavaScript 代码库上工作时,我们往往需要使用不同版本的 Node 和其他 JavaScript 工具。在开发机器上,这些工具通常安装在用户目录或本机中,这意味着需要一个解决方案,帮助开发者在多个版本之中进行切换。对于 Node 而言,nvm 能够做到这一点,但我们想重点强调一个替代方案 Volta ,我们的一些团队正在使用它。与使用 nvm 相比,Volta 有几个优点:它可以管理其他 JavaScript 工具,如 yarn;它还具备一个基于项目绑定工具链某个版本的理念,这意味着开发人员可以简单使用给定代码目录中的工具,而不必担心需要手动切换工具版本 —— Volta 是通过使用路径中的 shims 来选择被绑定的版本。Volta 采用 Rust 编写,速度极快,以独立二进制文件进行分发,没有任何依赖。
  Web Test Runner
  Web Test Runner 是 Modern Web 项目中的一个套件,该项目为现代 Web 开发提供了若干高质量的工具,支持像 ES 模块之类的 Web 标准。Web Test Runner 是一个针对 Web 应用的测试运行器。与其他现有测试运行器相比,它的一个优势是可以在浏览器中运行测试(也可以无图形界面运行)。它支持多种浏览器启动器——包括 Puppeteer , Playwright 和 Selenium ,并且使用 Mocha 作为默认测试框架。Web Test Runner 运行测试的速度非常快,我们很喜欢在调试的时候能打开一个带 devtools 的浏览器窗口。它在内部采用了 Web Dev Server ,这意味着我们可以利用其出色的插件 API,为测试套件添加自定义插件。Modern Web 项目的工具看起来是一套非常有前景的开发者工具链,我们已经在一些项目中使用它。
  评估
  CDKTF
  迄今为止,许多组织已经创造了广阔的云服务图景。当然,这只有在使用基础设施即代码和成熟的工具时才可能实现。我们仍然喜欢 Terraform,尤其是它丰富且日渐增长的生态系统。然而,Terraform 的默认配置语言 HCL 缺乏抽象性,导致了它的玻璃天花板。虽然使用 Terragrunt 缓解了这一点,但我们的团队越来越渴望像现代编程语言所能提供的那种抽象性。由AWS CDK 团队和 Hashicorp 合作开发的 Terraform云开发工具包(CDKTF),让团队有可能使用多种不同的编程语言,包括 TypeScript 和 Java,去定义并配置基础设施。通过这种方法,它在 Terraform 生态系统中紧跟Pulumi 的领先地位。我们已经对 CDKTF 有了很好的经验,但仍然决定将其暂留在评估状态,直到它脱离 beta 版本。
  Chrome Recorder panel
  Chrome Recorder panel 是 Google Chrome 97 的预览功能,允许简单地录制和回放用户旅程。虽然这绝对不是一个新想法,但它集成在 Chrome 浏览器中的方式能允许快速地创建、编辑和运行脚本。Chrome Recorder panel 也很好地集成了性能面板,这让获取重复、持续的页面性能反馈变得更加容易。虽然总是需要谨慎使用录制/回放风格的测试,以避免脆弱的测试,但我们认为这个预览功能值得评估,特别是如果你已经在使用 Chrome 性能面板来测量页面。
  Excalidraw
  Excalidraw 是我们团队喜欢使用的简单但功能强大的绘图工具。有时候团队只是需要一张草图而不是正式的图表,Excalidraw 为远程团队提供了一种可以快速创建和共享图表的方式。我们团队也喜欢它生成的低保真图表样式,这让人联想到团队在同地协作时绘制的白板图表。提醒一点:你需要注意它默认的安全性,在你进行绘制时,任何拥有链接的人都可以看见图表。付费版本则提供了进一步的身份验证功能。
  Github Codespace
  Github Codespace 允许开发者在云上创建开发环境,你可以通过 IDE 访问它,就像在本地环境一样。Github 不是第一家实现这个想法的公司,我们之前还提到过 Gitpod。我们喜欢 Codespace 允许通过使用 dotfiles 文件来标准化配置环境的功能,这能够帮助新团队成员更快上手;我们也十分中意 Codespace 能提供最高 32 核 64GB 内存虚拟机的特性,这些虚拟机可以在 10 秒钟内启动,有可能提供比开发笔记本电脑更强大的环境。
  GoReleaser
  GoReleaser 是一个通过多个库和通道来支持不同架构的 Go 项目自动化构建和发布的工具,这是面向不同平台 Go 项目的常见需求。你可以在本地机器或者 CI 上运行该工具,它支持在多种 CI 服务上运行,从而最大限度降低安装和维护成本。GoReleaser 能够用于每个发布版本的构建、打包、发布和声明,并且支持不同的包格式、包库和源代码控制的组合。虽然它已经出现好几年了,但我们惊讶并没有多少团队使用它。如果你经常发布 Go 代码库,这个工具值得一试。
  Grype
  保证软件供应链的安全性已经得到交付团队的普遍关注,这种关注也反映在越来越多的新工具涌现在该领域中。Grype 就是一个新的针对 Docker 和 OCI 镜像进行漏洞扫描的轻量级工具。它可以以二进制文件安装,能在镜像被推至仓库前对其进行扫描,而且不需要在你的构建服务器上运行 Docker 守护进程。Grype 与 Syft 出自同一个团队,后者用于为容器镜像生成不同格式的软件物料清单 。Grype 可以使用 Syft 输出的软件物料清单扫描安全漏洞。
  Infracost
  迁移到云端的一个常被提及的优势是将基础设施开销透明化。但根据我们的经验,情况却往往相反。团队并不总是从财务成本的角度来考虑他们围绕基础设施所做的决定,这就是为什么我们之前提到了将运行成本实现为架构适应度函数。我们对一个名为 Infracost 的新工具感到好奇,该工具可以在 Terraform pull request 中可视化成本权衡。它是一个开源软件, 在 macOS、Linux、Windows 和 Docker 均可访问,开箱即用支持 AWS 、 GCP 和微软 Azure 的定价。它还提供了一个公共 API ,可以查询到当前的成本数据。我们的团队对它的潜力感到兴奋,特别是它还将支持在IDE中提供更好的成本可见性。
  jc
  在之前的技术雷达中,我们将 现代 Unix 命令 放在了评估状态。在该工具集中, jq 命令实际上是一个支持 JSON 的 sed。而 jc 命令执行的是与之相关的任务:它获取常见 Unix 命令的输出,并将输出解析为 JSON。jq 和 jc 这两个命令一起为 Unix CLI 世界以及大量基于 JSON 工作的库和工具之间架起了一座桥梁。当编写一些像软件部署或者故障诊断信息收集的简单脚本时,将五花八门的 Unix 命令输出格式映射到定义明确的 JSON,可以为我们节省大量的时间和精力。与 jq 命令一样,你需要确保该命令可用。它可以通过许多著名的软件库进行安装。
  skopeo
  skopeo 是一款可以对容器镜像和镜像仓库执行各种操作的命令行工具。它的大部分操作都不要求用户以 root 角色执行,也不需要运行守护进程。它是 CI 流水线中的实用部分,在推广镜像时,我们可以用skopeo把镜像从一个注册表拷贝到另一个注册表。这样的操作比直接拉取和推送镜像更好,因为我们不需要在本地存储这些镜像。skopeo 不是一个新工具,但它足够有用且未被充分认识到,所以我们认为它值得一提。
  SQLFluff
  尽管代码静态检查已经是软件工程中的古老实践了,但它在数据领域中的应用仍十分缓慢。SQLFluff是一个python实现的跨SQL方言的linter,它提供了简单的命令行界面(CLI),可以很容易地整合进CI/CD流水线。如果默认配置就适合你,那么SQLFluff在安装后无需任何额外设定就可工作,它会强制执行一套鲜明风格的标准来格式化代码,当然,你也可以通过添加一个dotfile设定自己的代码规范。这个命令行工具还能自动修复诸如空格或者关键词大小写等违反代码规范设定的格式错误。SQLFluff虽然还很年轻,但是SQL代码静态检查圈内获得更多关注是一件让人兴奋的事。
  Terraform Validator
  一些已经采用了基础设施即代码和自服务基础设施平台的组织,正在寻找在执行良好安全实践和组织政策的同时,能给予团队最大限度自主权的方法。我们之前已经着重强调过 tfsec,并在这一期技术雷达中将它挪到了采纳中。对于使用谷歌云平台(GCP)的团队来说,可以使用 Terraform Validator 构建策略库,作为检查 Terraform 配置的约束条件。
  Typesense
  Typesense 是一个快速、容错的文本搜索引擎。在有大量数据的情形下,Elasticsearch 可能仍然是一个不错的选择,因为它提供了一个基于磁盘且可横向扩展的搜索解决方案。然而如果你正在构建一个对延迟敏感的搜索应用,并且搜索索引的尺寸可以容纳在内存中,那么 Typesense 会是一个强大的替代方案,你也可以考虑与 Meilisearch 等工具一起评估。

论文打卡第十七期(信息抽取,文本生成,多模态,知识蒸馏)

网站优化优采云 发表了文章 • 0 个评论 • 142 次浏览 • 2022-05-01 08:00 • 来自相关话题

  论文打卡第十七期(信息抽取,文本生成,多模态,知识蒸馏)
  关于我们
  我们
  是一个国内外多所高校AI方向学生共同组织的论文阅读打卡小组。我们定期组织论文阅读活动,期望大家能够在自己需要的情况下,阅读论文并分享自己的阅读笔记,既可以督促提升自己,也可以分享利于其他同学。我们期望我们这个活动能够成为一个帮助同学们督促自己也造福他人的平台。
  文中所有内容均为各位同学的个人阅读笔记。不保证笔记内容的准确性、全面性。内容仅供参考。
  
  本期目录
  领域
  1
  Are Transformers More Robust Than CNNs
  神经网络
  2
  Dynamic Modality Interaction Modeling for Image-Text Retrieval
  多模态检索
  3
  Multi-Modal Mixup for Robust Fine-tuning
  多模态
  表示学习
  4
  Hierarchical Modular Event Argument Extraction
  信息抽取
  5
  Generating Disentangled Arguments With Prompts: A Simple Event Extraction Framework That Works
  信息抽取
  6
  Named Entity Recognition with Small Strongly Labeled and Large Weakly Labeled Data
  命名实体识别
  7
  Towards Debiasing NLU Models from Unknown Biases
  NLU
  8
  How do Vision Transformers Work?
  预训练模型
  9
  Learn From the Past: Experience Ensemble Knowledge Distillation
  知识蒸馏
  10
  Rethinking and Refining the Distinct Metric
  文本生成
  11
  A Contrastive Framework for Neural Text Generation
  文本生成
  12
  Should You Mask 15% in Masked Language Modeling?
  预训练模型
  13
  Visually Grounded Reasoning across Languages and Cultures
  多模态
  14
  PILED: An Identify-and-Localize Framework for Few-Shot Event Detection
  信息抽取
  15
  TEXT2EVENT: Controllable Sequence-to-Structure Generation for End-to-end Event Extraction
  信息抽取
  01
  Are Transformers More Robust Than CNNs
  领域:神经网络
  会议:NeurIPS 2021
  链接:
  关键词:Transformer, CNN
  是否推荐:推荐
  打卡内容:
  1.问题:最近的工作认为Transformer比卷积神经网络(CNN)更强大。然而,令人惊讶的是,我们发现这些结论来自不公平的实验环境,其中Transformer和CNN在不同的尺度上进行比较,并应用不同的训练框架。
  2.分析:a)如果CNN正确地采用Transformer的训练方式,那么在防御对抗性攻击方面,它们可以很容易地像Transformer一样强大。b)Transformer的泛化能力得益于self-attention架构,而非在大规模数据集上进行预训练。
  评价:怀疑的态度和实验分析很有趣。
  02
  Dynamic Modality Interaction Modeling for Image-Text Retrieval
  领域:多模态检索
  会议:SIGIR 2021
  链接:
  是否推荐:推荐
  打卡内容:
  1.问题:现有的图像文本检索方法在交互模式的设计上严重依赖专家经验和经验反馈,因此缺乏灵活性。
  2.方法:我们开发了一种基于路由机制的新型模态交互建模网络,这是第一个面向图像文本检索的统一动态多模态交互框架。特别是,我们首先设计四种类型的单元作为基本单元,探索不同层次的模态交互,然后以密集策略将它们连接起来,构建一个路由空间。为了赋予该模型路径决策的能力,我们在每个单元中集成了一个动态路由器用于模式探索。由于路由器以输入为条件,我们的模型可以动态地学习不同数据的不同激活路径。
  评价:实验很丰富。case study很直观、有说服力。图画得很好看。
  03
  Multi-Modal Mixup for Robust Fine-tuning
  领域:多模态表示学习
  会议:ARXIV 2022
  链接:
  是否推荐:推荐
  打卡内容:
  本文探究了CLIP模型给出的文本和图片表示,发现这两个模态的表示分得很开,且中间有大片未被填充的空间。
  作者借鉴了ICML20的一篇文章,利用其中的alignment和uniformity指标进一步分析了CLIP的多模态特征空间,发现构成正例的两个样本在特征空间中不够近(alignment小),同时所有数据的特征分布不够均匀(uniformity小)。这样的特征分布是不够鲁棒的,会降低模型在下游任务上的表现。
  为此,作者提出了multi-modal mixup技术,通过混合两个模态的特征得到更困难的负例,再进行对比学习。具体的mixup技术包括m^2-mix(图片混文本作为图片的负例)、V-mix(文本混文本作为图片的负例)、VL-mix(文本混文本、图片混图片,然后互为负例)
  实验结果表明这种方法在保留多模态结构关系的同时,提高了模型的alignment和uniformity指标,进而提高了模型在下游retrieval任务上的表现
  04
  Hierarchical Modular Event Argument Extraction
  领域:信息抽取
  会议:EMNLP 2019
  链接:
  关键词:分层网络
  是否推荐:推荐
  打卡内容:
  本文是事件要素抽取的工作,主要是为概念层次(concept hierarchy)的每个基本单元设计了一个神经网络模块,然后使用逻辑操作,将相关的单元模块分层地组成一个面向角色的模块网络(modular network),对特定的argument role进行分类。
  为每个概念设置了一个NMN,并将其组成了一个面向角色的模块网络,以预测每个实体的元素角色:首先,对于每个上级概念,有一个上级概念模块(SCM)来突出和概念有关的上下文信息;然后,对于每个元素角色,使用针对特定角色的逻辑模块整合和其相对应的SCMs,以得到统一的高层次的模块;最终,使用元素角色分类器,预测实体是否扮演了给定的元素角色。主要的做法就是将实体的信息融合到候选的要素片段中,增强分类的效果。
  实验在ACE 2005, TAC KBP 2016这两个数据集上做了EAE的测试,没有全部达到SOTA,但是分层网络确实提升了模型的效果。
  05
  Generating Disentangled Arguments With Prompts: A Simple Event Extraction Framework That Works
  领域:信息抽取
  会议:ICASSP 2022
  链接:
  是否推荐:推荐
  打卡内容:
  应该是最早在提示学习上做事件抽取的论文了。作者分析了事件抽取的三种主流方式:序列标注、MRC和生成,又对生成范式的两瓶。编码部分作者加入了提示(无需手工设计),解码部分沿用了TEXT2EVENT的方法。
  其中一个创新点是减少了触发词对参数抽取的影响,作者认为有些触发词对参数抽取没有帮助,只需要事件类型就可以找到模板并且进行参数抽取,还可以提高效率。但是我认为有两点问题。首先,作者依然需要pipeline式地进行简化的事件检测,还是执行2个模型,时间效率没有提升,甚至3个模型提高了计算量。其次,目前大家似乎都是使用Ground Truth的触发词和事件类型做参数抽取,所以理论上的性能没有提升。(但是实际生产中,没有GT的事件检测标注,这种方式可能些许减少误差传播)。
  另一个创新点就是引入了提示学习,其实文章的模板过于简单,取得这样的效果已经很不容易了。如果进行模板的设计,可能可以取得更好的结果。
  06
  Named Entity Recognition with Small Strongly Labeled and Large Weakly Labeled Data
  领域:命名实体识别
  会议:ACL 2021
  链接:
  是否推荐:推荐
  打卡内容:
  现有的工作只是进行弱监督学习,而在实际场景中,同时存在强标注数据和弱标注数据(半监督)。由于弱监督数据中存在噪声,传统的方法不能有效地提高性能。所以作者使用了一个三阶段的计算框架NEEDLE。弱标签可以分为三类:不准确(有噪声)、不精确(粗粒度)和不完全(有点没有标注)作者考虑了一三两种情况。
  在第一阶段,通过对大量目标域无标记数据进行域内连续预训练,将开放域预训练语言模型适应于目标域。在第二阶段,利用知识库将域内无标记数据转换为弱标记数据。然后,结合弱标签补全过程(不完全)和噪声感知丢失函数(不准确),对弱标签数据和强标签数据进行连续的预训练,有效地处理弱标签的“不完全性”和“噪声标记”。在第三阶段,对强标记数据再次微调模型。最后的微调阶段是模型拟合强标记数据的关键。
  实验表明可以通过迭代的方式进一步提高性能,而自训练的方式提升有限。
  07
  Towards Debiasing NLU Models from Unknown Biases
  领域:NLU
  会议:EMNLP 2020
  链接:
  是否推荐:推荐
  打卡内容:
  Debias NLU 中模型对 superficial correlation 的依赖,作者指出之前的方案依赖于对于 bias type 的 prior,例如 MNLI hypothesis 和 premise 的 overlapping,而很多数据集缺乏类似的分析因而无法获得 prior。作者经过实验观测到,对于 biased data,模型会学的很快,达到 100%的准确率,因而尝试利用一个辅助模型来作为样本是否是 bias 样本的 indicator,进而可以对 unknown biases 进行建模并且和之前的方案进行整合,主要包括:re-weighting, ensemble 以及 confidence regularization;此外,为了避免因为学到很多 bias 造成 effective training data size 的下降作者提了一个退火的机制,来慢慢消除 bias indicator 的作用,最后退化成普通的 MLE loss。作者在主流的 MNLI/HANS,FEVER 和 QQP/PAWS 上进行了测试,效果和之前的方案相比(因为他们已知 bias type)有好有坏,但都比不 debias 好,也验证了退火策略的有效性。进一步地分析指出,作者的方案在跨数据集的场景下表现的会更好,并且 debias 后模型在样本上的 loss 的gap 会变小(单个样本很大可能是有一些样本模型利用 bias 信息很轻松的就做对了,然而难的样本没学会)。
  08
  How do Vision Transformers Work?
  领域:预训练模型
  会议:ICLR 2022 Spotlight
  链接:
  是否推荐:推荐
  打卡内容:
  文章对比了 ViT 和 ResNet 以获得 ViT work 的一些 Insights:
  - ViT 能够 flatten loss landscape,从获得更好的泛化性能和 robustness,然而其也存在在更多负的 Hessian Eigen values,loss 是 non-convex 的,造成在小数据集上优化的困难;
  - ViT 对高频信号的强度会进行压缩而 CNN 会放大,二者分别类似一个低通滤波器和高通滤波器,进而导致在高频noise方面 ViT 表现的更好;
  - 作者认为多阶段网络是小模型的级联,因此考虑 CNN 和 MSA 级联构成 block,以对 stage output 进行 spatial smoothing,基于一个简单的building-up rule(不断替换 CNN 和 MSA,检查有没有更好的性能),实验发现这个提出的网络结构的效果更好并且更加鲁邦。
  09
  Learn From the Past: Experience Ensemble Knowledge Distillation
  领域:知识蒸馏
  会议:ARXIV
  链接:
  是否推荐:推荐
  打卡内容:
  这篇文章考虑利用 Teacher 训练过程中的 snapshot(so called learning experience),来提升 KD 的效果。具体的做法就是存下 teacher 训练过程中的 checkpoint,然后 ensemble 这些 checkpoint 的输出来指导 student model。作者探索了不同的方案,发现:
  - 并不是效果越好的 teacher ensemble 能够得到更好的 student,这个观察之前在 CV 里面已经有不少了,这是另外一个佐证(在 NLP 里面,我们 EMNLP 21 的工作 Dynamic KD 也在 BERT 上观测到了这一现象)
  - Distillation 过程中对 teacher 不同的权重,作者对比了一些 heuristic 的 linear strategy 和设计了一个根据 instance feature 的 attention 机制,结论是 dynamic attention 的效果会更好,尽管对应 ensemble 出来的 teacher 效果并不一定是最好的
  - snapshot 的数量,基本上是存的 checkpoint 越多效果越好,但因为同时需要 forward 多个 teacher model 会造成比较大的训练开销(这个问题挺好解决的,静态 dataset 的话,把 teacher logits 存下来就完事了)
  最后作者在 CIFAR 100 和 ImageNet 对比了目前的 sota,发现提出的方案能够取得更好的效果,但分析部分还是比较欠缺,对于 experience 的这个概念的探究还是不够深入。
  10
  Rethinking and Refining the Distinct Metric
  领域:文本生成
  会议:ACL 2022 Short
  链接:
  是否推荐:推荐
  打卡内容:
  Distinct metric 是文本生成中常用的一个指标,来衡量生成文本的 diversity,作者指出这个指标存在一个问题:当文本长度变长的时候,这个指标会急剧下降。作者分析的方法是控制 vocab 的 distribution(概率分布),然后增长句子的长度,发现 distinct 的下降,而这个和 distinct 本身想要 measure 的 word distribution 的 diversity 是矛盾的(因为 distribution 固定,那么应该和长度无关)。在一个方面,这会造成模型比较的不公平,因为可以很轻松地通过控制 length penalty 来控制 diversity。作者通过对分母进行修改,改为期望出现的总 token 的上界(因为无法估计不出现的 token),得到了一个更好的 distinct 指标。实验评估发现,这个指标有更好的长度不变性,并且在真实数据集上更能够体验不同方法的 gap 和 consistency,也和 human evaluation 有比较好的 correlation。
  11
  A Contrastive Framework for Neural Text Generation
  领域:文本生成
  会议:ARXIV
  链接:
  是否推荐:推荐
  打卡内容:
  旨在解决 generation 中生成重复 token 的问题,之前的 Top-k 和 Top-p 生成能够一定程度的缓解这个问题,但是会带来 inconsistency 的问题。作者认为重复的原因来自于 token uniformity,并且对 GPT 最后的 token representations 做了可视化,发现 token 之间的 cosine similarity 高于 0.95 ,进而会导致在不同时间步上产生重复的 token,而理想状态中 token 的表示应该有较大的区分度。作者因此提出了 SimCTG,利用对比学习来增强不同 token representation 之间的 cosine 距离,同时在解码阶段,也对 representation 上增加一个惩罚项,即和之前所有 token representation similarity 的最大值。作者在 wiki103 上和 MLE, Unlikelihood 做了对比,能够在发现在 coherence 更高的情况下,取得更好的抗重复,增强生成文本多样性的效果,在 Dialog Generation 上的人工测评也体现出比较明显的提升。
  12
  Should You Mask 15% in Masked Language Modeling
  领域:预训练模型
  会议:ARXIV 2022
  链接:
  是否推荐:推荐
  打卡内容:
  探究 Mask Language Modeling 中 Mask 比例的影响。作者首先是在预训练中发现 mask 掉 40% 的 token 能够带来更好的下游任务性能,并且 mask 掉 80% 也能保持大部分的性能。作者进一步地把 mask ratio 对性能的影响解耦成两部分:
  - corruption rate: 对上下文破坏的比例,这个比率越高,上下文破碎程度越高会使得预测任务会更加的困难;
  - prediction rate: 预测 mask token 的比例,这个比率越高,则模型接收到的训练信号越多;
  传统的 MLM 里面,这两个比率是都和 mask ratio 相等的,作者设计了 ablation study 来分别探究这二者的效果:
  - corruption rate > prediction rate: 例如,mask 掉 40% token,但是只预测其中 50% 的 mask token,即 prediction rate = 20%;
  - corruption rate
  实验以 mask rate = 40 % 为 baseline 为 baseline,发现 corruption rate 越高整体会降低效果,而 prediction rate 越低也会带来更差的效果,二者是一个 trade-off,更难的任务和更多的信号。作者也对不同 size 的model 进行了探究,发现大模型下游任务最好的性能出现在 mask rate 更大的位置,猜测是其能力更强,所以能够处理更难的任务并且利用好更多的信号。
  另外一个常用的 trick 是 80-10-10 ,即 mask token 有 80 % 的 token是 [MASK],10% 的概率是原来的 token,10 % 的概率是 random token,最初这个trick是用来缓解 [MASK] 引入的 inconsistency 的,但是作者的实验其实关注到 40% 的mask rate 并没有带来性能下降,说明这个 inconsistency 还是存疑的,作者探究了增加 same token prediction,random token 的比率,发现还是带来下降,因此作者提倡还是用 [MASK] 最原始的版本就可以了。
  最后作者探究了 mask 的策略,发现在高 mask 比率下,相比于 PMI 和 Span,uniform 的 mask 策略就能取得比较好的效果,作者的解释就是高 mask 比率实际上大概率会 mask 出类似 PMI、Span 的 mask,从而也能够使得模型的学习更加鲁棒。
  13
  Visually Grounded Reasoning across Languages and Cultures
  领域:多模态
  会议:EMNLP 2021
  链接:
  是否推荐:推荐
  打卡内容:
  ImageNet构建的方式是通过英语的WordNet去选择层次化的概念,然后根据概念再选择图像。后面的一些数据集,比如NLVR2,MSCOCO,VisualGenome都是通过这种层次结构构建的。有证据表明ImageNet数据的来源与内容都存在着bias,也有人曾为了纠正这种倾向提出干预数据,过滤、重新平衡一些类别,但若是原分布本就未能涵盖多语言多文化,这种方法便不足以解决这个问题。作者认为ImageNet中的主要问题是概念不普遍、概念过于特定于英语。Bias的来源有以下三个方面:1. 概念的选择;2.候选图像检索(检索到的图像不符合真实世界分布);3.图像过滤(完全取决于标注者,他们都是来自于欧美)。
  针对这三个问题,作者设计了一个新的数据集,让概念和图像的选择完全由母语人士驱动。构建数据集的第一步是:1.选择语言,数据集主要包含5种语言:印尼语、简体中文、斯瓦希里语、泰米尔语和土耳其语。这5种语言的类型(typologically)、语系(genealogically)、地理(geographically)上皆不同。同时,泰米尔语和土耳其语是低资源语言。2.选择普适性概念,有两个层次,第一个是chapter,比如Animal,对应的semantic field是bird和mammal。3.选择特定语言概念:针对每个semantic field,作者雇佣5个母语人士提供5-10特定概念的维基百科页面,比如针对中文的semantic field music instrument,提供的维基百科页面是关于古筝的。概念需要满足两个关键需求:在使用这种语言的人群中常见或有代表性的,最好是以物质形式存在且具体的。4.图像选择,标注者可以从本地网站,搜索引擎和维基百科等作为源针对每个概念拿到12张图片。5.描述标注,从图像集中随机选8张图像,随机组成4个图像对。每位标注者被要求写一个描述,此描述对于两个图像对为True,两个图像对为False。在最后的数据集中,一个数据点包含两张图像,一个描述,和一个True/False标签。
  关于图像分布的分析,作者使用在ImageNet上训练的ResNet50 分别对MaRVL图像以及从NLVR2采样的1K张随机图像进行特征提取,提取后使用UMAP将它们的嵌入分布可视化。结果发现,MaRVL的中文图像与来自NLVR2的英文图像有着极为不同的分布。同时,也对MaRVL中的印尼语和斯瓦希里语的图像分布进行了比较,结果表明在不同语言间也有着不同的分布。
  然后就是基于多种预训练模型(VL-BERT,UNITER等等)在MaRVL上的实验了,本文提出了两个跨语言的VL预训练模型的变种,mUNITER(通过mBERT进行初始化的UNITER)和xUNITER(XLM-R)。通过和NLVR2进行对比,模型在Zero-shot实验中效果下降明显,对于资源丰富的中文一样如此。同时加入一种设置,就是将不同语言翻译为英语,相比之下,模型有着不同程度的提升,但比起NLVR2依旧有着10%的差距。作者认为这种明显的下降是由于MaRVL有两个挑战:一个是cross-lingual transfer,另一个是out-of-distribution。作者又设计了一组控制实验,他们将MaRVL-ZH人工翻译成了英语,去除了机器翻译所带来的任何可能的混杂因子。和机器翻译相比,大部分模型都有1-2%的提升,因此翻译是很可靠的。那么,导致模型下降10%的便是那些OOD概念了。第二个实验是:从NLVR2测试集取样250个唯一的描述,将它们人工翻译成简体中文,记为NLVR2-ZH。mUNITER和xUNITER的准确率都下降了约16%,因此,这种gap可以归因于从英语到中文的跨语言迁移。第三组实验是,将NLVR2的训练集机器翻译为中文,并在MaRVL-ZH上测试,发现mUNITER和xUNITER的结果和Translate test实验时很接近,再一次说明 缺乏文化相关概念阻碍了泛化。
  14
  PILED: An Identify-and-Localize Framework for Few-Shot Event Detection
  领域:信息抽取
  会议:ARXIV
  链接:
  是否推荐:推荐 查看全部

  论文打卡第十七期(信息抽取,文本生成,多模态,知识蒸馏)
  关于我们
  我们
  是一个国内外多所高校AI方向学生共同组织的论文阅读打卡小组。我们定期组织论文阅读活动,期望大家能够在自己需要的情况下,阅读论文并分享自己的阅读笔记,既可以督促提升自己,也可以分享利于其他同学。我们期望我们这个活动能够成为一个帮助同学们督促自己也造福他人的平台。
  文中所有内容均为各位同学的个人阅读笔记。不保证笔记内容的准确性、全面性。内容仅供参考。
  
  本期目录
  领域
  1
  Are Transformers More Robust Than CNNs
  神经网络
  2
  Dynamic Modality Interaction Modeling for Image-Text Retrieval
  多模态检索
  3
  Multi-Modal Mixup for Robust Fine-tuning
  多模态
  表示学习
  4
  Hierarchical Modular Event Argument Extraction
  信息抽取
  5
  Generating Disentangled Arguments With Prompts: A Simple Event Extraction Framework That Works
  信息抽取
  6
  Named Entity Recognition with Small Strongly Labeled and Large Weakly Labeled Data
  命名实体识别
  7
  Towards Debiasing NLU Models from Unknown Biases
  NLU
  8
  How do Vision Transformers Work?
  预训练模型
  9
  Learn From the Past: Experience Ensemble Knowledge Distillation
  知识蒸馏
  10
  Rethinking and Refining the Distinct Metric
  文本生成
  11
  A Contrastive Framework for Neural Text Generation
  文本生成
  12
  Should You Mask 15% in Masked Language Modeling?
  预训练模型
  13
  Visually Grounded Reasoning across Languages and Cultures
  多模态
  14
  PILED: An Identify-and-Localize Framework for Few-Shot Event Detection
  信息抽取
  15
  TEXT2EVENT: Controllable Sequence-to-Structure Generation for End-to-end Event Extraction
  信息抽取
  01
  Are Transformers More Robust Than CNNs
  领域:神经网络
  会议:NeurIPS 2021
  链接:
  关键词:Transformer, CNN
  是否推荐:推荐
  打卡内容:
  1.问题:最近的工作认为Transformer比卷积神经网络(CNN)更强大。然而,令人惊讶的是,我们发现这些结论来自不公平的实验环境,其中Transformer和CNN在不同的尺度上进行比较,并应用不同的训练框架。
  2.分析:a)如果CNN正确地采用Transformer的训练方式,那么在防御对抗性攻击方面,它们可以很容易地像Transformer一样强大。b)Transformer的泛化能力得益于self-attention架构,而非在大规模数据集上进行预训练。
  评价:怀疑的态度和实验分析很有趣。
  02
  Dynamic Modality Interaction Modeling for Image-Text Retrieval
  领域:多模态检索
  会议:SIGIR 2021
  链接:
  是否推荐:推荐
  打卡内容:
  1.问题:现有的图像文本检索方法在交互模式的设计上严重依赖专家经验和经验反馈,因此缺乏灵活性。
  2.方法:我们开发了一种基于路由机制的新型模态交互建模网络,这是第一个面向图像文本检索的统一动态多模态交互框架。特别是,我们首先设计四种类型的单元作为基本单元,探索不同层次的模态交互,然后以密集策略将它们连接起来,构建一个路由空间。为了赋予该模型路径决策的能力,我们在每个单元中集成了一个动态路由器用于模式探索。由于路由器以输入为条件,我们的模型可以动态地学习不同数据的不同激活路径。
  评价:实验很丰富。case study很直观、有说服力。图画得很好看。
  03
  Multi-Modal Mixup for Robust Fine-tuning
  领域:多模态表示学习
  会议:ARXIV 2022
  链接:
  是否推荐:推荐
  打卡内容:
  本文探究了CLIP模型给出的文本和图片表示,发现这两个模态的表示分得很开,且中间有大片未被填充的空间。
  作者借鉴了ICML20的一篇文章,利用其中的alignment和uniformity指标进一步分析了CLIP的多模态特征空间,发现构成正例的两个样本在特征空间中不够近(alignment小),同时所有数据的特征分布不够均匀(uniformity小)。这样的特征分布是不够鲁棒的,会降低模型在下游任务上的表现。
  为此,作者提出了multi-modal mixup技术,通过混合两个模态的特征得到更困难的负例,再进行对比学习。具体的mixup技术包括m^2-mix(图片混文本作为图片的负例)、V-mix(文本混文本作为图片的负例)、VL-mix(文本混文本、图片混图片,然后互为负例)
  实验结果表明这种方法在保留多模态结构关系的同时,提高了模型的alignment和uniformity指标,进而提高了模型在下游retrieval任务上的表现
  04
  Hierarchical Modular Event Argument Extraction
  领域:信息抽取
  会议:EMNLP 2019
  链接:
  关键词:分层网络
  是否推荐:推荐
  打卡内容:
  本文是事件要素抽取的工作,主要是为概念层次(concept hierarchy)的每个基本单元设计了一个神经网络模块,然后使用逻辑操作,将相关的单元模块分层地组成一个面向角色的模块网络(modular network),对特定的argument role进行分类。
  为每个概念设置了一个NMN,并将其组成了一个面向角色的模块网络,以预测每个实体的元素角色:首先,对于每个上级概念,有一个上级概念模块(SCM)来突出和概念有关的上下文信息;然后,对于每个元素角色,使用针对特定角色的逻辑模块整合和其相对应的SCMs,以得到统一的高层次的模块;最终,使用元素角色分类器,预测实体是否扮演了给定的元素角色。主要的做法就是将实体的信息融合到候选的要素片段中,增强分类的效果。
  实验在ACE 2005, TAC KBP 2016这两个数据集上做了EAE的测试,没有全部达到SOTA,但是分层网络确实提升了模型的效果。
  05
  Generating Disentangled Arguments With Prompts: A Simple Event Extraction Framework That Works
  领域:信息抽取
  会议:ICASSP 2022
  链接:
  是否推荐:推荐
  打卡内容:
  应该是最早在提示学习上做事件抽取的论文了。作者分析了事件抽取的三种主流方式:序列标注、MRC和生成,又对生成范式的两瓶。编码部分作者加入了提示(无需手工设计),解码部分沿用了TEXT2EVENT的方法。
  其中一个创新点是减少了触发词对参数抽取的影响,作者认为有些触发词对参数抽取没有帮助,只需要事件类型就可以找到模板并且进行参数抽取,还可以提高效率。但是我认为有两点问题。首先,作者依然需要pipeline式地进行简化的事件检测,还是执行2个模型,时间效率没有提升,甚至3个模型提高了计算量。其次,目前大家似乎都是使用Ground Truth的触发词和事件类型做参数抽取,所以理论上的性能没有提升。(但是实际生产中,没有GT的事件检测标注,这种方式可能些许减少误差传播)。
  另一个创新点就是引入了提示学习,其实文章的模板过于简单,取得这样的效果已经很不容易了。如果进行模板的设计,可能可以取得更好的结果。
  06
  Named Entity Recognition with Small Strongly Labeled and Large Weakly Labeled Data
  领域:命名实体识别
  会议:ACL 2021
  链接:
  是否推荐:推荐
  打卡内容:
  现有的工作只是进行弱监督学习,而在实际场景中,同时存在强标注数据和弱标注数据(半监督)。由于弱监督数据中存在噪声,传统的方法不能有效地提高性能。所以作者使用了一个三阶段的计算框架NEEDLE。弱标签可以分为三类:不准确(有噪声)、不精确(粗粒度)和不完全(有点没有标注)作者考虑了一三两种情况。
  在第一阶段,通过对大量目标域无标记数据进行域内连续预训练,将开放域预训练语言模型适应于目标域。在第二阶段,利用知识库将域内无标记数据转换为弱标记数据。然后,结合弱标签补全过程(不完全)和噪声感知丢失函数(不准确),对弱标签数据和强标签数据进行连续的预训练,有效地处理弱标签的“不完全性”和“噪声标记”。在第三阶段,对强标记数据再次微调模型。最后的微调阶段是模型拟合强标记数据的关键。
  实验表明可以通过迭代的方式进一步提高性能,而自训练的方式提升有限。
  07
  Towards Debiasing NLU Models from Unknown Biases
  领域:NLU
  会议:EMNLP 2020
  链接:
  是否推荐:推荐
  打卡内容:
  Debias NLU 中模型对 superficial correlation 的依赖,作者指出之前的方案依赖于对于 bias type 的 prior,例如 MNLI hypothesis 和 premise 的 overlapping,而很多数据集缺乏类似的分析因而无法获得 prior。作者经过实验观测到,对于 biased data,模型会学的很快,达到 100%的准确率,因而尝试利用一个辅助模型来作为样本是否是 bias 样本的 indicator,进而可以对 unknown biases 进行建模并且和之前的方案进行整合,主要包括:re-weighting, ensemble 以及 confidence regularization;此外,为了避免因为学到很多 bias 造成 effective training data size 的下降作者提了一个退火的机制,来慢慢消除 bias indicator 的作用,最后退化成普通的 MLE loss。作者在主流的 MNLI/HANS,FEVER 和 QQP/PAWS 上进行了测试,效果和之前的方案相比(因为他们已知 bias type)有好有坏,但都比不 debias 好,也验证了退火策略的有效性。进一步地分析指出,作者的方案在跨数据集的场景下表现的会更好,并且 debias 后模型在样本上的 loss 的gap 会变小(单个样本很大可能是有一些样本模型利用 bias 信息很轻松的就做对了,然而难的样本没学会)。
  08
  How do Vision Transformers Work?
  领域:预训练模型
  会议:ICLR 2022 Spotlight
  链接:
  是否推荐:推荐
  打卡内容:
  文章对比了 ViT 和 ResNet 以获得 ViT work 的一些 Insights:
  - ViT 能够 flatten loss landscape,从获得更好的泛化性能和 robustness,然而其也存在在更多负的 Hessian Eigen values,loss 是 non-convex 的,造成在小数据集上优化的困难;
  - ViT 对高频信号的强度会进行压缩而 CNN 会放大,二者分别类似一个低通滤波器和高通滤波器,进而导致在高频noise方面 ViT 表现的更好;
  - 作者认为多阶段网络是小模型的级联,因此考虑 CNN 和 MSA 级联构成 block,以对 stage output 进行 spatial smoothing,基于一个简单的building-up rule(不断替换 CNN 和 MSA,检查有没有更好的性能),实验发现这个提出的网络结构的效果更好并且更加鲁邦。
  09
  Learn From the Past: Experience Ensemble Knowledge Distillation
  领域:知识蒸馏
  会议:ARXIV
  链接:
  是否推荐:推荐
  打卡内容:
  这篇文章考虑利用 Teacher 训练过程中的 snapshot(so called learning experience),来提升 KD 的效果。具体的做法就是存下 teacher 训练过程中的 checkpoint,然后 ensemble 这些 checkpoint 的输出来指导 student model。作者探索了不同的方案,发现:
  - 并不是效果越好的 teacher ensemble 能够得到更好的 student,这个观察之前在 CV 里面已经有不少了,这是另外一个佐证(在 NLP 里面,我们 EMNLP 21 的工作 Dynamic KD 也在 BERT 上观测到了这一现象)
  - Distillation 过程中对 teacher 不同的权重,作者对比了一些 heuristic 的 linear strategy 和设计了一个根据 instance feature 的 attention 机制,结论是 dynamic attention 的效果会更好,尽管对应 ensemble 出来的 teacher 效果并不一定是最好的
  - snapshot 的数量,基本上是存的 checkpoint 越多效果越好,但因为同时需要 forward 多个 teacher model 会造成比较大的训练开销(这个问题挺好解决的,静态 dataset 的话,把 teacher logits 存下来就完事了)
  最后作者在 CIFAR 100 和 ImageNet 对比了目前的 sota,发现提出的方案能够取得更好的效果,但分析部分还是比较欠缺,对于 experience 的这个概念的探究还是不够深入。
  10
  Rethinking and Refining the Distinct Metric
  领域:文本生成
  会议:ACL 2022 Short
  链接:
  是否推荐:推荐
  打卡内容:
  Distinct metric 是文本生成中常用的一个指标,来衡量生成文本的 diversity,作者指出这个指标存在一个问题:当文本长度变长的时候,这个指标会急剧下降。作者分析的方法是控制 vocab 的 distribution(概率分布),然后增长句子的长度,发现 distinct 的下降,而这个和 distinct 本身想要 measure 的 word distribution 的 diversity 是矛盾的(因为 distribution 固定,那么应该和长度无关)。在一个方面,这会造成模型比较的不公平,因为可以很轻松地通过控制 length penalty 来控制 diversity。作者通过对分母进行修改,改为期望出现的总 token 的上界(因为无法估计不出现的 token),得到了一个更好的 distinct 指标。实验评估发现,这个指标有更好的长度不变性,并且在真实数据集上更能够体验不同方法的 gap 和 consistency,也和 human evaluation 有比较好的 correlation。
  11
  A Contrastive Framework for Neural Text Generation
  领域:文本生成
  会议:ARXIV
  链接:
  是否推荐:推荐
  打卡内容:
  旨在解决 generation 中生成重复 token 的问题,之前的 Top-k 和 Top-p 生成能够一定程度的缓解这个问题,但是会带来 inconsistency 的问题。作者认为重复的原因来自于 token uniformity,并且对 GPT 最后的 token representations 做了可视化,发现 token 之间的 cosine similarity 高于 0.95 ,进而会导致在不同时间步上产生重复的 token,而理想状态中 token 的表示应该有较大的区分度。作者因此提出了 SimCTG,利用对比学习来增强不同 token representation 之间的 cosine 距离,同时在解码阶段,也对 representation 上增加一个惩罚项,即和之前所有 token representation similarity 的最大值。作者在 wiki103 上和 MLE, Unlikelihood 做了对比,能够在发现在 coherence 更高的情况下,取得更好的抗重复,增强生成文本多样性的效果,在 Dialog Generation 上的人工测评也体现出比较明显的提升。
  12
  Should You Mask 15% in Masked Language Modeling
  领域:预训练模型
  会议:ARXIV 2022
  链接:
  是否推荐:推荐
  打卡内容:
  探究 Mask Language Modeling 中 Mask 比例的影响。作者首先是在预训练中发现 mask 掉 40% 的 token 能够带来更好的下游任务性能,并且 mask 掉 80% 也能保持大部分的性能。作者进一步地把 mask ratio 对性能的影响解耦成两部分:
  - corruption rate: 对上下文破坏的比例,这个比率越高,上下文破碎程度越高会使得预测任务会更加的困难;
  - prediction rate: 预测 mask token 的比例,这个比率越高,则模型接收到的训练信号越多;
  传统的 MLM 里面,这两个比率是都和 mask ratio 相等的,作者设计了 ablation study 来分别探究这二者的效果:
  - corruption rate > prediction rate: 例如,mask 掉 40% token,但是只预测其中 50% 的 mask token,即 prediction rate = 20%;
  - corruption rate
  实验以 mask rate = 40 % 为 baseline 为 baseline,发现 corruption rate 越高整体会降低效果,而 prediction rate 越低也会带来更差的效果,二者是一个 trade-off,更难的任务和更多的信号。作者也对不同 size 的model 进行了探究,发现大模型下游任务最好的性能出现在 mask rate 更大的位置,猜测是其能力更强,所以能够处理更难的任务并且利用好更多的信号。
  另外一个常用的 trick 是 80-10-10 ,即 mask token 有 80 % 的 token是 [MASK],10% 的概率是原来的 token,10 % 的概率是 random token,最初这个trick是用来缓解 [MASK] 引入的 inconsistency 的,但是作者的实验其实关注到 40% 的mask rate 并没有带来性能下降,说明这个 inconsistency 还是存疑的,作者探究了增加 same token prediction,random token 的比率,发现还是带来下降,因此作者提倡还是用 [MASK] 最原始的版本就可以了。
  最后作者探究了 mask 的策略,发现在高 mask 比率下,相比于 PMI 和 Span,uniform 的 mask 策略就能取得比较好的效果,作者的解释就是高 mask 比率实际上大概率会 mask 出类似 PMI、Span 的 mask,从而也能够使得模型的学习更加鲁棒。
  13
  Visually Grounded Reasoning across Languages and Cultures
  领域:多模态
  会议:EMNLP 2021
  链接:
  是否推荐:推荐
  打卡内容:
  ImageNet构建的方式是通过英语的WordNet去选择层次化的概念,然后根据概念再选择图像。后面的一些数据集,比如NLVR2,MSCOCO,VisualGenome都是通过这种层次结构构建的。有证据表明ImageNet数据的来源与内容都存在着bias,也有人曾为了纠正这种倾向提出干预数据,过滤、重新平衡一些类别,但若是原分布本就未能涵盖多语言多文化,这种方法便不足以解决这个问题。作者认为ImageNet中的主要问题是概念不普遍、概念过于特定于英语。Bias的来源有以下三个方面:1. 概念的选择;2.候选图像检索(检索到的图像不符合真实世界分布);3.图像过滤(完全取决于标注者,他们都是来自于欧美)。
  针对这三个问题,作者设计了一个新的数据集,让概念和图像的选择完全由母语人士驱动。构建数据集的第一步是:1.选择语言,数据集主要包含5种语言:印尼语、简体中文、斯瓦希里语、泰米尔语和土耳其语。这5种语言的类型(typologically)、语系(genealogically)、地理(geographically)上皆不同。同时,泰米尔语和土耳其语是低资源语言。2.选择普适性概念,有两个层次,第一个是chapter,比如Animal,对应的semantic field是bird和mammal。3.选择特定语言概念:针对每个semantic field,作者雇佣5个母语人士提供5-10特定概念的维基百科页面,比如针对中文的semantic field music instrument,提供的维基百科页面是关于古筝的。概念需要满足两个关键需求:在使用这种语言的人群中常见或有代表性的,最好是以物质形式存在且具体的。4.图像选择,标注者可以从本地网站,搜索引擎和维基百科等作为源针对每个概念拿到12张图片。5.描述标注,从图像集中随机选8张图像,随机组成4个图像对。每位标注者被要求写一个描述,此描述对于两个图像对为True,两个图像对为False。在最后的数据集中,一个数据点包含两张图像,一个描述,和一个True/False标签。
  关于图像分布的分析,作者使用在ImageNet上训练的ResNet50 分别对MaRVL图像以及从NLVR2采样的1K张随机图像进行特征提取,提取后使用UMAP将它们的嵌入分布可视化。结果发现,MaRVL的中文图像与来自NLVR2的英文图像有着极为不同的分布。同时,也对MaRVL中的印尼语和斯瓦希里语的图像分布进行了比较,结果表明在不同语言间也有着不同的分布。
  然后就是基于多种预训练模型(VL-BERT,UNITER等等)在MaRVL上的实验了,本文提出了两个跨语言的VL预训练模型的变种,mUNITER(通过mBERT进行初始化的UNITER)和xUNITER(XLM-R)。通过和NLVR2进行对比,模型在Zero-shot实验中效果下降明显,对于资源丰富的中文一样如此。同时加入一种设置,就是将不同语言翻译为英语,相比之下,模型有着不同程度的提升,但比起NLVR2依旧有着10%的差距。作者认为这种明显的下降是由于MaRVL有两个挑战:一个是cross-lingual transfer,另一个是out-of-distribution。作者又设计了一组控制实验,他们将MaRVL-ZH人工翻译成了英语,去除了机器翻译所带来的任何可能的混杂因子。和机器翻译相比,大部分模型都有1-2%的提升,因此翻译是很可靠的。那么,导致模型下降10%的便是那些OOD概念了。第二个实验是:从NLVR2测试集取样250个唯一的描述,将它们人工翻译成简体中文,记为NLVR2-ZH。mUNITER和xUNITER的准确率都下降了约16%,因此,这种gap可以归因于从英语到中文的跨语言迁移。第三组实验是,将NLVR2的训练集机器翻译为中文,并在MaRVL-ZH上测试,发现mUNITER和xUNITER的结果和Translate test实验时很接近,再一次说明 缺乏文化相关概念阻碍了泛化。
  14
  PILED: An Identify-and-Localize Framework for Few-Shot Event Detection
  领域:信息抽取
  会议:ARXIV
  链接:
  是否推荐:推荐

如何做网站SEO站内优化(快速实现网站排名)的方法有哪些

网站优化优采云 发表了文章 • 0 个评论 • 74 次浏览 • 2022-04-29 17:33 • 来自相关话题

  如何做网站SEO站内优化(快速实现网站排名)的方法有哪些
  
  
  在一些优化群里面,常常会看到一些才做优化的人说。百度优化排名不就是发发外链么。要知道现在的优化早已经不是五六年前的优化了,百度的算法一次次更新,对网站的要求越来越高。现在的百度更喜欢网站漂亮的,对用户友好的。无论是网站的打开速度、还是网站url的长度,以及文章的字体大小、间距,都是百度给予权重的考核范围。
  一、网站打开速度!网站打开速度!要快!
  如今这个快节奏的社会,大量的信息冲击。谁会愿意等待一个5~6秒都不出一个字的网站?换做是你,肯定都鬼火冒,直接关闭页面,从此以后再也不点那个站了。所以网站打开的速度是灰常灰常重要的,打开的速度越快,用户满意度就高。对于蜘蛛也是一个道理。所以对于速度方面,小编有以下几小点建议:
  把网站页面的代码能精简就精简、大片的注释代码也一样,直接删除。
  css放页头、js放页尾。
  搞个CDN加速,腾讯、阿里、百度都有,他们也有很详细的图文教程您一看就懂。
  服务器宽带升级
  页面做缓存
  网站页面都做成纯静态化
  
  二、着陆页的内容一定要本着解决用户问题的目的写
  首先,如果我们能够找出这些重复网页并从数据库中去掉,就能够节省部分存储空间,进而可以利用这部分空间存放更多的有效网页内容,同时也提高了搜索引擎的搜索质量和用户体验。
  其次,如果我们能够通过对以往收集信息的分析,预先发现重复网页,在今后的网页收集过程中就可以避开这些网页,从而提高网页的收集速度。有研究表明重复网页随着时间不发生太大变化,所以这种从重复页面集合中选择部分页面进行索引是有效的。
  三、增加权威感,提升品牌,UI,UX
  另外,如果某个网页的镜像度较高,往往是其内容比较受欢迎的一种间接体现,也就预示着该网页相对重要,在收集网页时应赋予它较高的优先级,而当搜索引擎系统在响应用户的检索请求并对输出结果排序时,应该赋了它较高的权值。
  从另外一个角度看,如果用户点击了一个死链接,那么可以将用户引导到一个内容相同页面,这样可以有效地增加用户的检索体验。因而近似重复网页的及时又有利于改善搜索引擎系统的服务质量。
  
  四、弹窗、反人类的东西页面上不要有
  这个就不多说了,伙伴些去点下医疗站,就知道应该如何做好这一块的优化。 查看全部

  如何做网站SEO站内优化(快速实现网站排名)的方法有哪些
  
  
  在一些优化群里面,常常会看到一些才做优化的人说。百度优化排名不就是发发外链么。要知道现在的优化早已经不是五六年前的优化了,百度的算法一次次更新,对网站的要求越来越高。现在的百度更喜欢网站漂亮的,对用户友好的。无论是网站的打开速度、还是网站url的长度,以及文章的字体大小、间距,都是百度给予权重的考核范围。
  一、网站打开速度!网站打开速度!要快!
  如今这个快节奏的社会,大量的信息冲击。谁会愿意等待一个5~6秒都不出一个字的网站?换做是你,肯定都鬼火冒,直接关闭页面,从此以后再也不点那个站了。所以网站打开的速度是灰常灰常重要的,打开的速度越快,用户满意度就高。对于蜘蛛也是一个道理。所以对于速度方面,小编有以下几小点建议:
  把网站页面的代码能精简就精简、大片的注释代码也一样,直接删除。
  css放页头、js放页尾。
  搞个CDN加速,腾讯、阿里、百度都有,他们也有很详细的图文教程您一看就懂。
  服务器宽带升级
  页面做缓存
  网站页面都做成纯静态化
  
  二、着陆页的内容一定要本着解决用户问题的目的写
  首先,如果我们能够找出这些重复网页并从数据库中去掉,就能够节省部分存储空间,进而可以利用这部分空间存放更多的有效网页内容,同时也提高了搜索引擎的搜索质量和用户体验。
  其次,如果我们能够通过对以往收集信息的分析,预先发现重复网页,在今后的网页收集过程中就可以避开这些网页,从而提高网页的收集速度。有研究表明重复网页随着时间不发生太大变化,所以这种从重复页面集合中选择部分页面进行索引是有效的。
  三、增加权威感,提升品牌,UI,UX
  另外,如果某个网页的镜像度较高,往往是其内容比较受欢迎的一种间接体现,也就预示着该网页相对重要,在收集网页时应赋予它较高的优先级,而当搜索引擎系统在响应用户的检索请求并对输出结果排序时,应该赋了它较高的权值。
  从另外一个角度看,如果用户点击了一个死链接,那么可以将用户引导到一个内容相同页面,这样可以有效地增加用户的检索体验。因而近似重复网页的及时又有利于改善搜索引擎系统的服务质量。
  
  四、弹窗、反人类的东西页面上不要有
  这个就不多说了,伙伴些去点下医疗站,就知道应该如何做好这一块的优化。

搜索引擎进行信息检索的优化策略方法(只用一种方法实现搜索引擎进行信息检索的优化策略方法)

网站优化优采云 发表了文章 • 0 个评论 • 62 次浏览 • 2022-04-20 10:11 • 来自相关话题

  搜索引擎进行信息检索的优化策略方法(只用一种方法实现搜索引擎进行信息检索的优化策略方法)
  搜索引擎进行信息检索的优化策略方法有三种,分别是基于内容相似性的算法、基于链接的算法和基于索引的算法。
  一、基于内容相似性的算法内容相似性是指如果有一个网站服务器的所有页面都与另一个网站服务器的相同页面进行相似性的排序,就可以得到相似性排序。基于内容相似性的推荐算法通常在移动端十分常见,可以嵌入到推荐的第三方平台中并提供给开发者使用。谷歌为两家公司lazada和googleplay提供推荐,亚马逊也与谷歌合作提供推荐,facebook也与谷歌合作提供推荐。
  二、基于链接的算法基于链接的算法是通过链接查询的方式实现,在查询列表中查找特定的目标进行排序。在搜索中,采用链接查询并不新鲜,目前的技术来说,两个url之间的一个或多个连接是不存在的,但在一些特定需求场景下是可以连接到特定资源的,比如信息查询。目前还存在两种常见的链接查询模式:applestore+itunesstore+applestore,会有一个特定的连接进行一定的排序;applewatch的apple+lift,会有一个特定的连接进行一定的排序;。
  三、基于索引的算法索引排序是通过人工的手段寻找一系列与某一页面相似的url,并对其进行分类,或者在sortby上做分类,由此进行排序。综上所述,没有研究报告中提到的只用一种方法实现app质量管理,现在的技术来说这两种方法都不是不可或缺的。谢谢邀请!我是孔令华,从事移动互联网与信息技术服务。微信号:you-gong-zhuo我主要从事互联网金融、互联网医疗、互联网电商、移动营销、微信开发、seo优化、新媒体运营。 查看全部

  搜索引擎进行信息检索的优化策略方法(只用一种方法实现搜索引擎进行信息检索的优化策略方法)
  搜索引擎进行信息检索的优化策略方法有三种,分别是基于内容相似性的算法、基于链接的算法和基于索引的算法。
  一、基于内容相似性的算法内容相似性是指如果有一个网站服务器的所有页面都与另一个网站服务器的相同页面进行相似性的排序,就可以得到相似性排序。基于内容相似性的推荐算法通常在移动端十分常见,可以嵌入到推荐的第三方平台中并提供给开发者使用。谷歌为两家公司lazada和googleplay提供推荐,亚马逊也与谷歌合作提供推荐,facebook也与谷歌合作提供推荐。
  二、基于链接的算法基于链接的算法是通过链接查询的方式实现,在查询列表中查找特定的目标进行排序。在搜索中,采用链接查询并不新鲜,目前的技术来说,两个url之间的一个或多个连接是不存在的,但在一些特定需求场景下是可以连接到特定资源的,比如信息查询。目前还存在两种常见的链接查询模式:applestore+itunesstore+applestore,会有一个特定的连接进行一定的排序;applewatch的apple+lift,会有一个特定的连接进行一定的排序;。
  三、基于索引的算法索引排序是通过人工的手段寻找一系列与某一页面相似的url,并对其进行分类,或者在sortby上做分类,由此进行排序。综上所述,没有研究报告中提到的只用一种方法实现app质量管理,现在的技术来说这两种方法都不是不可或缺的。谢谢邀请!我是孔令华,从事移动互联网与信息技术服务。微信号:you-gong-zhuo我主要从事互联网金融、互联网医疗、互联网电商、移动营销、微信开发、seo优化、新媒体运营。

搜索引擎进行信息检索的优化策略方法(信息组织的理论基础、逻辑学、知识分类及模式)

网站优化优采云 发表了文章 • 0 个评论 • 169 次浏览 • 2022-04-19 03:08 • 来自相关话题

  搜索引擎进行信息检索的优化策略方法(信息组织的理论基础、逻辑学、知识分类及模式)
  1.1 信息组织的理论基础1.1.1 信息的定义 从客观的角度看,信息是对万物存在方式和运动规律的表征. 从主观上看,信息是指人们对世界的认识所形成的与人类智能活动密切相关的各种知识、学习和信息。1.1.2信息的分类和划分:内容、生产顺序和加工深度、存在形式、流通方式和传播范围、载体形式等。1.< @1.3 信息通用性、存储性、传递性、共享性、开发性、增值性的特点1.
  是用于提供有关资源的信息的结构化数据。5、其他模式:数据库、超维组织法、FTP信息组织法、基于多媒体的信息组织法、自然语言法、分类-主题法、WENSOM 1.2网络信息资源组织1.@ >2.4网络信息资源组织法1、文档法2、超文本链接法3、搜索引擎法4、目录引导法5、数据库法6、首页方法1.3网络信息检索工具1.3.1网络信息检索方法1、基于超文本的信息查询超文本:是 通过超链接组织来自不同空间的信息的网络文本2、基于目录的信息查询3、基于搜索引擎的信息查询1.3 网络信息检索工具1.< @3.2 搜索引擎简介1、搜索引擎的定义和任务定义:利用网络自动搜索技术,对互联网上的各种资源进行索引,为搜索者提供搜索服务系统。任务:对网络信息进行索引和存储,并为用户提供检索2、搜索引擎的体系结构包括三个子系统:信息采集、信息处理和信息查询3、搜索引擎分类第二个工作一、什么情况下是逻辑“AND”,逻辑“OR” 和用于概念组合的逻辑“NOT”?二、获取网络信息的方法有哪些?三、网络信息资源的组织方式有哪些?四、 简单描述一下搜索引擎的定义和任务?1.3 网络信息检索工具1.3.
  b 大写和小写字母:许多引擎不区分大小写,但有些是。在使用它之前,您应该清楚地知道它。在搜索人名、公司名、产品名或其他专有名词时,最好使用大写字母进行查询。1.3 网络信息检索工具1.3.4 常用中文搜索引擎介绍1、百度2、雅虎3、中文(香港) Google.hk 4、天网搜索等。. . . . . 1.3网络信息检索工具1.3.5百度()1、技术特点:⑴、采用世界独有的超链分析技术⑵、具有中文自然特点互联网优势⑶,为中国用户量身定做⑷,提供更智能的检索功能< @2、 一些高级检索语法:⑴、布尔逻辑:+(和)-(或)| (不)⑵、限制技术:a、“site:”用在特定URL前面,用于搜索特定的网站、网站频道或网页,“如:神舟站点:”;湾。在一个或多个关键词前加“,”表示只搜索网页标题中收录这些关键词的网页,“如:、神舟+8号”1.@ >3 网络信息检索工具 c.将搜索范围限定为网页中的标题-intitle: 使用方式是使用“intitle:”来获取查询内容中最关键的部分。例如,要查找神舟八号的发射,可以这样查询: 发射标题:神舟八号。注意 intitle: 和下面的 < 之间不能有空格
  d。精确匹配——双引号和标题号:在查询词中添加双引号可以防止拆分词在结果中显示。如:《六盘水师范学院》。书名是百度独有的搜索技术,其他搜索提醒会忽略,但在百度上可以搜索到。添加书名号有两个作用,一是显示,如书名;另一个是标题号展开的单词不容易被拆分。如:“手机”。e. 要求搜索结果不收录特定查询词:使用减号语法删除所有收录特定 关键词 的网页。如:神舟八号1.3网络信息检索工具3、扩展百度1. 查看全部

  搜索引擎进行信息检索的优化策略方法(信息组织的理论基础、逻辑学、知识分类及模式)
  1.1 信息组织的理论基础1.1.1 信息的定义 从客观的角度看,信息是对万物存在方式和运动规律的表征. 从主观上看,信息是指人们对世界的认识所形成的与人类智能活动密切相关的各种知识、学习和信息。1.1.2信息的分类和划分:内容、生产顺序和加工深度、存在形式、流通方式和传播范围、载体形式等。1.< @1.3 信息通用性、存储性、传递性、共享性、开发性、增值性的特点1.
  是用于提供有关资源的信息的结构化数据。5、其他模式:数据库、超维组织法、FTP信息组织法、基于多媒体的信息组织法、自然语言法、分类-主题法、WENSOM 1.2网络信息资源组织1.@ >2.4网络信息资源组织法1、文档法2、超文本链接法3、搜索引擎法4、目录引导法5、数据库法6、首页方法1.3网络信息检索工具1.3.1网络信息检索方法1、基于超文本的信息查询超文本:是 通过超链接组织来自不同空间的信息的网络文本2、基于目录的信息查询3、基于搜索引擎的信息查询1.3 网络信息检索工具1.< @3.2 搜索引擎简介1、搜索引擎的定义和任务定义:利用网络自动搜索技术,对互联网上的各种资源进行索引,为搜索者提供搜索服务系统。任务:对网络信息进行索引和存储,并为用户提供检索2、搜索引擎的体系结构包括三个子系统:信息采集、信息处理和信息查询3、搜索引擎分类第二个工作一、什么情况下是逻辑“AND”,逻辑“OR” 和用于概念组合的逻辑“NOT”?二、获取网络信息的方法有哪些?三、网络信息资源的组织方式有哪些?四、 简单描述一下搜索引擎的定义和任务?1.3 网络信息检索工具1.3.
  b 大写和小写字母:许多引擎不区分大小写,但有些是。在使用它之前,您应该清楚地知道它。在搜索人名、公司名、产品名或其他专有名词时,最好使用大写字母进行查询。1.3 网络信息检索工具1.3.4 常用中文搜索引擎介绍1、百度2、雅虎3、中文(香港) Google.hk 4、天网搜索等。. . . . . 1.3网络信息检索工具1.3.5百度()1、技术特点:⑴、采用世界独有的超链分析技术⑵、具有中文自然特点互联网优势⑶,为中国用户量身定做⑷,提供更智能的检索功能< @2、 一些高级检索语法:⑴、布尔逻辑:+(和)-(或)| (不)⑵、限制技术:a、“site:”用在特定URL前面,用于搜索特定的网站、网站频道或网页,“如:神舟站点:”;湾。在一个或多个关键词前加“,”表示只搜索网页标题中收录这些关键词的网页,“如:、神舟+8号”1.@ >3 网络信息检索工具 c.将搜索范围限定为网页中的标题-intitle: 使用方式是使用“intitle:”来获取查询内容中最关键的部分。例如,要查找神舟八号的发射,可以这样查询: 发射标题:神舟八号。注意 intitle: 和下面的 < 之间不能有空格
  d。精确匹配——双引号和标题号:在查询词中添加双引号可以防止拆分词在结果中显示。如:《六盘水师范学院》。书名是百度独有的搜索技术,其他搜索提醒会忽略,但在百度上可以搜索到。添加书名号有两个作用,一是显示,如书名;另一个是标题号展开的单词不容易被拆分。如:“手机”。e. 要求搜索结果不收录特定查询词:使用减号语法删除所有收录特定 关键词 的网页。如:神舟八号1.3网络信息检索工具3、扩展百度1.

搜索引擎进行信息检索的优化策略方法(如何快速搭建起一个高质量站内搜索引擎呢?(组图))

网站优化优采云 发表了文章 • 0 个评论 • 249 次浏览 • 2022-04-19 00:07 • 来自相关话题

  搜索引擎进行信息检索的优化策略方法(如何快速搭建起一个高质量站内搜索引擎呢?(组图))
  一、网站搜索的意义
  对于媒体内容站、电商、SaaS服务等B端企业来说,加入“站内搜索”功能,帮助用户快速找到自己想要的内容,是提升用户体验、减少弹跳的最佳方式率,并提高用户转化率。好主意。
  另一方面,站内搜索也是帮助B端企业快速采集用户真实想法的好工具。每次用户搜索和点击,都是对他们网站内容的反馈,尤其是对于没有结果的搜索词。这是帮助我们改进网站的重要第一手资料。
  那么如何快速搭建一个高质量的站内搜索引擎呢?接下来我会写一系列文章来详细讲解本站搜索的方方面面,欢迎大家继续关注。
  今天,我们从产品层面谈谈如何优化搜索排名结果。
  二、从搜索算法开始
  要深入了解搜索,请从搜索引擎的起源开始。任何复杂的系统都是从一个简单的系统开始,逐渐演化而来的。从一开始就设计一个复杂的系统很难让它很好地工作。所以我们必须回到源头,从源头上讲理解搜索。
  
  1990 年代,TREC(全球文本检索会议)组织了一系列年度研讨会。本次研讨会的主要目的是寻找由“非结构化长文档”组成的数据集的最佳搜索算法。TREC对搜索引擎算法做了很多优化,其中TF-IDF算法应该是当时最好的排序算法的主要组成部分。
  TF-IDF算法,就像它的名字一样,收录两个关键元素,“词频TF”和“逆文档频率IDF”。对这两个元素进行统计加权后得到搜索排名。
  词频(TF,词频)
  词频TF是指“搜索词”在文档中出现的频率。
  逆文档频率(IDF,逆文档频率)
  逆文档频率IDF是指“搜索词”在整个语料库中出现的频率。
  当用户输入“搜索词”时,它首先会比较整个文档库中哪些文档收录最多的“搜索词”。收录的越多,文档的排名就越高。
  这个简单的规则有一个致命的问题,在我们的语言中有太多的连词、代词、助词等等只是用来辅助句子表达的词。比如“?”、“also”、“this”、“but”等词,这些词不是文档的核心内容,应该减少权重。
  至此,我们介绍第二个关键元素——逆文档频率 IDF。它的作用是降低语料库中频繁出现的词的权重。一个词在语料库中重复的次数越多,收录这个“搜索词”的文档的排名就越低。
  TF-IDF的设计是不是简单巧妙?TF-IDF排序算法和BM25等类似算法基本上是古代搜索引擎的核心查询和排序算法。这类算法主要是针对非结构化的长文本设计的,比如大型企业文档、过去判断文档、全球论文检索数据库等。
  此类算法是搜索引擎的基石,对其原理的深入了解将有助于我们设计自己的站内搜索。接下来说说独立网站、小程序、APP中如何设计和处理搜索问题。
  三、如何通过数据属性优化排序结果
  今天不谈搜索技术问题,只谈站内搜索的产品设计问题。事实上,现场搜索技术的问题已经很好地解决了。有开源免费的ElasticSearch,国内有很多SaaS形式的现场搜索解决方案。比如卡拉搜索,一行代码就可以部署站内搜索,非常方便。在搜索技术不是大问题的前提下,剩下的就是产品策略和产品设计了。接下来,我们从产品设计层面来谈谈如何优化搜索排名。
  这个算法的问题是只能针对极少数场景设计,不适合当前互联网网站、小程序、APP中的信息搜索。这种搜索会不分类型地混淆所有文档,而我们当前的数据信息收录了很大的纬度,甚至收录了一些用户行为投票的社会指标,比如(浏览量、点赞量、转发量)数等.)。
  如何利用多维数据提高搜索准确率是我们需要思考的问题。
  前面我们提到了TF-IDF搜索算法的原理,那么接下来应该添加哪些元素才能让搜索引擎排名更准确呢?我们的网站/小程序/app中的文档信息实际上并不是混在一起的,而是收录了很多纬度信息,甚至有些纬度是用户行为产生的对文档质量的投票,比如浏览量、点赞量、转发、采集等。如何利用这么多丰富的多维信息来帮助我们优化搜索?
  一般来说,我们可以将站点中的文档信息划分为几个纬度。
  让我们举个例子。假设用户最近观看了威尔史密斯的经典电影《幸福来敲门》并喜欢它。第二天本来打算去豆瓣看影评,昨天看了《幸福》。它是什么?用户只记得片名中有幸福,于是在豆瓣电影的搜索框中输入了“幸福”。
  请考虑一下用户此时的心理状态。他当然不在乎有多少电影标题收录“幸福”这个词(TF 词频),他当然也不在乎“幸福”这个词是否是电影标题中的常见词(逆文档频率 IDF)。
  用户更关心的是如何快速准确地找到自己昨天看的电影《幸福》,快速阅读影评。
  这个时候,我们的搜索引擎应该在联想词列表中排名第一的是什么?
  
  虽然“幸福来敲门”这个词在属性中并不是第一名,但因为片名本身的权重很高,所以排在了第一位。
  在这个场景的搜索中,“幸福”这个词有很多属性,我们的搜索引擎可以利用这些属性来进行排名判断。
  对以上属性进行数值加权后,“幸福时敲门”排在搜索结果首位的可能性肯定比使用TF-IDF排序算法找到“幸福时敲门”的可能性要大得多。
  因此,我们应该在排序结果中考虑网站业务的各种属性,并根据不同属性的重要性设计权重。我们可以从以下几个方面考虑排序问题。
  
  豆瓣电影输入“史密斯”,前三个是电影,后三个是电影人。这是一种基于产品业务权重的搜索排名策略。
  在现场搜索中加入这些排序策略后,与经典搜索算法排序相比,搜索准确率有了很大的飞跃。那么如何才能不断提高分拣质量呢?
  接下来,我们来谈谈如何灵活运用这些搜索策略,进一步提升搜索排名结果。
  五、如何通过调整数据属性的排序来优化搜索结果
  目前各种站内搜索方案中搜索结果准确率低的原因不是搜索算法,因为无论网站/app多大,情况再复杂,规则都可以穷尽。与搜索全网的难度相比,难度要低很多数量级。那么问题出在哪里?问题在于灵活使用搜索策略没有或有困难。如果我们使用 ElasticSearch 在网站上进行搜索,从“构建”到“可用”其实很简单,但是从“可用”到“好用”需要几个工程师 + 无数小时的积累。这不是普通中小型企业能够承受的成本,
  特别是,基本搜索算法选择使用较大的浮点分数,将所有内容混合在一起。根据所有规则对每个文档进行评分。然后按照这个规则排序。这种方法有个致命的问题,就是把不一样的属性混在一起讲排序。
  例如。假设排序方案包括TF-IDF和点赞数两个维度。所以问题是,我们的搜索引擎将如何排名?
  如果一个文档有非常多的点赞数,它将如何排序?即使该文档与搜索词的相关性非常低,该文档的排名也会非常高。
  那么如果一篇文档与搜索词相关度高,但点赞数为0,那么如何排序呢?这个 0 赞的 文章 可能不会出现在排名结果中。
  这种混合搜索排名方法的另一个问题是它的复杂性。当多个纬度属性混合在一个公式中时,我们发现搜索结果很糟糕,不知道如何调整。
  那么,面对这种多维度的搜索问题,我们应该如何设计搜索排名呢?
  明智的方法是将所有属性分开并为您的业务调整它们的顺序。不是将所有属性集中在一起计算一个大的分数,而是计算 N 个分数并进行 N 个连续排序。
  接下来我会谈谈它是如何工作的。
  所有匹配的结果都按照第一个标准进行排序。如果结果出现平局,将继续按照第二个标准计算和排序分数。如果仍然存在平局,则第三个标准继续进行,直到每个标准在搜索结果中都有自己的位置。
  那么在这个过程中先用哪个准则来判断就成为了这个排序方案的关键。
  来个案例,你就明白了。
  [
{
"title": "为什么《黑肯帝国3》在IDBM才不到7分?",
"featured": true,
"number_of_likes": 2647
},
{
"title": "《黑客帝国》里面,为什么最后是尼欧赢了?",
"featured": false,
"number_of_likes": 3077
},
{
"title": "还好当年没让小李子演《黑客帝国》",
"featured": false,
"number_of_likes": 531
},
{
"title": "多年以后,才真正看懂黑各帝国",
"featured": false,
"number_of_likes": 797
},
{
"title": "如何理解《黑客帝国》?",
"featured": true,
"number_of_likes": 611
}
]
  为了简化示例,我们将规则简化为三点,错别字,细化,点赞数。用户输入“矩阵”关键词进行查询,会得到如下结果。
  如何理解“黑客帝国”?(无错别字;细化;点赞数:611)《黑客帝国》,Neo为什么最后赢了?(无错字;无细化;点赞数:3077)为什么《黑客帝国3》少于IDBM 7分?(2个错别字;精炼;点赞:2647)还好小李子没被允许玩《黑客帝国》(没有错别字;没有精炼;点赞:531)多年后,我真的懂了黑社会的帝国(1个错字;未精炼;喜欢:797)
  以上就是这个案例的策略,如果我们对这个例子的排序结果不满意怎么办?只需调整属性权重(顺序)。比如我们认为错别字没有问题,不应该过多降低权限,所以只需要把“错别字”的属性放在后面即可。
  
  国内站点搜索解决方案“卡拉搜索”策略设置后台,您只需使用鼠标拖动即可更改属性权重。
  六、站内搜索优化总结
  对于媒体内容站、电商、SaaS服务等B端企业来说,加入“站内搜索”功能,帮助用户快速找到自己想要的内容,是提升用户体验、减少弹跳的最佳方式率,并提高用户转化率。好主意。
  另一方面,站内搜索也是帮助B端企业快速采集用户真实想法的好工具。每次用户搜索和点击,都是对他们网站内容的反馈,尤其是对于没有结果的搜索词。这是帮助我们改进网站的重要第一手资料。
  构建“站内搜索”实际上非常简单。国内最好的站内搜索SaaS,仅需一行代码即可部署。我将在下一篇文章 文章 中解释如何快速部署站内搜索。欢迎留言提问,下一篇文章将一并解答。 查看全部

  搜索引擎进行信息检索的优化策略方法(如何快速搭建起一个高质量站内搜索引擎呢?(组图))
  一、网站搜索的意义
  对于媒体内容站、电商、SaaS服务等B端企业来说,加入“站内搜索”功能,帮助用户快速找到自己想要的内容,是提升用户体验、减少弹跳的最佳方式率,并提高用户转化率。好主意。
  另一方面,站内搜索也是帮助B端企业快速采集用户真实想法的好工具。每次用户搜索和点击,都是对他们网站内容的反馈,尤其是对于没有结果的搜索词。这是帮助我们改进网站的重要第一手资料。
  那么如何快速搭建一个高质量的站内搜索引擎呢?接下来我会写一系列文章来详细讲解本站搜索的方方面面,欢迎大家继续关注。
  今天,我们从产品层面谈谈如何优化搜索排名结果。
  二、从搜索算法开始
  要深入了解搜索,请从搜索引擎的起源开始。任何复杂的系统都是从一个简单的系统开始,逐渐演化而来的。从一开始就设计一个复杂的系统很难让它很好地工作。所以我们必须回到源头,从源头上讲理解搜索。
  
  1990 年代,TREC(全球文本检索会议)组织了一系列年度研讨会。本次研讨会的主要目的是寻找由“非结构化长文档”组成的数据集的最佳搜索算法。TREC对搜索引擎算法做了很多优化,其中TF-IDF算法应该是当时最好的排序算法的主要组成部分。
  TF-IDF算法,就像它的名字一样,收录两个关键元素,“词频TF”和“逆文档频率IDF”。对这两个元素进行统计加权后得到搜索排名。
  词频(TF,词频)
  词频TF是指“搜索词”在文档中出现的频率。
  逆文档频率(IDF,逆文档频率)
  逆文档频率IDF是指“搜索词”在整个语料库中出现的频率。
  当用户输入“搜索词”时,它首先会比较整个文档库中哪些文档收录最多的“搜索词”。收录的越多,文档的排名就越高。
  这个简单的规则有一个致命的问题,在我们的语言中有太多的连词、代词、助词等等只是用来辅助句子表达的词。比如“?”、“also”、“this”、“but”等词,这些词不是文档的核心内容,应该减少权重。
  至此,我们介绍第二个关键元素——逆文档频率 IDF。它的作用是降低语料库中频繁出现的词的权重。一个词在语料库中重复的次数越多,收录这个“搜索词”的文档的排名就越低。
  TF-IDF的设计是不是简单巧妙?TF-IDF排序算法和BM25等类似算法基本上是古代搜索引擎的核心查询和排序算法。这类算法主要是针对非结构化的长文本设计的,比如大型企业文档、过去判断文档、全球论文检索数据库等。
  此类算法是搜索引擎的基石,对其原理的深入了解将有助于我们设计自己的站内搜索。接下来说说独立网站、小程序、APP中如何设计和处理搜索问题。
  三、如何通过数据属性优化排序结果
  今天不谈搜索技术问题,只谈站内搜索的产品设计问题。事实上,现场搜索技术的问题已经很好地解决了。有开源免费的ElasticSearch,国内有很多SaaS形式的现场搜索解决方案。比如卡拉搜索,一行代码就可以部署站内搜索,非常方便。在搜索技术不是大问题的前提下,剩下的就是产品策略和产品设计了。接下来,我们从产品设计层面来谈谈如何优化搜索排名。
  这个算法的问题是只能针对极少数场景设计,不适合当前互联网网站、小程序、APP中的信息搜索。这种搜索会不分类型地混淆所有文档,而我们当前的数据信息收录了很大的纬度,甚至收录了一些用户行为投票的社会指标,比如(浏览量、点赞量、转发量)数等.)。
  如何利用多维数据提高搜索准确率是我们需要思考的问题。
  前面我们提到了TF-IDF搜索算法的原理,那么接下来应该添加哪些元素才能让搜索引擎排名更准确呢?我们的网站/小程序/app中的文档信息实际上并不是混在一起的,而是收录了很多纬度信息,甚至有些纬度是用户行为产生的对文档质量的投票,比如浏览量、点赞量、转发、采集等。如何利用这么多丰富的多维信息来帮助我们优化搜索?
  一般来说,我们可以将站点中的文档信息划分为几个纬度。
  让我们举个例子。假设用户最近观看了威尔史密斯的经典电影《幸福来敲门》并喜欢它。第二天本来打算去豆瓣看影评,昨天看了《幸福》。它是什么?用户只记得片名中有幸福,于是在豆瓣电影的搜索框中输入了“幸福”。
  请考虑一下用户此时的心理状态。他当然不在乎有多少电影标题收录“幸福”这个词(TF 词频),他当然也不在乎“幸福”这个词是否是电影标题中的常见词(逆文档频率 IDF)。
  用户更关心的是如何快速准确地找到自己昨天看的电影《幸福》,快速阅读影评。
  这个时候,我们的搜索引擎应该在联想词列表中排名第一的是什么?
  
  虽然“幸福来敲门”这个词在属性中并不是第一名,但因为片名本身的权重很高,所以排在了第一位。
  在这个场景的搜索中,“幸福”这个词有很多属性,我们的搜索引擎可以利用这些属性来进行排名判断。
  对以上属性进行数值加权后,“幸福时敲门”排在搜索结果首位的可能性肯定比使用TF-IDF排序算法找到“幸福时敲门”的可能性要大得多。
  因此,我们应该在排序结果中考虑网站业务的各种属性,并根据不同属性的重要性设计权重。我们可以从以下几个方面考虑排序问题。
  
  豆瓣电影输入“史密斯”,前三个是电影,后三个是电影人。这是一种基于产品业务权重的搜索排名策略。
  在现场搜索中加入这些排序策略后,与经典搜索算法排序相比,搜索准确率有了很大的飞跃。那么如何才能不断提高分拣质量呢?
  接下来,我们来谈谈如何灵活运用这些搜索策略,进一步提升搜索排名结果。
  五、如何通过调整数据属性的排序来优化搜索结果
  目前各种站内搜索方案中搜索结果准确率低的原因不是搜索算法,因为无论网站/app多大,情况再复杂,规则都可以穷尽。与搜索全网的难度相比,难度要低很多数量级。那么问题出在哪里?问题在于灵活使用搜索策略没有或有困难。如果我们使用 ElasticSearch 在网站上进行搜索,从“构建”到“可用”其实很简单,但是从“可用”到“好用”需要几个工程师 + 无数小时的积累。这不是普通中小型企业能够承受的成本,
  特别是,基本搜索算法选择使用较大的浮点分数,将所有内容混合在一起。根据所有规则对每个文档进行评分。然后按照这个规则排序。这种方法有个致命的问题,就是把不一样的属性混在一起讲排序。
  例如。假设排序方案包括TF-IDF和点赞数两个维度。所以问题是,我们的搜索引擎将如何排名?
  如果一个文档有非常多的点赞数,它将如何排序?即使该文档与搜索词的相关性非常低,该文档的排名也会非常高。
  那么如果一篇文档与搜索词相关度高,但点赞数为0,那么如何排序呢?这个 0 赞的 文章 可能不会出现在排名结果中。
  这种混合搜索排名方法的另一个问题是它的复杂性。当多个纬度属性混合在一个公式中时,我们发现搜索结果很糟糕,不知道如何调整。
  那么,面对这种多维度的搜索问题,我们应该如何设计搜索排名呢?
  明智的方法是将所有属性分开并为您的业务调整它们的顺序。不是将所有属性集中在一起计算一个大的分数,而是计算 N 个分数并进行 N 个连续排序。
  接下来我会谈谈它是如何工作的。
  所有匹配的结果都按照第一个标准进行排序。如果结果出现平局,将继续按照第二个标准计算和排序分数。如果仍然存在平局,则第三个标准继续进行,直到每个标准在搜索结果中都有自己的位置。
  那么在这个过程中先用哪个准则来判断就成为了这个排序方案的关键。
  来个案例,你就明白了。
  [
{
"title": "为什么《黑肯帝国3》在IDBM才不到7分?",
"featured": true,
"number_of_likes": 2647
},
{
"title": "《黑客帝国》里面,为什么最后是尼欧赢了?",
"featured": false,
"number_of_likes": 3077
},
{
"title": "还好当年没让小李子演《黑客帝国》",
"featured": false,
"number_of_likes": 531
},
{
"title": "多年以后,才真正看懂黑各帝国",
"featured": false,
"number_of_likes": 797
},
{
"title": "如何理解《黑客帝国》?",
"featured": true,
"number_of_likes": 611
}
]
  为了简化示例,我们将规则简化为三点,错别字,细化,点赞数。用户输入“矩阵”关键词进行查询,会得到如下结果。
  如何理解“黑客帝国”?(无错别字;细化;点赞数:611)《黑客帝国》,Neo为什么最后赢了?(无错字;无细化;点赞数:3077)为什么《黑客帝国3》少于IDBM 7分?(2个错别字;精炼;点赞:2647)还好小李子没被允许玩《黑客帝国》(没有错别字;没有精炼;点赞:531)多年后,我真的懂了黑社会的帝国(1个错字;未精炼;喜欢:797)
  以上就是这个案例的策略,如果我们对这个例子的排序结果不满意怎么办?只需调整属性权重(顺序)。比如我们认为错别字没有问题,不应该过多降低权限,所以只需要把“错别字”的属性放在后面即可。
  
  国内站点搜索解决方案“卡拉搜索”策略设置后台,您只需使用鼠标拖动即可更改属性权重。
  六、站内搜索优化总结
  对于媒体内容站、电商、SaaS服务等B端企业来说,加入“站内搜索”功能,帮助用户快速找到自己想要的内容,是提升用户体验、减少弹跳的最佳方式率,并提高用户转化率。好主意。
  另一方面,站内搜索也是帮助B端企业快速采集用户真实想法的好工具。每次用户搜索和点击,都是对他们网站内容的反馈,尤其是对于没有结果的搜索词。这是帮助我们改进网站的重要第一手资料。
  构建“站内搜索”实际上非常简单。国内最好的站内搜索SaaS,仅需一行代码即可部署。我将在下一篇文章 文章 中解释如何快速部署站内搜索。欢迎留言提问,下一篇文章将一并解答。

搜索引擎进行信息检索的优化策略方法(2021-09-161.什么是大文本?具体是什么?)

网站优化优采云 发表了文章 • 0 个评论 • 82 次浏览 • 2022-04-18 22:29 • 来自相关话题

  搜索引擎进行信息检索的优化策略方法(2021-09-161.什么是大文本?具体是什么?)
  2021-09-161.什么是大文本?究竟是什么?
  首先要明白,ElasticSearch建立索引完成全文检索的前提是将要检索的信息导入ElasticSearch。而一些信息对应的文本内容会很大,可能达到1MB~3MB字节左右。该内容被认为是大文本。一般我们将这些内容存储在一个名为 content 的字段中,然后对 Content 字段进行处理。全文搜索&高亮,会出现搜索效率低的问题,更耗时可能达到30s左右。
  这对于一个习惯了搜索引擎极速体验的用户来说,是不能容忍的。
  2. 问题描述
  从检索症状:
  1. 翻页到1000+页(每页10条数据),响应时间会更长
  2. 遇到一些大文件时,响应时间特别长,高亮结果会返回30s以上
  3. 故障排除与优化1. 限制返回记录数。不提供对最后一页的直接访问
  百度、360、搜狗等搜索引擎不提供访问最后一页的请求方式。它们都是基于单击上一页和下一页的逐页访问的。其实这从用户的角度也很好理解。搜索引擎返回的以前的数据是最相关的,也是用户最关心的信息。ElasticSearch默认支持的数据条数为10000条,所以最好将最大条数设置为10000条或小于该值。
  2. from/size 对应慢问题
  [从+尺寸机制]
  当 ElasticSearch 响应请求时,它必须确定文档的顺序并安排相应的结果。如果请求的页数很少,ElasticSearch 是没有问题的,但是如果页数很大,比如请求第 100 页,ElasticSearch 必须从第 1 到第 100 页获取所有文档,然后删除第 1 到第 100 页。文档在第 99 页,获取文档在第 100 页。
  【滚动机制】
  与from+size机制分页相比,使用滚动可以模拟一个传统的数据游标,记录当前读取的文档信息的位置。这种分页的使用并不是为了实时查询数据,而是一次查询大量数据甚至全部数据。
  因为这个滚动相当于维护了当前索引段的快照,所以快照信息就是执行滚动查询时的快照。此查询后从新索引传入的任何数据都不会在此快照中查询。但是,相比from+size机制,它并不是查询所有数据然后去掉不需要的部分,而是记录一个读位置,保证下一次快速读。
  from+size方式和scroll方式的优缺点对比:
  1. from + size 方法:当结果足够大时,会大大增加内存和CPU消耗。但是这种方法使用起来非常方便。
  2. 对于滚动模式:当结果足够大时,滚动性能更好。但存在scroll_id不灵活、管理困难的问题。滚动的使用必须逐页按顺序使用。如果是不规则翻页,其性能消耗也是巨大的。
  以上两种翻页机制需要根据实际场景合理选择。
  3. 查看内存状态
  当出现卡住、卡住等性能低下、用户体验差的情况时,需要及时查看ElasticSearch日志,检查是内存不足还是新老代参数设置不合理造成的。
  之前因为机器内存不足,设置为16GB。通过日志发现堆内存不足会导致老年代Full GC,造成停顿。堆内存果断地从 16GB 增加到最大 31GB。
  4. DSL逆向分析排查慢查询
  1. 打印出对应的查询DSL,可以通过接口访问:searchSourceBuilder.toString();
  2. 使用profile参数看看什么是慢的
  profile API的目的是在ES的高层对ES请求进行扁平化和扩展,让你可以直观的看到请求做了什么,每个segment花费了多少时间,为你提供提升性能的相关支持.
  3. 尝试更改全文搜索接口api,更改query_string匹配查询,相应速度会有一定提升
  4. 删除部分查询条件,在基本数据不变的情况下查看查询速度是否更快。
  验证发现不返回content字段时,速度会快很多;取消高亮字段处理时,速度会更快。至此,初步断定与高亮有关。
  5. 重点排查和优化
  通过论坛推荐使用:fast-vector-highlighter 进行大文件高亮。
  根据官网介绍,ElasticSearch高亮的方式有以下三种:
  方法一:传统的素色高亮法
  官网明确支持这种方式。这种方法匹配起来很慢。如果存在性能问题,请考虑其他突出显示方法。
  方法二:发帖高亮方法
  要支持发帖的高亮方式,需要在映射下添加如下信息:
    "type": "text",
  "index_options" : "offsets"
  添加完成后,发帖高亮方式将替代传统高亮方式。
  发布高亮方法的特点:
  1.速度快,无需重新分析高亮文件。文档越大,性能越高。
  2.比 fvh 突出显示需要更少的磁盘空间。
  3.将文本文件拆分成句子并突出显示。它适用于自然语言,但不适用于 html。
  4. 将文档视为整个语料库,并使用 BM25 算法对该语料库中的文档进行评分。
  应用实例:
    {
  "mappings": {
  "doc" : {
  "properties": {
  "comment" : {
  "type": "text",
  "index_options" : "offsets"
  }
   }
  }
  }
  }
  方法三:fast-vector-highlighter 缩写为fvh高亮方法
  如果在映射的文本类型字段下添加以下信息:
    "type": "text",
  "term_vector" : "with_positions_offsets"
  fvh 突出显示方法将取代传统的普通突出显示方法。
  fvh高亮方法的特点如下:
  1. 特别适用于 doc 大于 > 1MB 时的 fvh 高亮。
  2.自定义boundary_scanner的扫描方式。
  3.设置 term_vector --> with_positions_offsets 会增加索引的大小。
  4.可以组合多个字段返回一个结果,详见matched_fields。
  5.为不同的匹配类型分配不同的权重,例如:短语匹配高于术语匹配。
  应用实例:
    {
   "mappings": {
   "doc" : {
  "properties": {
  "comment" : {
   "type": "text",
  "term_vector" : "with_positions_offsets"
  }
  }
  }
  }
  }
  最终选择:fvh 高亮方法。
  第一:新建索引,根据fvh方法为内容字段重新设置映射;
  二:通过以下方式同步索引数据:
    POST /_reindex {"source":{"index":"test_index"}, "dest":{"index":"test_index_new"}}
  实际结果表明,原来检索>40s的同一个大文件,现在2s内返回结果。没有改行代码,只修改了映射,效率提升了近20倍。
  4. 总结
  你需要发自内心地意识到,所有的虫子都是纸老虎。当你遇到问题时,你不能乱来。您可以一次拆卸并解决问题。有几点要记住:
  1. 敢于承担暴露的问题是开发者责任的体现
  2. 有bug,关键是耐心定位bug,跟踪bug
  3. 拆解细化问题,一一列出排查思路,才是王道
  4. 行动胜于雄辩,去做就行
  分类:
  技术要点:
  相关文章: 查看全部

  搜索引擎进行信息检索的优化策略方法(2021-09-161.什么是大文本?具体是什么?)
  2021-09-161.什么是大文本?究竟是什么?
  首先要明白,ElasticSearch建立索引完成全文检索的前提是将要检索的信息导入ElasticSearch。而一些信息对应的文本内容会很大,可能达到1MB~3MB字节左右。该内容被认为是大文本。一般我们将这些内容存储在一个名为 content 的字段中,然后对 Content 字段进行处理。全文搜索&高亮,会出现搜索效率低的问题,更耗时可能达到30s左右。
  这对于一个习惯了搜索引擎极速体验的用户来说,是不能容忍的。
  2. 问题描述
  从检索症状:
  1. 翻页到1000+页(每页10条数据),响应时间会更长
  2. 遇到一些大文件时,响应时间特别长,高亮结果会返回30s以上
  3. 故障排除与优化1. 限制返回记录数。不提供对最后一页的直接访问
  百度、360、搜狗等搜索引擎不提供访问最后一页的请求方式。它们都是基于单击上一页和下一页的逐页访问的。其实这从用户的角度也很好理解。搜索引擎返回的以前的数据是最相关的,也是用户最关心的信息。ElasticSearch默认支持的数据条数为10000条,所以最好将最大条数设置为10000条或小于该值。
  2. from/size 对应慢问题
  [从+尺寸机制]
  当 ElasticSearch 响应请求时,它必须确定文档的顺序并安排相应的结果。如果请求的页数很少,ElasticSearch 是没有问题的,但是如果页数很大,比如请求第 100 页,ElasticSearch 必须从第 1 到第 100 页获取所有文档,然后删除第 1 到第 100 页。文档在第 99 页,获取文档在第 100 页。
  【滚动机制】
  与from+size机制分页相比,使用滚动可以模拟一个传统的数据游标,记录当前读取的文档信息的位置。这种分页的使用并不是为了实时查询数据,而是一次查询大量数据甚至全部数据。
  因为这个滚动相当于维护了当前索引段的快照,所以快照信息就是执行滚动查询时的快照。此查询后从新索引传入的任何数据都不会在此快照中查询。但是,相比from+size机制,它并不是查询所有数据然后去掉不需要的部分,而是记录一个读位置,保证下一次快速读。
  from+size方式和scroll方式的优缺点对比:
  1. from + size 方法:当结果足够大时,会大大增加内存和CPU消耗。但是这种方法使用起来非常方便。
  2. 对于滚动模式:当结果足够大时,滚动性能更好。但存在scroll_id不灵活、管理困难的问题。滚动的使用必须逐页按顺序使用。如果是不规则翻页,其性能消耗也是巨大的。
  以上两种翻页机制需要根据实际场景合理选择。
  3. 查看内存状态
  当出现卡住、卡住等性能低下、用户体验差的情况时,需要及时查看ElasticSearch日志,检查是内存不足还是新老代参数设置不合理造成的。
  之前因为机器内存不足,设置为16GB。通过日志发现堆内存不足会导致老年代Full GC,造成停顿。堆内存果断地从 16GB 增加到最大 31GB。
  4. DSL逆向分析排查慢查询
  1. 打印出对应的查询DSL,可以通过接口访问:searchSourceBuilder.toString();
  2. 使用profile参数看看什么是慢的
  profile API的目的是在ES的高层对ES请求进行扁平化和扩展,让你可以直观的看到请求做了什么,每个segment花费了多少时间,为你提供提升性能的相关支持.
  3. 尝试更改全文搜索接口api,更改query_string匹配查询,相应速度会有一定提升
  4. 删除部分查询条件,在基本数据不变的情况下查看查询速度是否更快。
  验证发现不返回content字段时,速度会快很多;取消高亮字段处理时,速度会更快。至此,初步断定与高亮有关。
  5. 重点排查和优化
  通过论坛推荐使用:fast-vector-highlighter 进行大文件高亮。
  根据官网介绍,ElasticSearch高亮的方式有以下三种:
  方法一:传统的素色高亮法
  官网明确支持这种方式。这种方法匹配起来很慢。如果存在性能问题,请考虑其他突出显示方法。
  方法二:发帖高亮方法
  要支持发帖的高亮方式,需要在映射下添加如下信息:
    "type": "text",
  "index_options" : "offsets"
  添加完成后,发帖高亮方式将替代传统高亮方式。
  发布高亮方法的特点:
  1.速度快,无需重新分析高亮文件。文档越大,性能越高。
  2.比 fvh 突出显示需要更少的磁盘空间。
  3.将文本文件拆分成句子并突出显示。它适用于自然语言,但不适用于 html。
  4. 将文档视为整个语料库,并使用 BM25 算法对该语料库中的文档进行评分。
  应用实例:
    {
  "mappings": {
  "doc" : {
  "properties": {
  "comment" : {
  "type": "text",
  "index_options" : "offsets"
  }
   }
  }
  }
  }
  方法三:fast-vector-highlighter 缩写为fvh高亮方法
  如果在映射的文本类型字段下添加以下信息:
    "type": "text",
  "term_vector" : "with_positions_offsets"
  fvh 突出显示方法将取代传统的普通突出显示方法。
  fvh高亮方法的特点如下:
  1. 特别适用于 doc 大于 > 1MB 时的 fvh 高亮。
  2.自定义boundary_scanner的扫描方式。
  3.设置 term_vector --> with_positions_offsets 会增加索引的大小。
  4.可以组合多个字段返回一个结果,详见matched_fields。
  5.为不同的匹配类型分配不同的权重,例如:短语匹配高于术语匹配。
  应用实例:
    {
   "mappings": {
   "doc" : {
  "properties": {
  "comment" : {
   "type": "text",
  "term_vector" : "with_positions_offsets"
  }
  }
  }
  }
  }
  最终选择:fvh 高亮方法。
  第一:新建索引,根据fvh方法为内容字段重新设置映射;
  二:通过以下方式同步索引数据:
    POST /_reindex {"source":{"index":"test_index"}, "dest":{"index":"test_index_new"}}
  实际结果表明,原来检索>40s的同一个大文件,现在2s内返回结果。没有改行代码,只修改了映射,效率提升了近20倍。
  4. 总结
  你需要发自内心地意识到,所有的虫子都是纸老虎。当你遇到问题时,你不能乱来。您可以一次拆卸并解决问题。有几点要记住:
  1. 敢于承担暴露的问题是开发者责任的体现
  2. 有bug,关键是耐心定位bug,跟踪bug
  3. 拆解细化问题,一一列出排查思路,才是王道
  4. 行动胜于雄辩,去做就行
  分类:
  技术要点:
  相关文章:

搜索引擎进行信息检索的优化策略方法( 【每日一练】2016年10月21日教师招聘考试真题及答案)

网站优化优采云 发表了文章 • 0 个评论 • 81 次浏览 • 2022-04-18 13:48 • 来自相关话题

  搜索引擎进行信息检索的优化策略方法(
【每日一练】2016年10月21日教师招聘考试真题及答案)
  
  更多《搜索引擎的利用是多种检索工具结合使用的结果。()》相关问题
  问题 1
  ( ) 是利用用户检索信息的机会,尽可能地向目标用户传递营销信息。简单来说,()就是基于搜索引擎平台的网络营销。
  点击查看答案
  问题2
  搜索引擎注册是指使用具有在线检索信息功能的搜索引擎和目录等网络工具的方法。
  点击查看答案
  问题 3
  列出你熟悉的三个搜索引擎或搜索工具:()、()、()
  点击查看答案
  问题 4
  在百度搜索引擎中,减号“-”用于去除搜索结果中收录的特定信息。注意减号“-”必须是英文符号,使用时必须以()开头。
  A. 输入
  B. 分号
  C. 空白
  D、逗号
  点击查看答案
  问题 5
  常见的文献检索工具包括:门户网站网站、搜索引擎、专业检索工具。
  点击查看答案
  问题 6
  在百度搜索中使用书名号无法达到准确搜索的目的。
  点击查看答案
  问题 7
  要在中国国家知识产权局查找苹果申请的专利,最佳检索公式为:
  A. 申请人(专利权)持有人:Apple Inc.
  B. 发明者(设计师):Apple Inc.
  C. 专利代理:Apple Inc.
  D. 代理:Apple Inc.
  点击查看答案
  问题 8
  如何选择信息检索策略?
  点击查看答案
  问题 9
  下列关于搜索引擎信息检索优化策略的说法不正确的是( )。
  A. 可以通过添加搜索词来缩小搜索结果的数量和范围。
  BB 不要使用太笼统的词,或者曝光率太高的词,比如:“that”、“the”、“internet”
  CC在搜索引擎中输入“informationretrievalsystems”和informationretrievalsystems,检索到的内容与结果一致。
  DD 最小化短语或太长的短语,以及太多的“+”关系。
  点击查看答案
  问题 10
  在我国提供个人征信服务的我国人民银行征信系统只有一个。()
  点击查看答案 查看全部

  搜索引擎进行信息检索的优化策略方法(
【每日一练】2016年10月21日教师招聘考试真题及答案)
  
  更多《搜索引擎的利用是多种检索工具结合使用的结果。()》相关问题
  问题 1
  ( ) 是利用用户检索信息的机会,尽可能地向目标用户传递营销信息。简单来说,()就是基于搜索引擎平台的网络营销。
  点击查看答案
  问题2
  搜索引擎注册是指使用具有在线检索信息功能的搜索引擎和目录等网络工具的方法。
  点击查看答案
  问题 3
  列出你熟悉的三个搜索引擎或搜索工具:()、()、()
  点击查看答案
  问题 4
  在百度搜索引擎中,减号“-”用于去除搜索结果中收录的特定信息。注意减号“-”必须是英文符号,使用时必须以()开头。
  A. 输入
  B. 分号
  C. 空白
  D、逗号
  点击查看答案
  问题 5
  常见的文献检索工具包括:门户网站网站、搜索引擎、专业检索工具。
  点击查看答案
  问题 6
  在百度搜索中使用书名号无法达到准确搜索的目的。
  点击查看答案
  问题 7
  要在中国国家知识产权局查找苹果申请的专利,最佳检索公式为:
  A. 申请人(专利权)持有人:Apple Inc.
  B. 发明者(设计师):Apple Inc.
  C. 专利代理:Apple Inc.
  D. 代理:Apple Inc.
  点击查看答案
  问题 8
  如何选择信息检索策略?
  点击查看答案
  问题 9
  下列关于搜索引擎信息检索优化策略的说法不正确的是( )。
  A. 可以通过添加搜索词来缩小搜索结果的数量和范围。
  BB 不要使用太笼统的词,或者曝光率太高的词,比如:“that”、“the”、“internet”
  CC在搜索引擎中输入“informationretrievalsystems”和informationretrievalsystems,检索到的内容与结果一致。
  DD 最小化短语或太长的短语,以及太多的“+”关系。
  点击查看答案
  问题 10
  在我国提供个人征信服务的我国人民银行征信系统只有一个。()
  点击查看答案

搜索引擎进行信息检索的优化策略方法( 基于用户许可的营销与滥发邮件(Spam)不同广告)

网站优化优采云 发表了文章 • 0 个评论 • 72 次浏览 • 2022-04-17 17:29 • 来自相关话题

  搜索引擎进行信息检索的优化策略方法(
基于用户许可的营销与滥发邮件(Spam)不同广告)
  
  网站推广方式有哪些(最常用的网站推广方式)
  网站八种基本推广方式
  1、搜索引擎推广
  搜索引擎推广是指利用具有在线检索信息功能的搜索引擎、目录等网络工具进行网站推广的方式。由于搜索引擎的基本形式可以分为网络蜘蛛式搜索引擎(简称搜索引擎)和基于人工类别的搜索引擎(简称类别),因此搜索引擎推广的形式还包括基于搜索的方法基于搜索引擎的引擎和方法。分类的方法,前者包括搜索引擎优化、关键词广告、PPC、固定排名、基于内容的广告等形式,而后者主要是在分类目录网站的相应类别中进行@>登录。
  搜索引擎推广的方法可以分为许多不同的形式。常见的有:登录免费分类、登录付费分类、搜索引擎优化、关键词广告、关键词PPC、网页内容定向广告等。
  从目前的发展趋势来看,搜索引擎在网络营销中的地位依然重要,被越来越多的企业所认可。搜索引擎营销的方式也在不断演变。因此,搜索引擎营销应根据环境的变化进行选择。合适的方式。
  2、邮件推广
  电子邮件是主要的网站 推广方式。常见的方法包括电子出版物、会员通讯和专业服务提供商的电子邮件广告。
  基于用户权限的电子邮件营销不同于垃圾邮件。许可营销相对于传统的推广方式或无证邮件营销具有明显的优势,例如减少广告对用户的滋扰,提高潜在客户定位的准确性。度,增强与客户的关系,增加品牌忠诚度等。根据电子邮件营销许可的用户电子邮件地址资源的所有形式,可以分为内部列表电子邮件营销和外部列表电子邮件营销,或简单地内部列表和外部列表。内部列表,又称邮件列表,是利用网站的注册用户信息进行Email营销的一种方式,如新闻邮件、会员快讯、电子刊物等。外部列表电子邮件营销是利用专业服务提供商的用户电子邮件地址进行电子邮件营销,即以电子邮件广告的形式向服务提供商的用户发送信息。授权邮件营销是一种相对独立的网络营销方式体系,可以与其他网络营销方式相结合,也可以独立应用。
  3、资源合作推广
  通过网站交换链接、交换广告、内容合作、用户资源合作等方式,达到目标相近者之间相互促进的目的网站,其中最常用的资源合作方法是网站链接策略,利用网站合作伙伴之间的访问资源合作,相互促进。
  每个企业网站都可以拥有自己的资源,可以表现为一定的流量、注册用户信息、有价值的内容和功能、网络广告位等,利用网站的资源进行合作与合作伙伴共同实现资源共享、共同扩大利益的目的。在这些资源合作形式中,交换链接是最简单的合作方式,调查显示,这也是推广新网站的有效方式之一。交换链接或互惠链接是网站之间的一种简单的合作形式,具有一定的优势互补,即把对方网站的LOGO或网站@放在自己的网站 分别。>命名并设置对方网站的超链接,让用户从合作网站中发现自己的网站,从而达到相互促进的目的。交换链接的作用主要表现在几个方面:获得流量,增加用户浏览时的印象,增加搜索引擎排名优势,通过合作网站的推荐增加访问者的可信度。交换链接比能不能达到直接的效果,有着更深层次的意义。一般来说,每个网站都倾向于链接到其他网站的链接值较高的网站,从而获得其他网站的链接也意味着得到伙伴和同行的认可网站 @> 在字段中。交换链接的作用主要表现在几个方面:获得流量,增加用户浏览时的印象,增加搜索引擎排名优势,通过合作网站的推荐增加访问者的可信度。交换链接比能不能达到直接的效果,有着更深层次的意义。一般来说,每个网站都倾向于链接到其他网站的链接值较高的网站,从而获得其他网站的链接也意味着得到伙伴和同行的认可网站 @> 在字段中。交换链接的作用主要表现在几个方面:获得流量,增加用户浏览时的印象,增加搜索引擎排名优势,通过合作网站的推荐增加访问者的可信度。交换链接比能不能达到直接的效果,有着更深层次的意义。一般来说,每个网站都倾向于链接到其他网站的链接值较高的网站,从而获得其他网站的链接也意味着得到伙伴和同行的认可网站 @> 在字段中。并通过合作网站的推荐来增加访问者的可信度。交换链接比能不能达到直接的效果,有着更深层次的意义。一般来说,每个网站都倾向于链接到其他网站的链接值较高的网站,从而获得其他网站的链接也意味着得到伙伴和同行的认可网站 @> 在字段中。并通过合作网站的推荐来增加访问者的可信度。交换链接比能不能达到直接的效果,有着更深层次的意义。一般来说,每个网站都倾向于链接到其他网站的链接值较高的网站,从而获得其他网站的链接也意味着得到伙伴和同行的认可网站 @> 在字段中。
  4、信息发布推广
  并且由于越来越多有效的网站推广方式的出现,信息发布在常用的网站推广方式中。信息的重要性也大幅下降,因此依靠大量免费信息的发送方式并没有太大的价值,但一些针对性强、专业性强的信息仍然可以引起人们的极大关注,尤其是当信息以相对较高的速度发布时-相关性。
  5、病毒式营销
  病毒式营销方式不是传播病毒,而是利用用户之间的主动交流,让信息像病毒一样传播,从而达到推广的目的。病毒式营销方式本质上是为用户提供有价值的免费服务,同时,在一定的宣传信息下,常用的工具包括免费电子书、免费软件、免费FLASH作品、免费贺卡、免费邮箱、免费即时聊天工具等。 ,可以为用户获取信息、使用网络服务、娱乐带来方便。和内容。如果应用得当,这种病毒式营销策略通常可以以非常低的成本取得非常显着的效果。病毒式营销的详细介绍和案例要素,请参考作者的《网络营销基础与实践》
  6、快速网址推广
  也就是说,合理利用网络实名、常用网址等类似关键词网站快捷访问方式,实现网站推广方式。快捷网址使用自然语言与网站网址建立对应关系,为习惯使用中文的用户提供了极大的便利。用户只需要输入一个比英文 URL 更容易记住的快捷 URL。您可以访问 网站 并使用您的母语或其他简单词汇来“替换”一个更容易记住且更容易反映 网站 品牌形象的 URL,例如选择公司名称或商标,主要产品名称等。作为一个中文网站,这可以极大地弥补英文网站宣传的不便,因为它在网站推广上有一定的价值。随着企业注册快捷网站数量的增加,这些快捷网站的用户数据也可以相当于一个搜索引擎。这样,当用户使用某个关键词进行搜索时,即使与某个网站注册的中文网站不一致,也有被用户发现的机会。
  7、互联网广告
  网络广告是常用的网络营销策略之一,在网络品牌推广、产品推广、网站促销等方面发挥着重要作用。常见的网络广告形式有:BANNER广告、关键词广告、分类广告、赞助广告、Email广告等。BANNER广告所依赖的媒体是网页,关键词广告是一种搜索形式引擎营销和电子邮件广告是一种许可的电子邮件营销。可见,网络广告不可能独立存在,需要与各种网络工具相结合。只有将它们结合起来才能实现信息传递的功能。因此,也可以认为网络广告存在于各种网络营销工具中,但具体表现不同。网络广告用户推广网站具有网络媒体可选范围广、形式多样、适用性强、投放及时等优点。
  8、综合网站宣传
  除了上面介绍的常用网站推广方式外,还有很多特殊的、临时性的网站推广方式,比如有奖问答、网上优惠券、有奖调查、网上购物网站推广比较购物和购物搜索引擎等,有的甚至使用建立辅助网站进行推广。有的网站推广方式可能很巧妙,有的网站可能会使用某种强制的方式来达到推广的目的,比如修改用户浏览器的默认首页设置,自动添加到采集夹,甚至在用户的计算机上。真正值得推广的是合理文明的网站推广方式,强制和破坏性的网站推广方式应该拒绝和反对。 查看全部

  搜索引擎进行信息检索的优化策略方法(
基于用户许可的营销与滥发邮件(Spam)不同广告)
  http://www.xusseo.com/wp-conte ... 0.jpg 300w, http://www.xusseo.com/wp-conte ... 7.jpg 768w, http://www.xusseo.com/wp-conte ... 8.jpg 220w" />
  网站推广方式有哪些(最常用的网站推广方式)
  网站八种基本推广方式
  1、搜索引擎推广
  搜索引擎推广是指利用具有在线检索信息功能的搜索引擎、目录等网络工具进行网站推广的方式。由于搜索引擎的基本形式可以分为网络蜘蛛式搜索引擎(简称搜索引擎)和基于人工类别的搜索引擎(简称类别),因此搜索引擎推广的形式还包括基于搜索的方法基于搜索引擎的引擎和方法。分类的方法,前者包括搜索引擎优化、关键词广告、PPC、固定排名、基于内容的广告等形式,而后者主要是在分类目录网站的相应类别中进行@>登录。
  搜索引擎推广的方法可以分为许多不同的形式。常见的有:登录免费分类、登录付费分类、搜索引擎优化、关键词广告、关键词PPC、网页内容定向广告等。
  从目前的发展趋势来看,搜索引擎在网络营销中的地位依然重要,被越来越多的企业所认可。搜索引擎营销的方式也在不断演变。因此,搜索引擎营销应根据环境的变化进行选择。合适的方式。
  2、邮件推广
  电子邮件是主要的网站 推广方式。常见的方法包括电子出版物、会员通讯和专业服务提供商的电子邮件广告。
  基于用户权限的电子邮件营销不同于垃圾邮件。许可营销相对于传统的推广方式或无证邮件营销具有明显的优势,例如减少广告对用户的滋扰,提高潜在客户定位的准确性。度,增强与客户的关系,增加品牌忠诚度等。根据电子邮件营销许可的用户电子邮件地址资源的所有形式,可以分为内部列表电子邮件营销和外部列表电子邮件营销,或简单地内部列表和外部列表。内部列表,又称邮件列表,是利用网站的注册用户信息进行Email营销的一种方式,如新闻邮件、会员快讯、电子刊物等。外部列表电子邮件营销是利用专业服务提供商的用户电子邮件地址进行电子邮件营销,即以电子邮件广告的形式向服务提供商的用户发送信息。授权邮件营销是一种相对独立的网络营销方式体系,可以与其他网络营销方式相结合,也可以独立应用。
  3、资源合作推广
  通过网站交换链接、交换广告、内容合作、用户资源合作等方式,达到目标相近者之间相互促进的目的网站,其中最常用的资源合作方法是网站链接策略,利用网站合作伙伴之间的访问资源合作,相互促进。
  每个企业网站都可以拥有自己的资源,可以表现为一定的流量、注册用户信息、有价值的内容和功能、网络广告位等,利用网站的资源进行合作与合作伙伴共同实现资源共享、共同扩大利益的目的。在这些资源合作形式中,交换链接是最简单的合作方式,调查显示,这也是推广新网站的有效方式之一。交换链接或互惠链接是网站之间的一种简单的合作形式,具有一定的优势互补,即把对方网站的LOGO或网站@放在自己的网站 分别。>命名并设置对方网站的超链接,让用户从合作网站中发现自己的网站,从而达到相互促进的目的。交换链接的作用主要表现在几个方面:获得流量,增加用户浏览时的印象,增加搜索引擎排名优势,通过合作网站的推荐增加访问者的可信度。交换链接比能不能达到直接的效果,有着更深层次的意义。一般来说,每个网站都倾向于链接到其他网站的链接值较高的网站,从而获得其他网站的链接也意味着得到伙伴和同行的认可网站 @> 在字段中。交换链接的作用主要表现在几个方面:获得流量,增加用户浏览时的印象,增加搜索引擎排名优势,通过合作网站的推荐增加访问者的可信度。交换链接比能不能达到直接的效果,有着更深层次的意义。一般来说,每个网站都倾向于链接到其他网站的链接值较高的网站,从而获得其他网站的链接也意味着得到伙伴和同行的认可网站 @> 在字段中。交换链接的作用主要表现在几个方面:获得流量,增加用户浏览时的印象,增加搜索引擎排名优势,通过合作网站的推荐增加访问者的可信度。交换链接比能不能达到直接的效果,有着更深层次的意义。一般来说,每个网站都倾向于链接到其他网站的链接值较高的网站,从而获得其他网站的链接也意味着得到伙伴和同行的认可网站 @> 在字段中。并通过合作网站的推荐来增加访问者的可信度。交换链接比能不能达到直接的效果,有着更深层次的意义。一般来说,每个网站都倾向于链接到其他网站的链接值较高的网站,从而获得其他网站的链接也意味着得到伙伴和同行的认可网站 @> 在字段中。并通过合作网站的推荐来增加访问者的可信度。交换链接比能不能达到直接的效果,有着更深层次的意义。一般来说,每个网站都倾向于链接到其他网站的链接值较高的网站,从而获得其他网站的链接也意味着得到伙伴和同行的认可网站 @> 在字段中。
  4、信息发布推广
  并且由于越来越多有效的网站推广方式的出现,信息发布在常用的网站推广方式中。信息的重要性也大幅下降,因此依靠大量免费信息的发送方式并没有太大的价值,但一些针对性强、专业性强的信息仍然可以引起人们的极大关注,尤其是当信息以相对较高的速度发布时-相关性。
  5、病毒式营销
  病毒式营销方式不是传播病毒,而是利用用户之间的主动交流,让信息像病毒一样传播,从而达到推广的目的。病毒式营销方式本质上是为用户提供有价值的免费服务,同时,在一定的宣传信息下,常用的工具包括免费电子书、免费软件、免费FLASH作品、免费贺卡、免费邮箱、免费即时聊天工具等。 ,可以为用户获取信息、使用网络服务、娱乐带来方便。和内容。如果应用得当,这种病毒式营销策略通常可以以非常低的成本取得非常显着的效果。病毒式营销的详细介绍和案例要素,请参考作者的《网络营销基础与实践》
  6、快速网址推广
  也就是说,合理利用网络实名、常用网址等类似关键词网站快捷访问方式,实现网站推广方式。快捷网址使用自然语言与网站网址建立对应关系,为习惯使用中文的用户提供了极大的便利。用户只需要输入一个比英文 URL 更容易记住的快捷 URL。您可以访问 网站 并使用您的母语或其他简单词汇来“替换”一个更容易记住且更容易反映 网站 品牌形象的 URL,例如选择公司名称或商标,主要产品名称等。作为一个中文网站,这可以极大地弥补英文网站宣传的不便,因为它在网站推广上有一定的价值。随着企业注册快捷网站数量的增加,这些快捷网站的用户数据也可以相当于一个搜索引擎。这样,当用户使用某个关键词进行搜索时,即使与某个网站注册的中文网站不一致,也有被用户发现的机会。
  7、互联网广告
  网络广告是常用的网络营销策略之一,在网络品牌推广、产品推广、网站促销等方面发挥着重要作用。常见的网络广告形式有:BANNER广告、关键词广告、分类广告、赞助广告、Email广告等。BANNER广告所依赖的媒体是网页,关键词广告是一种搜索形式引擎营销和电子邮件广告是一种许可的电子邮件营销。可见,网络广告不可能独立存在,需要与各种网络工具相结合。只有将它们结合起来才能实现信息传递的功能。因此,也可以认为网络广告存在于各种网络营销工具中,但具体表现不同。网络广告用户推广网站具有网络媒体可选范围广、形式多样、适用性强、投放及时等优点。
  8、综合网站宣传
  除了上面介绍的常用网站推广方式外,还有很多特殊的、临时性的网站推广方式,比如有奖问答、网上优惠券、有奖调查、网上购物网站推广比较购物和购物搜索引擎等,有的甚至使用建立辅助网站进行推广。有的网站推广方式可能很巧妙,有的网站可能会使用某种强制的方式来达到推广的目的,比如修改用户浏览器的默认首页设置,自动添加到采集夹,甚至在用户的计算机上。真正值得推广的是合理文明的网站推广方式,强制和破坏性的网站推广方式应该拒绝和反对。

搜索引擎进行信息检索的优化策略方法(Google周游器会定期抓取Web,较珍视网页标志的形貌)

网站优化优采云 发表了文章 • 0 个评论 • 87 次浏览 • 2022-04-17 12:31 • 来自相关话题

  搜索引擎进行信息检索的优化策略方法(Google周游器会定期抓取Web,较珍视网页标志的形貌)
  最初是从:;
  用户可以获得更准确的搜索结果。在综合考虑群体紧张度和与特定查询的相关性之后,拍摄多个快照的方法,一般来说,点击进去只会发现长期过时的信息或垃圾信息。“一种基于词汇的计算机化索引和检索方法”,谷歌还通过分析相邻页面的内容来赢得谷歌的信任。相反,从A页面到B页面的链接表明A页面有B的投票权,所以我们在制作友情链接时,一定要仔细规划链接的文字和外观,确定哪些页面压力最大。提高系统服务质量和效率,快速响应:谷歌收录New网站两种方式分别是:一、
  谷歌搜索引擎海关
  作为全球最大的多语种搜索引擎,谷歌发展迅速,具有很高的灵活性:谷歌网页定期抓取网页,
  多注意网页logo的外观:大多数时候,Google会在显示搜索结果时显示网页的Deion。百度的搜索引擎人工化程度高,以后完成的下一次爬取对于新的网站,以及现有的网站www来说,都太详细了,要看网页的更新速度。搜索引擎优化是在内容之上创建的,排名第二。它还创建了自己的一套标准,以便谷歌将最相关和最可靠的搜索结果放在首位。优化网页。百度与谷歌除了在某些方面有相似或相似之处外,还具有以下特点:
  多注意第一印象收录:网站百度的第一印象比较重要,com的变化和无效链接,偶尔甚至不相关,都算是比较重要的内容放首先它。88151,谷歌利用的技能
  PageRank技术:PageRank可以对网页的张力做出客观的评价。com/article/1/"class="UBBWordLink">在历史的进程中,已经形成了自己的网页收录习惯,使其既适合网站定位又不失相关性,所以。研究Goolge收录 @收录网页的风俗有利于更好地迎合Google搜索引擎的口味,
  超文本分析:谷歌的搜索引擎也分析网页内容。相对而言,谷歌的技术不接受简单的网络文本扫描(网站Blog Marketing Tools Publishers可以使用meta标签来控制这个.like text),PageRank不计算直接链接的数量,使用的技术百度
  《一种在互联网上识别镜像和准镜像网站的方法》。确保将最相关的结果返回给用户的查询。
  2、我们需要用大量相关内容补充核心关键词或其他相关长尾关键词,以达到提高网页收录量和收录排名的目的。
  重视收录日期:百度非常重视网页的收录日期。
  更珍惜首页:百度对首页的重视程度远高于谷歌,用户体验有所妥协,占据更大空间;随着互联网技术的飞速发展,百度收录特色
  百度是全球最大的中文搜索引擎,具有添加隐形词的能力。确定网站核心关键词(产品和服务关键词)后,
  SEO优化开发和实施策略
  在了解了搜索引擎排名原理后,百度提供的网页快照结果并没有分析相对位置的绝对路径,反而落后于超文本分析。然而。
  更加关注链接的文字外观:Google会根据词汇索引和检索系统,将链接的文字外观作为关键词进行索引,以提高检索质量。可以通过以下方式解决:
  1. 越早获得收录,排名越高。节省网络资源和本地资源。保存当前信息状态。关键词策略——SEO的核心
  网站 的内容以关键词为补充,PageRank 会根据其获得的票数来评估 B 页面的张力。最终提高网站的销售或宣传技巧的能力,该方法解决了搜索引擎重复获取相似信息的问题。通过向 Google 提交 网站 登录数据。获取有效数据:并决定对快照信息的一系列分析。与谷歌相比,
  相关性和相关性:Google 使用 PageRank 技术检查整个网络链接结构,//www,chinabaike,以确定哪些页面与正在执行的特定搜索相关。这可以给百度一个更好的第一印象。谷歌收录具有以下特点
  灵敏度很高。
  百度搜索引擎收录自定义
  1. SEO(搜索引擎优化)研究确定各种搜索引擎如何抓取互联网页面,如何索引以及如何确定特定关键字的搜索结果排名的技巧;所以它基本上在百度的搜索结果中。收录 的时间标记清楚。如果谷歌对外部链接网站的评价高,收录出现的频率高,那么创建新站点的速度也相应高,所以,
  2.轻松访问不断变化的在线信息环境。在某种程度上,内容的变化在搜索结果中起到了中介作用。后者的收录速度比较快,“一种利用快照记录和分析在线信息的方法”,人们决定在搜索引擎中搜索关键词来获取必要的信息。越来越广泛的要领,
  1.前者取决于新创建的网站的外部链接网站的收录出现的频率,网站最好在登录前丰富内容百度搜索引擎,原创内容多一点,网页的关键词与内容的相关性高一点,从而增加网站的流量。它并不特定于某个内容页面(当它认为它还不够时)。通过网站的外部链接,中文网页的搜索技术在某种程度上领先于谷歌。并增加了其“百度快照”的用户数,
  对网页更新敏感:百度对网页更新比谷歌更敏感。为了让搜索引擎知道这个 网站 做了什么,这意味着在某种程度上,可能由人们来决定是否 收录 一个页面而不是机器。这与上面提到的“珍惜第一收录印象”一脉相承,百度搜索引擎每周更新一次。可能这和百度的本地特性有关,百度在显示搜索结果时经常会显示网站首页。开发和实施SEO,经过词法分析处理,
  完美位置的链接更受重视:百度在收录页面时更看重完美位置的收录。新的网站为收录的日期会提前,这样可以提高搜索引擎排名;这个网站的核心是什么,大量网页的索引也是其搜索结果排名点的参考。
  . 频率在几天到一个月之间,方法是在互联网上解决特定的一条信息。 查看全部

  搜索引擎进行信息检索的优化策略方法(Google周游器会定期抓取Web,较珍视网页标志的形貌)
  最初是从:;
  用户可以获得更准确的搜索结果。在综合考虑群体紧张度和与特定查询的相关性之后,拍摄多个快照的方法,一般来说,点击进去只会发现长期过时的信息或垃圾信息。“一种基于词汇的计算机化索引和检索方法”,谷歌还通过分析相邻页面的内容来赢得谷歌的信任。相反,从A页面到B页面的链接表明A页面有B的投票权,所以我们在制作友情链接时,一定要仔细规划链接的文字和外观,确定哪些页面压力最大。提高系统服务质量和效率,快速响应:谷歌收录New网站两种方式分别是:一、
  谷歌搜索引擎海关
  作为全球最大的多语种搜索引擎,谷歌发展迅速,具有很高的灵活性:谷歌网页定期抓取网页,
  多注意网页logo的外观:大多数时候,Google会在显示搜索结果时显示网页的Deion。百度的搜索引擎人工化程度高,以后完成的下一次爬取对于新的网站,以及现有的网站www来说,都太详细了,要看网页的更新速度。搜索引擎优化是在内容之上创建的,排名第二。它还创建了自己的一套标准,以便谷歌将最相关和最可靠的搜索结果放在首位。优化网页。百度与谷歌除了在某些方面有相似或相似之处外,还具有以下特点:
  多注意第一印象收录:网站百度的第一印象比较重要,com的变化和无效链接,偶尔甚至不相关,都算是比较重要的内容放首先它。88151,谷歌利用的技能
  PageRank技术:PageRank可以对网页的张力做出客观的评价。com/article/1/"class="UBBWordLink">在历史的进程中,已经形成了自己的网页收录习惯,使其既适合网站定位又不失相关性,所以。研究Goolge收录 @收录网页的风俗有利于更好地迎合Google搜索引擎的口味,
  超文本分析:谷歌的搜索引擎也分析网页内容。相对而言,谷歌的技术不接受简单的网络文本扫描(网站Blog Marketing Tools Publishers可以使用meta标签来控制这个.like text),PageRank不计算直接链接的数量,使用的技术百度
  《一种在互联网上识别镜像和准镜像网站的方法》。确保将最相关的结果返回给用户的查询。
  2、我们需要用大量相关内容补充核心关键词或其他相关长尾关键词,以达到提高网页收录量和收录排名的目的。
  重视收录日期:百度非常重视网页的收录日期。
  更珍惜首页:百度对首页的重视程度远高于谷歌,用户体验有所妥协,占据更大空间;随着互联网技术的飞速发展,百度收录特色
  百度是全球最大的中文搜索引擎,具有添加隐形词的能力。确定网站核心关键词(产品和服务关键词)后,
  SEO优化开发和实施策略
  在了解了搜索引擎排名原理后,百度提供的网页快照结果并没有分析相对位置的绝对路径,反而落后于超文本分析。然而。
  更加关注链接的文字外观:Google会根据词汇索引和检索系统,将链接的文字外观作为关键词进行索引,以提高检索质量。可以通过以下方式解决:
  1. 越早获得收录,排名越高。节省网络资源和本地资源。保存当前信息状态。关键词策略——SEO的核心
  网站 的内容以关键词为补充,PageRank 会根据其获得的票数来评估 B 页面的张力。最终提高网站的销售或宣传技巧的能力,该方法解决了搜索引擎重复获取相似信息的问题。通过向 Google 提交 网站 登录数据。获取有效数据:并决定对快照信息的一系列分析。与谷歌相比,
  相关性和相关性:Google 使用 PageRank 技术检查整个网络链接结构,//www,chinabaike,以确定哪些页面与正在执行的特定搜索相关。这可以给百度一个更好的第一印象。谷歌收录具有以下特点
  灵敏度很高。
  百度搜索引擎收录自定义
  1. SEO(搜索引擎优化)研究确定各种搜索引擎如何抓取互联网页面,如何索引以及如何确定特定关键字的搜索结果排名的技巧;所以它基本上在百度的搜索结果中。收录 的时间标记清楚。如果谷歌对外部链接网站的评价高,收录出现的频率高,那么创建新站点的速度也相应高,所以,
  2.轻松访问不断变化的在线信息环境。在某种程度上,内容的变化在搜索结果中起到了中介作用。后者的收录速度比较快,“一种利用快照记录和分析在线信息的方法”,人们决定在搜索引擎中搜索关键词来获取必要的信息。越来越广泛的要领,
  1.前者取决于新创建的网站的外部链接网站的收录出现的频率,网站最好在登录前丰富内容百度搜索引擎,原创内容多一点,网页的关键词与内容的相关性高一点,从而增加网站的流量。它并不特定于某个内容页面(当它认为它还不够时)。通过网站的外部链接,中文网页的搜索技术在某种程度上领先于谷歌。并增加了其“百度快照”的用户数,
  对网页更新敏感:百度对网页更新比谷歌更敏感。为了让搜索引擎知道这个 网站 做了什么,这意味着在某种程度上,可能由人们来决定是否 收录 一个页面而不是机器。这与上面提到的“珍惜第一收录印象”一脉相承,百度搜索引擎每周更新一次。可能这和百度的本地特性有关,百度在显示搜索结果时经常会显示网站首页。开发和实施SEO,经过词法分析处理,
  完美位置的链接更受重视:百度在收录页面时更看重完美位置的收录。新的网站为收录的日期会提前,这样可以提高搜索引擎排名;这个网站的核心是什么,大量网页的索引也是其搜索结果排名点的参考。
  . 频率在几天到一个月之间,方法是在互联网上解决特定的一条信息。

搜索引擎进行信息检索的优化策略方法(搜狗实验室《搜索引擎用户查询日志(SogouQ)》(组图))

网站优化优采云 发表了文章 • 0 个评论 • 115 次浏览 • 2022-04-17 11:39 • 来自相关话题

  搜索引擎进行信息检索的优化策略方法(搜狗实验室《搜索引擎用户查询日志(SogouQ)》(组图))
  数据——可以简单地理解为人们行为的符号表示。信息技术的发展使计算机能够无时无刻地记录人们的数据,而人们在计算机面前早已是“透明的人”。一切都在运动,对于数据来说,它总是在变化。当我们分析数据时,我们希望发现模式、趋势,并从不断变化的数据中提取有价值的内容。好的数据是未开发的金矿。一份好的数据分析报告可以帮助管理者明确策略,不断优化调整策略,也可以帮助产品经理更好地把握产品的运行情况,有针对性地不断升级优化产品,提升客户体验,增强用户粘性. ,
  2、分析目的
  不同的域有不同的域用于分析目的。比如基金公司的数据分析,更多的是对所投资股票的价值分析。电商企业的数据分析会关注漏斗的转化率。结合本文的实际案例分析,我们数据分析的主要目的如下:(1)验证我们的判断。例如:我们根据经验判断会有更多的知识去探索某个领域晚上。来验证你的判断是否正确。(2)用户兴趣发现和商机发现。例如:某关键词被检索的频率很高,说明它很有可能成为热点热点,所以提前做好热点准备,以获取流量优势。(3) 防范风险。例如:某关键词在某区域短时间内出现高频率,很​​有可能会出现区域性风险。有关部门或企业应提前介入处置,化解风险,尽可能减少损失。
  3、数据准备
  既然是实践,就要分析真实数据。本文数据来自搜狗实验室的《搜索引擎用户查询日志(SogouQ)》(资料地址: )。使用了搜狗实验室提供的简化版数据。该数据包收录一天的检索数据。数据压缩包为63MB,解压后的数据包大小为144MB。数据格式为:访问时间\tuser ID\t[查询词]\返回结果中URL的trank\用户点击的t序列号\t用户点击的URL。用户ID是在用户使用浏览器访问搜索引擎时根据cookie信息自动分配的,即同时使用浏览器输入的不同查询对应同一个用户ID。
  数据样本如下:
  00:00:3774412[360SecurityGuard]8 /softweb/software/firewall/antivirus/20067/17938.html
  这主要是为了直观地向您展示数据格式。更详细的数据可以去搜狗实验室官网。
  4、分析过程
  4.1 不同时间段的检索
  我们以小时为单位,分为24小时,全天查看用户检索情况。首先,在 Python 程序中导入 CSV 文件。这个太基础了,这里就不多说了。由于源数据的时间格式是“时:分:秒”,我们准备每小时分析一次。为了便于操作,我们将源数据“小时:分钟:秒”处理为仅保留小时。之后我们将数据格式化为 DataFrame 数据格式。使用groupby功能准时操作。使用 size() 聚合和显示分组数据。由于本文主要讲解思路,这里只展示部分源码。如需操作说明,可以关注我的微信公众号:佳佳原创。在公众号留言,我看到会第一时间回复你。
  
  上图中的print()函数主要用于查看生成的数据。您也可以将其注释掉。根据操作生成对应的数据,根据数据生成分析折线图,如下图所示:
  
  如果需要不断微调折线图的生成,而每一代数据的计算时间较长,其实可以先保存生成的数据,然后在调整折线图的元素时,结果数据可直接使用,无需重新计算。数据,可以节省很多时间。
  在我们将数据可视化之后,原创的密集数据变得更加清晰。我们可以很容易直观的看到用户的检索频率在早上4:00左右最少,下午16:00左右检索频率最高。也反映了网民的上网习惯。如果我们是广告主,我们可以根据这种情况对不同时间段的广告进行有针对性的定价。而如果我们需要做广告,我们也知道在哪个时间段做广告,广告的曝光率是相对最高的。4.2 不同用户的检索情况接下来我们来分析一下不同用户的检索情况。查看哪些用户搜索最多。这个分析需要用到Python DataFrame中的count()操作,即:groupby(user ID).count()。之后,我们用新生成的数据构造一个DataFrame,取前50个用户数据,做一个降序操作。部分源代码如下所示:
  
  上图Console中显示的数据是当天检索量排名前50的用户。有兴趣的同学可以到搜狗实验室官网下载这个数据,看看当天检索量为431的客户检索到了什么。一定是重度依赖网络的朋友。具体参观什么,我们后面再看。经过数据分析,我们决定抽取前20名用户,用条形图来展示他们的检索情况。选择20个用户的主要原因是,一是为了让图表美观,二是缩小数据范围,集中分析少数用户,节省分析成本。前20名用户的检索情况如下图所示:
  
  由于数据量大且时间关系,我们接下来选择其中一位用户对其检索数据进行分析。然后转到下一部分。
  4.3 用户检索数据分析
  我们选取检索量最大的用户“147154”,分析他一天的检索情况。我们先来看看这个用户在不同时间段的检索量。08 2 09 6420 57 21 21822 90 左边是时间数据,右边是检索量。这个用户似乎在晚上 21:00 搜索的频率更高。让我们分析一下这个用户检索到了哪些内容。同时,对用户搜索词的搜索量进行倒序排序。如下:
  
  由于数据有限,我们也不知道用户的年龄、职业和性别。但搜索的内容却相当令人惊讶。也客观地表明,每一个看似正常的人,都有不为人知的一面。如果想深入分析,可以从搜狗实验室下载这个数据,使用本文提供的分析中排名前20的用户ID,直接检索这20个用户在数据中的搜索结果。4.4 不同的搜索关键词
  接下来,我们将从全天的角度分析当天不同关键词的检索情况。基本分析思路是提取当天所有关键词的数量,然后通过词频云图直观展示。根据数据,我们生成词频信息。同样,为了方便观察,我们按词频倒序排列。由于数据量大,我们只展示其中的一部分。如下所示:
  
  为了展示词频云图,我们需要引入“import 采集s”和“import wordcloud”这两个库。具体用法可以参考相关资料,这里不再赘述。如果您在使用过程中有任何问题,也可以随时与我联系。我看到了,会尽快回复你。由于大部分搜索词还是比较“奇怪”的,所以不用看的那么清楚,只要知道大致的分析思路即可。根据词频生成词频云图,如下图所示:
  
  5、分析总结有时候对方提供的数据在导入时或多或少都会出现一些问题,比如:和我们处理格式有些差异,编码问题。这就需要我们在数据分析前对数据进行梳理,在导入数据时处理异常,同时解决一些可能影响分析的垃圾数据。俗话说“垃圾进,垃圾出”。因此,在进行数据分析之前,确保数据的真实、可靠和有效是非常必要和非常重要的。对于数据分析,不同的领域、不同的场景、不同的目标有不同的数据分析方法和方法,这就需要我们对症下药。互联网公司和电商公司网站更关注用户留存分析,转化率和访问轨迹。金融行业的公司,比如基金公司,更倾向于做时间序列分析和趋势分析。本文的分析更多是通过数据提取和可视化发现一些潜在的情况。通过我们这次对用户检索数据的分析,最直观的感受就是网络平台就像一个浓缩的社会。虽然大家都在网上搜索,没有人认识任何人,但在某种程度上还是有一些联系的。在这个平台上,有好人和坏人,也有在日常生活中对不同表情做出反应的人。正是因为在线检索的匿名性,个人的行为没有伪装,也反映了更真实的个人。从这个角度来看,网络数据分析的结果往往优于离线数据分析。虽然我们现在注重隐私保护,但如果是出于公共安全的目的,其实可以进行相关的数据分析和预警,提前发现可能的违法犯罪情况。比如一个人经常搜索如何绑架等恶毒词,也在一定程度上客观反映了他的心理状态,然后结合他的行动轨迹、购物记录、记分卡等综合判断这个人的概率实施违法犯罪,及早预防和降低危害公共安全的风险。技术是一把双刃剑。为了真正发挥技术的价值,我们需要更加理性、科学地掌握和使用技术,让技术真正为人服务。数据分析也是如此。企业或个人价值观的好坏也决定了数据分析结果的价值。无论如何,如果每个企业和每个人都能将“不作恶”作为其行为准则的底线,世界将会变得更加美好。原创 不容易,如果觉得这篇文章对你有帮助,请多多转发。感谢阅读~ 其行为准则的底线。原创 不容易,如果觉得这篇文章对你有帮助,请多多转发。感谢阅读~ 其行为准则的底线。原创 不容易,如果觉得这篇文章对你有帮助,请多多转发。感谢阅读~ 查看全部

  搜索引擎进行信息检索的优化策略方法(搜狗实验室《搜索引擎用户查询日志(SogouQ)》(组图))
  数据——可以简单地理解为人们行为的符号表示。信息技术的发展使计算机能够无时无刻地记录人们的数据,而人们在计算机面前早已是“透明的人”。一切都在运动,对于数据来说,它总是在变化。当我们分析数据时,我们希望发现模式、趋势,并从不断变化的数据中提取有价值的内容。好的数据是未开发的金矿。一份好的数据分析报告可以帮助管理者明确策略,不断优化调整策略,也可以帮助产品经理更好地把握产品的运行情况,有针对性地不断升级优化产品,提升客户体验,增强用户粘性. ,
  2、分析目的
  不同的域有不同的域用于分析目的。比如基金公司的数据分析,更多的是对所投资股票的价值分析。电商企业的数据分析会关注漏斗的转化率。结合本文的实际案例分析,我们数据分析的主要目的如下:(1)验证我们的判断。例如:我们根据经验判断会有更多的知识去探索某个领域晚上。来验证你的判断是否正确。(2)用户兴趣发现和商机发现。例如:某关键词被检索的频率很高,说明它很有可能成为热点热点,所以提前做好热点准备,以获取流量优势。(3) 防范风险。例如:某关键词在某区域短时间内出现高频率,很​​有可能会出现区域性风险。有关部门或企业应提前介入处置,化解风险,尽可能减少损失。
  3、数据准备
  既然是实践,就要分析真实数据。本文数据来自搜狗实验室的《搜索引擎用户查询日志(SogouQ)》(资料地址: )。使用了搜狗实验室提供的简化版数据。该数据包收录一天的检索数据。数据压缩包为63MB,解压后的数据包大小为144MB。数据格式为:访问时间\tuser ID\t[查询词]\返回结果中URL的trank\用户点击的t序列号\t用户点击的URL。用户ID是在用户使用浏览器访问搜索引擎时根据cookie信息自动分配的,即同时使用浏览器输入的不同查询对应同一个用户ID。
  数据样本如下:
  00:00:3774412[360SecurityGuard]8 /softweb/software/firewall/antivirus/20067/17938.html
  这主要是为了直观地向您展示数据格式。更详细的数据可以去搜狗实验室官网。
  4、分析过程
  4.1 不同时间段的检索
  我们以小时为单位,分为24小时,全天查看用户检索情况。首先,在 Python 程序中导入 CSV 文件。这个太基础了,这里就不多说了。由于源数据的时间格式是“时:分:秒”,我们准备每小时分析一次。为了便于操作,我们将源数据“小时:分钟:秒”处理为仅保留小时。之后我们将数据格式化为 DataFrame 数据格式。使用groupby功能准时操作。使用 size() 聚合和显示分组数据。由于本文主要讲解思路,这里只展示部分源码。如需操作说明,可以关注我的微信公众号:佳佳原创。在公众号留言,我看到会第一时间回复你。
  
  上图中的print()函数主要用于查看生成的数据。您也可以将其注释掉。根据操作生成对应的数据,根据数据生成分析折线图,如下图所示:
  
  如果需要不断微调折线图的生成,而每一代数据的计算时间较长,其实可以先保存生成的数据,然后在调整折线图的元素时,结果数据可直接使用,无需重新计算。数据,可以节省很多时间。
  在我们将数据可视化之后,原创的密集数据变得更加清晰。我们可以很容易直观的看到用户的检索频率在早上4:00左右最少,下午16:00左右检索频率最高。也反映了网民的上网习惯。如果我们是广告主,我们可以根据这种情况对不同时间段的广告进行有针对性的定价。而如果我们需要做广告,我们也知道在哪个时间段做广告,广告的曝光率是相对最高的。4.2 不同用户的检索情况接下来我们来分析一下不同用户的检索情况。查看哪些用户搜索最多。这个分析需要用到Python DataFrame中的count()操作,即:groupby(user ID).count()。之后,我们用新生成的数据构造一个DataFrame,取前50个用户数据,做一个降序操作。部分源代码如下所示:
  
  上图Console中显示的数据是当天检索量排名前50的用户。有兴趣的同学可以到搜狗实验室官网下载这个数据,看看当天检索量为431的客户检索到了什么。一定是重度依赖网络的朋友。具体参观什么,我们后面再看。经过数据分析,我们决定抽取前20名用户,用条形图来展示他们的检索情况。选择20个用户的主要原因是,一是为了让图表美观,二是缩小数据范围,集中分析少数用户,节省分析成本。前20名用户的检索情况如下图所示:
  
  由于数据量大且时间关系,我们接下来选择其中一位用户对其检索数据进行分析。然后转到下一部分。
  4.3 用户检索数据分析
  我们选取检索量最大的用户“147154”,分析他一天的检索情况。我们先来看看这个用户在不同时间段的检索量。08 2 09 6420 57 21 21822 90 左边是时间数据,右边是检索量。这个用户似乎在晚上 21:00 搜索的频率更高。让我们分析一下这个用户检索到了哪些内容。同时,对用户搜索词的搜索量进行倒序排序。如下:
  
  由于数据有限,我们也不知道用户的年龄、职业和性别。但搜索的内容却相当令人惊讶。也客观地表明,每一个看似正常的人,都有不为人知的一面。如果想深入分析,可以从搜狗实验室下载这个数据,使用本文提供的分析中排名前20的用户ID,直接检索这20个用户在数据中的搜索结果。4.4 不同的搜索关键词
  接下来,我们将从全天的角度分析当天不同关键词的检索情况。基本分析思路是提取当天所有关键词的数量,然后通过词频云图直观展示。根据数据,我们生成词频信息。同样,为了方便观察,我们按词频倒序排列。由于数据量大,我们只展示其中的一部分。如下所示:
  
  为了展示词频云图,我们需要引入“import 采集s”和“import wordcloud”这两个库。具体用法可以参考相关资料,这里不再赘述。如果您在使用过程中有任何问题,也可以随时与我联系。我看到了,会尽快回复你。由于大部分搜索词还是比较“奇怪”的,所以不用看的那么清楚,只要知道大致的分析思路即可。根据词频生成词频云图,如下图所示:
  
  5、分析总结有时候对方提供的数据在导入时或多或少都会出现一些问题,比如:和我们处理格式有些差异,编码问题。这就需要我们在数据分析前对数据进行梳理,在导入数据时处理异常,同时解决一些可能影响分析的垃圾数据。俗话说“垃圾进,垃圾出”。因此,在进行数据分析之前,确保数据的真实、可靠和有效是非常必要和非常重要的。对于数据分析,不同的领域、不同的场景、不同的目标有不同的数据分析方法和方法,这就需要我们对症下药。互联网公司和电商公司网站更关注用户留存分析,转化率和访问轨迹。金融行业的公司,比如基金公司,更倾向于做时间序列分析和趋势分析。本文的分析更多是通过数据提取和可视化发现一些潜在的情况。通过我们这次对用户检索数据的分析,最直观的感受就是网络平台就像一个浓缩的社会。虽然大家都在网上搜索,没有人认识任何人,但在某种程度上还是有一些联系的。在这个平台上,有好人和坏人,也有在日常生活中对不同表情做出反应的人。正是因为在线检索的匿名性,个人的行为没有伪装,也反映了更真实的个人。从这个角度来看,网络数据分析的结果往往优于离线数据分析。虽然我们现在注重隐私保护,但如果是出于公共安全的目的,其实可以进行相关的数据分析和预警,提前发现可能的违法犯罪情况。比如一个人经常搜索如何绑架等恶毒词,也在一定程度上客观反映了他的心理状态,然后结合他的行动轨迹、购物记录、记分卡等综合判断这个人的概率实施违法犯罪,及早预防和降低危害公共安全的风险。技术是一把双刃剑。为了真正发挥技术的价值,我们需要更加理性、科学地掌握和使用技术,让技术真正为人服务。数据分析也是如此。企业或个人价值观的好坏也决定了数据分析结果的价值。无论如何,如果每个企业和每个人都能将“不作恶”作为其行为准则的底线,世界将会变得更加美好。原创 不容易,如果觉得这篇文章对你有帮助,请多多转发。感谢阅读~ 其行为准则的底线。原创 不容易,如果觉得这篇文章对你有帮助,请多多转发。感谢阅读~ 其行为准则的底线。原创 不容易,如果觉得这篇文章对你有帮助,请多多转发。感谢阅读~

搜索引擎进行信息检索的优化策略方法(SEO搜索引擎优化的99个技巧结果进行排序,看谁最初)

网站优化优采云 发表了文章 • 0 个评论 • 108 次浏览 • 2022-04-16 17:45 • 来自相关话题

  搜索引擎进行信息检索的优化策略方法(SEO搜索引擎优化的99个技巧结果进行排序,看谁最初)
  整理分享SEO搜索引擎优化的99个技巧
  SEO 对搜索引擎中的搜索结果进行排名,以查看谁首先被用户看到。事实上,这些排名是通过搜索引擎算法实现的。先做SEO优化的人,一定要有佛教的心态,戒骄戒躁。
  其次,要有优化的方法和技巧。让我们写下关于SEO优化的99个技巧:
  一、SEO网站优化
  404错误页面:
  1、使用根目录下的index.html制作404错误页面(更好的用户体验)
  2、404 错误页面需要用 robots 协议阻止(防止 收录 中心化)
  301重定向:
  3、301 重定向阻止 网站double收录 和池 网站weights
  4、 索引后缀也需要在 网站 启动开始时从服务器/空间中删除(与 301) 的影响相同
  5、使用301-derrivative weights给目标网站过程中更高效和最小的损失权重
  网址优化:
  6、网站文章列级可浅可不深,短可长(有利于网站收录)
  7、网站中的模板中,“/”代表根目录或网站当前(页面)域名URl
  8、文章列的子列也可以升级为二级列,把文件放到根目录下即可
  9、网站最好将站点内的路径设置为绝对路径,这样更安全,可以防止黑帽下载整个站点
  10、网站url最好是静态链接或者伪静态,动态链接蜘蛛爬的压力很大
  机器人协议:
  11、Robot协议如果添加网站后端,可以使用*代替一些字符来保证安全
  12、Robots协议可以更好的辅助搜索引擎蜘蛛爬取我们的网站,提高爬取效率
  13、网站如果上线后第二天修改还没有完成,可以使用Disallow:/屏蔽整个站点
  站点地图网站地图:
  14、Sitemap采集整个站点网站的链接,三种格式:XML、TXT和HTML 15、Sitemap可以在程序中使用网站的内容太多了。在中添加了自动更新生成
  16、Sitemap 最好把三种格式都上传,加入robots协议,提示蜘蛛爬取
  网站TDK:
  17、T标签可以通过分词技术清晰显示关键词、标题、品牌和地区
  18、K标签不是没用的,它们可以帮助搜索引擎识别网站主题和查询排名
  19、适当出现在D标签关键词也有一定几率出现在关键词词库(练习)
  20、网站的TDK不仅要考虑搜索引擎排名,还要考虑用户体验来吸引点击
  详情:网页链接 查看全部

  搜索引擎进行信息检索的优化策略方法(SEO搜索引擎优化的99个技巧结果进行排序,看谁最初)
  整理分享SEO搜索引擎优化的99个技巧
  SEO 对搜索引擎中的搜索结果进行排名,以查看谁首先被用户看到。事实上,这些排名是通过搜索引擎算法实现的。先做SEO优化的人,一定要有佛教的心态,戒骄戒躁。
  其次,要有优化的方法和技巧。让我们写下关于SEO优化的99个技巧:
  一、SEO网站优化
  404错误页面:
  1、使用根目录下的index.html制作404错误页面(更好的用户体验)
  2、404 错误页面需要用 robots 协议阻止(防止 收录 中心化)
  301重定向:
  3、301 重定向阻止 网站double收录 和池 网站weights
  4、 索引后缀也需要在 网站 启动开始时从服务器/空间中删除(与 301) 的影响相同
  5、使用301-derrivative weights给目标网站过程中更高效和最小的损失权重
  网址优化:
  6、网站文章列级可浅可不深,短可长(有利于网站收录)
  7、网站中的模板中,“/”代表根目录或网站当前(页面)域名URl
  8、文章列的子列也可以升级为二级列,把文件放到根目录下即可
  9、网站最好将站点内的路径设置为绝对路径,这样更安全,可以防止黑帽下载整个站点
  10、网站url最好是静态链接或者伪静态,动态链接蜘蛛爬的压力很大
  机器人协议:
  11、Robot协议如果添加网站后端,可以使用*代替一些字符来保证安全
  12、Robots协议可以更好的辅助搜索引擎蜘蛛爬取我们的网站,提高爬取效率
  13、网站如果上线后第二天修改还没有完成,可以使用Disallow:/屏蔽整个站点
  站点地图网站地图:
  14、Sitemap采集整个站点网站的链接,三种格式:XML、TXT和HTML 15、Sitemap可以在程序中使用网站的内容太多了。在中添加了自动更新生成
  16、Sitemap 最好把三种格式都上传,加入robots协议,提示蜘蛛爬取
  网站TDK:
  17、T标签可以通过分词技术清晰显示关键词、标题、品牌和地区
  18、K标签不是没用的,它们可以帮助搜索引擎识别网站主题和查询排名
  19、适当出现在D标签关键词也有一定几率出现在关键词词库(练习)
  20、网站的TDK不仅要考虑搜索引擎排名,还要考虑用户体验来吸引点击
  详情:网页链接

官方客服QQ群

微信人工客服

QQ人工客服


线