解决方案:自媒体文章质量如何AI知道,这是微信的自动评估算法
优采云 发布时间: 2022-10-08 05:09解决方案:自媒体文章质量如何AI知道,这是微信的自动评估算法
在自媒体时代,每个公众号都在思考一个问题:如何让我的文章被更多人看到?其实除了操作之外,本章本身的质量才是最根本的。在这个文章中,腾讯微信数据质量团队解读了他们的自媒体在线文章质量自动评价算法,告诉你模型眼中的好文章是什么样的的。
在移动阅读时代,出现了很多用户生成内容模式下的自媒体平台,每个用户都可以充当内容生产者。这种开放性也导致了自媒体online文章的质量参差不齐。自媒体online文章质量的自动评估对于在线推荐、搜索、广告等应用场景具有重要意义,但目前这方面的研究工作很少。
与传统格式良好的文章(如学术论文和维基百科文档)不同,自媒体online文章 主要是用户创建的,没有统一的格式、布局和书写约定,包括文本、图像和视频的多模态混合编辑,以及内容丰富、风格多样、语义跨度大的潜在特征。同时,评价过程需要充分考虑读者的阅读体验。此外,影响文章质量的因素还包括内容、排版、写作风格等不同方面的多种影响因素。所有这些都使得自媒体在线文章 质量更加复杂和具有挑战性。
为了应对这些挑战,在 ACM MM2020 中,腾讯微信数据质量团队建立了统一的框架,有效学习和整合在线文章质量评估的不同因素,结合排版布局、写作风格和深度语义建立了一个联合模型, CoQAN, 设计了不同的表示学习子网络,特别考虑了交互特征学习过程和移动端交互阅读习惯,更符合人类对文章质量评价的感知方式。作者还构建了一个*敏*感*词*的真实世界评估数据集。充分的实验结果表明,该方法有效地学习和整合了在线文章质量评估的不同因素。
论文链接:
考虑到自媒体平台的性质,作者合理地将自媒体online文章的质量定义为文章给用户带来的阅读体验水平,即可用性文章的可读性体现在文章的信息内容、书写规范、用户感知等方面。
优质的文章需要版面整洁美观,节段清晰,图文排列整齐;内容连贯,聚合度高,文笔逻辑好,信息丰富。相反,低质量的 文章 往往会有混乱的布局或写作逻辑、不完整或无意义的内容,甚至可能是杂乱的文本或杂乱的纯图像或视频。
图一是两个微信公众号文章都报道了同一个新闻“中国学者张莹莹被绑架谋杀”,我们很容易看出它们的区别:右边的低质量的文章收录不相关的广告图像,它在极少的文字行中使用多种文字格式,不必要地加重了读者的眼睛负担,并在表达中使用了更多的口语化和情感化的词语。反之,左边优质的文章,书写逻辑和表达更佳,传达的内容更丰富。
图 1:高质量 文章(左)和低质量 文章(右)的示例
我们知道,人类阅读自媒体online文章的认知过程是由浅入深的。
当读者点击文章时,首先感受到的是版面的外观,也就是读者的表面感知。精美的视觉布局和丰富的呈现方式可以让读者对文章产生兴趣,给读者带来更好的阅读体验。
读者然后通过浏览词汇、句法、文章组织和图片来获得内容的主要印象,这是读者的肤浅感知。
最后,读者需要对文本语义和写作逻辑有深刻的理解,才能体会到文章的意义和价值,这是读者的深刻认知。
受上述认知过程的启发,本文提出将布局组织、书写特征和文本语义结合起来,交互式地进行特征表示学习,并集成到一个统一的框架中来评估自媒体online文章的质量。与传统的文档质量评估大多只考虑文本元素不同,本文提出的方法以图像作为页面布局建模的关键单元,并提取重要的图像特征来反映 文章 的视觉感知和可读性水平。
这项工作的主要贡献包括:
具体方法
本文将自媒体online文章质量评估作为分类任务,即给定一篇文章文章,预测它是高质量文章还是低质量文章。
图 2 显示了提出的用于自媒体online文章质量评估的 CoQAN 网络架构,其中设计了三个子网络来解耦布局组织、书写特征和文本语义的建模。
对于布局建模,研究人员考虑了人们在终端阅读自媒体文章时从上到下滑动的顺序阅读习惯,将文章划分为内容块序列,明确学习文章图形标题等元素的排版布局,同时捕捉页面整体布局和局部排版模式。
书写特征子网络考虑了多模态元素的特征,可以通过对深度特征交互关系的学习,在不同的特征子空间中进行特征选择和特征融合,实现高阶非线性特征融合。
文本语义子网络从不同语义层次深度捕捉文本级文本内容中的语义和衔接关系,深度学习复杂语义空间中的词间和句间依赖关系以及的整体书写逻辑文章. 在融合层中,每个子网络经过一个全连接层来调整每个神经元在输出向量中的权重,级联后通过输出层预测质量类别。
图2:本文提出的自媒体online文章质量评估的CoQAN网络架构
布局组织子网
为了明确学习外观布局的组织和排列,作者首先通过页面解析将文章划分为一系列内容块,可以是标题、段落、图片或视频,如图3所示。
之后,为每个内容块提取页面布局相关的特征,例如类型(文本/图像/视频)、在 文章 中的位置、内容块本身的高度、到页面顶部的距离等。这些将特征值聚合起来,形成每个内容块的排版特征向量,可以表达多个重要的布局特征。
图 3:布局组织子网络中输入特征向量的内容块提取和构建
将 GRU 网络应用于一系列内容块布局特征向量,以建模内容块之间的序列依赖关系并捕获 文章 的全局排列模式。同时,作者在输入布局向量上应用一维卷积神经网络来学习关键的局部布局,并设置多种尺寸的卷积核来捕捉不同尺度的布局模式。这两个网络级联以产生该子网络的输出向量。
编写功能子网
写作特征子网捕捉了在线文章的编辑风格。作者提取和计算特征,包括标题、正文、图片和视频以及章节组织。例如,标题特征包括标题长度、关键词个数等;主体特征包括文章类别、文本长度、n-gram、词性标签、不重复字符和不重复词的比例等;图片和视频特征包括图片个数、动图个数、视频个数、OCR文本最大个数等,文本组织特征包括段落个数、作为一个节的模板图片个数logo,图片数量与段落数量的比例等。
为了允许不同类别特征和数值特征之间的交互,书写特征子网络首先通过嵌入层将所有特征投影到同一特征空间中,旨在对嵌入空间中的高阶组合特征进行建模。在本文中,作者通过应用多头自注意力层同时学习多个特征子空间中不同特征之间的相互依赖关系,并进行特征空间融合。多个头使一个特征域可以收录在不同的组合特征中。
作者将残差连接添加到网络以保留先前学习的低阶组合特征,包括原创的单个特征。该网络堆叠了多个多头自注意力层,从而可以同时对多级组合特征进行建模,实现不同空间的深度特征融合。
文本语义子网
作者对BERT进行了改进,将hi-Bert设计为文本语义子网络。依靠强大的预训练技术,BERT 具有强大的上下文关系建模能力。由于BERT中self-attention机制的时间复杂度为O(n2),所以BERT目前只用于处理句子级的文本,不适合文档级的长文本输入。考虑到文档固有的层次结构,即词构成句子,句子构成文档,作者将BERT改进为一种层次结构,称为hi-BERT,其中收录两级encoder依次对文档进行编码,分别应用于句子级和hi -BERT。文档级别。
由于标题是 文章 的高级概述,因此这里也将标题用作输入句子。在句子级别,网络以迁移学习的方式使用预训练的 BERT。在文档层面,作者采用文档层面的双向Transformer层来学习句子之间的深度依赖,得到最终的文章语义向量。hi-BERT 可以深入学习单词和句子之间的交互,并且可以在面对不同的写作风格时学习鲁棒的 文章 语义表示。
实验结果
由于没有可用于自媒体在线文章质量评估任务的公共数据集,作者从微信公众号平台采集并处理了在线文章数据,构建了一个自媒体在线文章质量分类数据集。该数据集收录 38,248 篇在线 文章 文章,涵盖 44 个 文章 类别,涵盖新闻、金融、科技、民生等。实验在该数据集上进行评估。
对比实验结果表明,所提出的方法 CoQAN 在所有指标上都取得了最好的性能。在实验中,baseline模型使用了与本文提出的模型相同的特征,因此模型的优越性能得益于作者提出的联合网络表示学习架构,可以完整地学习到更多有价值的信息。
消融实验结果证明了每个子网络的架构和联合学习的有效性。当去除文本语义子网络时,网络性能下降最多,这表明对复杂的写作知识进行建模是非常必要的。此外,文本语义子网的性能超过了所有只对文本输入进行建模的基线模型,书写特征子网的性能超过了所有基于特征的基线模型,可以有效提高文章布局的建模文章质量评估绩效。从实验结果来看,任意两个子网的组合性能优于单个子网,三个子网组合的整体网络CoQAN最优,证明每个子网对自媒体
作者设计了扰动实验来验证模型是否可以学习相关的书写逻辑和布局模式。实验中,将所有正确预测为正样本的句子或布局内容块的顺序随机打乱,将打乱的样本视为负样本,观察扰动成功的比例。扰动率越高,模型对编写逻辑和布局模式越敏感,对文章质量的评价能力越强。
从结果来看,本文提出的模型显然比所有对比模型对句子混洗的干扰更敏感,这表明 CoQAN 可以更容易地捕捉句子之间的衔接关系,并学习内容和写作逻辑的一致性。单文本语义子网络(TS)的成功扰动率高于整体联合网络CoQAN,因为扰动实验是在正样本上进行的,具有良好的文本质量和排版质量。因此,当只打乱句子时,良好的布局在一定程度上阻止了 CoQAN 将其判断为负样本。当布局顺序和句子顺序同时被打乱时,干涉成功的比例远高于单一维度的干涉。这些结果表明,本文提出的 CoQAN 成功地学习了文本写作和页面布局的知识。
此外,作者对特征的交互关系进行了可视化分析,发现底层self-attention层可以区分优势特征,而顶层学习更复杂的特征空间交互以获得有意义的高阶融合特征。从图中的结果可以看出,主要特征是文字长度和图片最大字符数,高质量文章通常内容更丰富,图片更规则,而低质量文章 通常没有完整的内容,并且通常是带有大量文字的广告图片。其他重要的特征包括图片中文字区域的比例、不同单词的数量、标题中关键词的数量、图片的数量、段落和词性的数量等,
近日,南京大学周志华教授的专着《集成学习:基础与算法》中文版上线,让我们有机会系统地学习这种经典的机器学习方法。
为了更好地帮助《机器之心》的读者理解集成学习,我们邀请了本书的译者、周志华教授的学生李楠博士,分别于8月16日和8月23日带来了两场线上分享会。让我们一起学习综合学习。
我们还将在直播期间送出10本《综合学习:基础与算法》,您可以通过识别二维码进行报名。
©结束
核心方法:教你分析竞争对手的网站,借鉴快速做好自己网站的SEO
如何使用 网站SEO 诊断进行竞争对手分析?
一、数据分析
对于网站关键词的分析,常用的工具有站长工具、爱站、5118等,通过这些工具可以对网站的性能有一个很好的了解关键词全面了解,从而更准确地掌握对方的网站。交通状况以更好地调整您的 网站 优化。
2.硬件条件
高排名网站并不一定意味着强大的软实力。还要多关注对方的硬实力,比如对方的域名是不是老域名,对搜索引擎的信任度是否高,对方的服务器是否在运行顺利。,打开网页的速度是否比我们快等等。我们可以从这些方面来了解,逐步缩小与竞争对手的差距,实现超越。
3. 用户体验
用户体验在网站优化中也起着非常重要的作用。是同行业的网站。网站越重要,排名越高,因为注重用户体验的网站更容易受到搜索引擎蜘蛛的青睐。排名自然会更高,所以网站优化也要注意网站的布局、文章内容的质量、网站营销的引导等。
4. 场外分析
网站分析和反向链接分析也特别重要,因为反向链接对排名的影响仅次于用户体验。我们可以使用外链分析软件来分析外链的分布和外链的质量。
教你分析竞争对手的网站,学习自己的网站 SEO
对于seo爱好者来说,剖析竞争对手的网站是我们必须要做的,而且必须做好的事情。但是很多SEO爱好者只知道怎么看,不知道怎么分析竞争对手的网站。
网站非常复杂,但很难分析。明天教你怎么分析。
如何分析竞争对手的 网站
网站管理员工具
网站Admin Tools 是一个非常有用的工具。通过站长工具,我们可以看到很多关于对方网站的信息。网站管理工具是每个人的必备工具。
1. 搜索引擎优化信息
SEO信息是指网站的最基本信息,网站的基本信息可以在这里展示。
2.百度快照
通过百度截图,可以看出站长是否用心对待这个网站。如果站长认真对待这个网站,那么这个网站的更新时间往往和你当前的时间很接近。如果一个网站很久没有更新百度截图,说明你想超越他很简单,只要努力,你指日可待。
3. 历史
历史索引还可以显示一个网站的周期性情况。历史指数的稳定性,是否一直在上涨,都值得关注和学习。
4. 域名备案
现在中国所有正式的网站都需要备案。如果不注册网站,一般都是抱着短线做生意的心态。这个 网站 也很容易举报。我们网站轻松击败了他。
5. 域名时代
一般来说,网站年龄越大,pr值、权重和排名越高。如果对方的域名很老的话,我们需要更加仔细的优化我们的网站,因为域名越老,站长越老,而站长越老,站长越好。
6. 录音
网站的排名与索引有很大关系,而索引是网站排名的前提。一个网站的收录体积反映了网站上的内容是否很多,内容的质量是否足够好,站长是否在这网站.
7. 关键词图书馆
在网站管理员工具中搜索 关键词 以查看您和您的对手在此 关键词 下的 网站 排名。您可以选择竞争力较弱的 关键词 进行优化,以使 SEO 更容易。
如何为你的 网站 做 SEO
现场优化
要想做好自己的网站 SEO,首先要做好网站优化。站内优化是最基本的SEO。现场优化让网站有稳定的排名。
站内优化的主要任务是利用网站站内结构的优化,大大提高自己网站的相关性,然后通过少量的相关链接打败你的竞争对手.
什么是字段结构依赖优化?
很多SEO爱好者只认为站外链接需要相关性,却忽略了一点:网站的结构也需要优化相关性。
网站结构相关性优化是指将相关的关键词放在一起形成一个闭环,这样当搜索引擎看到你的分类时,就是分类的内容,而不是跳转到其他内容,这将有助于提高搜索引擎对您单词含义的印象。
只要你的分类中的文章只介绍了一个信息性的词或者是围绕一个分类写的,搜索引擎就会给你贴上一个清晰的分类标签。当用户搜索相关内容时,搜索引擎会从索引库中推荐你的网站开始。
总之,网站信息越清晰,越容易提升排名。
搜索引擎的任务是让用户找到他想要的信息和好的信息。只要你提供的信息对用户有用,用户喜欢你的信息,那么你的内容就是成功的。如果你的网站内容不是很好,用户不喜欢,跳出率高,那么你的网站权重和pr-value就不会增加。