解决方案:CIKM 2021 | 假新闻有“两幅面孔”:整合模式和事实信息的虚假新闻检测(

优采云 发布时间: 2022-12-12 23:18

  解决方案:CIKM 2021 | 假新闻有“两幅面孔”:整合模式和事实信息的虚假新闻检测(

  单位:中国科学院计算技术研究所、中国科学院大学

  会议:ACM CIKM 2021

  类型:全文

  预印本:通过模型偏好学习集成基于模式和事实的假新闻检测

  官方版本:通过模型偏好学习集成基于模式和事实的假新闻检测

  代码存储库:GitHub - ICTMCG/Pref-FEND:用于发布论文“Integrating Pattern-and Fact-based Fake News Detection via Model Preference Learning”CIKM 2021 中的代码和数据集的官方存储库。

  数据集申请表:Microsoft Forms 一、背景介绍

  过去十几年来,社交媒体上的虚假信息在政治、经济和社会层面造成了诸多危害。最近的例子是 2020 年伴随 COVID-19 传播的“信息流行病”(infodemic)。在这种可怕的情况下,检测假新闻对于维持可信的在线新闻生态系统至关重要。

  现有的自动假新闻检测方法主要利用内容(文本或图像)和社会背景(如用户信息、人群反馈、传播模式等)来区分假新闻和真新闻。本文主要关注基于文本内容的假新闻检测,这些方法大致可以分为两类:

  这两类模型的本质区别在于使用文本提示的角度不同,即它们具有不同的文本偏好。下图为“上海12331接受狗肉店举报”的虚假信息。

  理想情况下,基于模式信息的模型会更关注消息的书写方式,例如频繁和连续使用感叹号,以及“好消息”或“¥500”等容易吸引读者的词,而不是消息中的新闻元素(如位置、事件等)。换句话说,如果上海换成北京,或者狗肉换成猫肉,基于模式信息的模型应该能保持预测的准确性。

  相比之下,基于事实信息的模型将关注段落实际说了什么,而不是消息是如何写的。需要通过关键词(如“上海”、“12331”、“狗肉店”)搜索相关证据,根据“12331不接受狗肉店举报”[ 1] 证据中提到。基于事实信息的模型应该保持预测的准确性,即使新闻是平淡无奇且没有感情用语。

  从以上例子来看,这两类方法从不同的角度观察网络假新闻,捕捉到的信息是互补的。如果将它们结合起来,它们可以覆盖更多的情况并提高整体检测性能。然而,还没有工作考虑整合这两种方法。在本文中,我们首次尝试“集成模式和事实信息的假新闻检测”。集成中最大的挑战是现实模型很难避免被非偏好信息干扰:基于模式信息的模型可能会“记住”某些与事件相关的词,而基于事实的模型也可能被性别误导(一些假新闻倾向于伪装成普通新闻)。

  本文主要考虑两个问题:

  为此,本文提出了一种模型偏好感知假新闻检测框架Pref-FEND(Preference-aware Fake News Detection Framework)。该框架通过异构动态图卷积网络(Heterogeneous Dynamic GCN)生成term级模式偏好分布(Pattern Preference Map)和事实偏好分布(Fact Preference Map),并使用生成的分布来指导检测模型相应的偏好。模型输出的偏好感知特征最终被融合以预测给定的帖子是否是假新闻。

  2. Pref-FEND1。整体框架

  给定一个待检测的消息 P,Pref-FEND 首先根据预定义的字典或模型将 P 中的术语分为三组:样式词、实体词和其他词。这三组词被送入 Preference Learner,这是一个异构动态图卷积网络,分别生成模式偏好分布和事实偏好分布。完整的消息 P 和模式偏好分布被馈送到基于模式的模型(Pattern-based Model)中,以生成偏好感知特征 \mathrm{\mathbf{p}} 。类似地,将 P 和事实偏好分布一起馈入基于事实的模型(Fact-based Model),产生特征 \mathrm{\mathbf{f}} 。通过最后的 MLP 层拼接 \mathrm{\mathbf{p}} 和 \mathrm{\mathbf{f}} 后,

  2.偏好分布生成

  假设P中有n个term,偏好分布定义为[0,1]中收录n个实数的序列,其中第i个数表示相应检测模型对第i个term的偏好程度。本文希望通过基于图神经网络的方法得到模型偏好分布和事实偏好分布

  \mathrm{\mathbf{m_P}}=[\mathrm{m_{P}}_i]_{i=1}^n,\mathrm{\mathbf{m_F}}=[\mathrm{m_{F}}_i ]_{i=1}^n。

  由于偏好分布本质上是一个词级权重分布,所有偏好分数的总和为 1。

  2.1 引入先验知识

  虽然我们一直在提到“模式信息”和“事实信息”,动机案例也对这两类信息给出了具体的理解,但目前还缺乏一套广泛适用的操作步骤来从文本中寻找模式。实践信息和事实信息。一种直接的方法是直接从模型中学习,依靠真假新闻分类标签“远程监督”,端到端。但这样做存在一定的过拟合风险:我们前面讨论的模型都是理想模型——基于模型,是“坚决”基于模型的,能够实现对事实信息的天然免疫。但实际模型难免会受到数据集偏差的干扰,很难“

  模式信息往往体现在抽象的表达元素上,如风格、情感等。我们将此类特征词统称为文体标记,即模式信息先验。具体来说,我们基于大连理工大学情感本体数据库[2]等公共资源,对$P$ 中的否定词、程度词、情感词、断言词、表情符号、情感本体词、标点符号和人称代词进行了匹配。等等。这些词被用来组成一组风格词S=\{s_i\}_{i=1}^{n_s} 。事实信息的体现更为直接:一个可验证的陈述一般收录实体词(人工事实核查数据集FEVER的众包标注过程也有类似的规范要求)。所以,我们使用百度LAC[3]和腾讯TexSmart[4]这两个公共工具提取P中的实体词,形成实体词集E=\{e_i\}_{i=1}^{n_e}。不属于以上两组的词构成其他词集T=\{t_i\}_{i=1}^{n_t} 。

  2.2 动态图卷积网络

  基于以上三组,我们需要:(1)根据风格词和实体词生成其他词的偏好分数;(2) 根据上下文调整所有术语的偏好分数。为了达到以上两点,我们需要让文本中的所有术语尽可能地与其他术语发生联系和相互作用。这时,我们想到了图神经网络:以term为节点,边的权重可以表示term之间连接的紧密程度。如果边缘权重是动态可学习的,那么这种紧度可以根据上下文进行调整。另外,我们希望风格词和实体词能够在交互中“知道并保持自己的身份”,分组信息需要在图学习中得到体现。

  为此,我们在现有工作[5]的基础上设计了异构动态图卷积网络(Heterogeneous Dynamic GCN,HetDGCN):将每层图卷积操作分组,体现异构性;它们之间的边的权重将根据最新的表示进行调整,反映动态。

  我们使用 BERT 获得术语表示,这些表示用于初始化节点表示。边缘权重的初始化使用余弦相似度(限制在 [0,1] 区间)。此外,我们对图的关联矩阵进行了行归一化,并计算了度矩阵。

  异构性:假设\mathrm{\mathbf{H}}_\tau^{(l)} 是类型\tau (即样式、实体、其他)节点l 层的表示,则第l+1 层层特征是

  \mathrm{\mathbf{H}}^{(l+1)} = \mathrm{ReLU}\left(\sum_{\tau \in \mathcal{T}} \mathrm{\mathbf{\hat{A} }}^{(l)}_{\tau}\mathrm{\mathbf{H}}^{(l)}_{\tau}\mathrm{\mathbf{W}}^{(l)}_{ \tau}\右)

  其中 \mathrm{\mathbf{\hat{A}}}^{(l)}_{\tau} 是归一化关联矩阵 \mathrm{\mathbf{\hat{A}}}^{(l )} 收录所有节点与 \tau 类型节点的关联度的矩阵。

  

  动态性:计算完l+1层的特征后,我们用下面的公式更新关联矩阵

  \Delta\mathrm{\mathbf{A}}^{(l+1)} = \sigma\left(\mathrm{\mathbf{H}}^{(l+1)}\mathrm{\mathbf{W} }_A^{(l+1)}\mathrm{\mathbf{H}}^{(l+1)T}\right), \mathrm{\mathbf{A}}^{(l+1)} = \alpha \mathrm{\mathbf{A}}^{(l)} + (1-\alpha) \Delta\mathrm{\mathbf{A}}^{(l+1)}

  其中\mathbf{W}_A^{(l+1)}为可学习矩阵,用于将特征转化为关联矩阵更新量\Delta\mathrm{\mathbf{A}}^{(l+1) }, 为了保证相关度的稳定性,我们使用移动平均来更新相关矩阵。

  2.3 读出偏好分布

  经过L层HetDGCN计算,得到相关矩阵\mathrm{\mathbf{A}}^{(L)} 。我们希望这个矩阵能够反映上下文中各种术语之间的关联程度。对于第i个节点,其模式偏好得分 \mathrm{m_{P}}_i 是该节点与所有非实体词节点的关联之和

  \mathrm{m_{P}}_i=\sum_{j=1}^{n}\mathrm{\mathbf{A}}^{(L)}(i,j) - \sum_{k=1}^ {n_e}\mathrm{\mathbf{A}}^{(L)}_E(i,k)

  同样,它的事实偏好得分 \mathrm{m_{F}}_i 是与所有非风格词节点的关联总和

  \mathrm{m_{F}}_i=\sum_{j=1}^{n}\mathrm{\mathbf{A}}^{(L)}(i,j) - \sum_{k=1}^ {n_s}\mathrm{\mathbf{A}}^{(L)}_S(i,k)

  最终约束得到的偏好分数序列之和为1,即得到我们需要的模式偏好分布和事实偏好分布

  \mathrm{\mathrm{m_{P}}} = \bigg[\frac{\mathrm{m_{P}}_i}{\sum_j{\mathrm{m_{P}}_j}}\bigg]_{i =1}^n, \mathrm{\mathrm{m_{F}}} = \bigg[\frac{\mathrm{m_{F}}_i}{\sum_j{\mathrm{m_{F}}_j}} \bigg]_{i=1}^n

  3.偏好感知联合假新闻检测

  Pref-FEND 使用注意力机制将偏好分布信息注入检测模型。基于模式信息的模型的基本结构和一般的文本分类模型一样(容易扩展到更复杂的方法),我们只需要输出BERT或LSTM的输出[\mathrm{\mathbf{p}} _1;\ldots;\ mathrm{\mathbf{p}}_{n}]利用模式偏好分布的加权和得到偏好感知向量

  \mathrm{\mathbf{p}} = \sum_{i=1}^n \mathrm{m_{P}}_i\mathrm{\mathbf{p}}_i

  基于事实信息的模型输入为P和检索到的相关文档D(文档序列表示为[\mathrm{\mathbf{d}}_1;\ldots;\mathrm{\mathbf{d}}_{ n_f}] ) ,我们使用事实偏好分布对 P 的表示进行加权

  \mathrm{\mathbf{q}} = \sum_{i=1}^n \mathrm{m_{F}}_i\mathrm{\mathbf{q}}_i

  然后将向量和文档序列表示送入模型的推理模块(该模块的实现多参考NLI任务)

  \mathrm{\mathbf{f}} = \mathrm{InferenceModule}(\mathrm{\mathbf{q}}, [\mathrm{\mathbf{d}}_1;\ldots;\mathrm{\mathbf{d}} _{n_f}])

  最后将模式分支得到的\mathrm{\mathbf{p}}和事实分支得到的\mathrm{\mathbf{f}}拼接起来,通过最终的分类器(这里用MLP实现),即,得到联合检测的预测值

  \hat{y}=\mathrm{MLP}([\mathrm{\mathbf{p}};\mathrm{\mathbf{f}}])

  4.训练策略

  在训练中,我们使用了 3 个损失函数。首先,将常用的交叉熵用作二元分类问题的监督信号。

  \mathcal{L}_{cls}(y,\hat{y})= \mathrm{交叉熵}(y, \hat{y})

  此外,由于模式偏好应该与事实偏好不太一致,我们最小化两个偏好分布之间的余弦相似性,即

  \mathcal{L}_{cos}= \frac{\mathrm{\mathbf{m_P}}\cdot\mathrm{\mathbf{m_F}}}{\Vert\mathrm{\mathbf{m_P}}\Vert\Vert \mathrm{\mathbf{m_F}}\Vert}

  最后,我们设计了一个“逆监督信号”,它在交换输入的两个偏好分布的同时翻转真实标签。这个函数希望检测模型在接收到一个“偏离”自己偏好的偏好分布时表现更差,即

  \mathcal{L}_{cls}(y_{rev},\hat{y}^\prime)= \mathrm{CELoss}(y_{rev},\hat{y}^\prime)

  其中y_{rev}=|1-y|,预测值\hat{y}^\prime=\mathrm{MLP}([\mathrm{\mathbf{p}^\prime};\mathrm{\mathbf{f }}^\prime]) 。\mathrm{\mathbf{p}^\prime} 和 \mathrm{\mathbf{f}}^\prime 分别是两个检测模型交换偏好分布后输出的“反向”偏好感知向量。

  最后,我们将上述三个损失函数的加权和最小化

  \mathcal{L} = \beta_1\mathcal{L}_{cls}(y,\hat{y}) + \beta_2\mathcal{L}_{cos} + \beta_3\mathcal{L}_{cls} (y_{rev},\hat{y}^\prime)

  三、实验一、数据集

  由于目前的数据集不能同时提供社交媒体帖子和相关的文章,我们在整合现有资源的基础上构建了两个数据集,根据帖子的来源分别命名为微博和推特。在微博数据集中,我们使用 Weibo-20 [6] 中的微博文本和 Detect Verified Message 任务数据 [7] 中的辟谣 文章 作为相关文档。同时,我们还扩充了与百度新闻搜索结果相关的文献集。后处理数据集收录 6,362 条微博和 17,849 篇 文章 文章。在 Twitter 数据集中,我们结合了三篇 文章 文章(Shaar 等人[8]、Vo 和 Lee[9] 以及 PHEME[10])的数据,并使用 Google 新闻界面扩充了相关文档,得到14,709 条推文和 12,419 条相关 文章。

  2.基本模型

  我们使用六种基于文本的方法作为基础模型。基于模式信息的模型包括Bi-LSTM(作为文本编码器广泛出现在该任务模型中,例如[11-13])、EANN-Text[14]和BERT-Emo[6],基于事实信息的模型包括 DeClarE[15]、EVIN[16] 和 MAC[17]。当这些模型用作 Pref-FEND 中的检测模型时,我们使用保留了适当维度的高级特征作为它们的输出。

  

  3、性能比较

  3.1 单偏好比较

  为了与上面的基础模型进行公平比较,我们使用简化版本\text{Pref-FEND}_S,它保留了 HetDGCN 部分和两个偏好分布读数,但检测部分只有一个分支。从表中可以看出\text{Pref-FEND}_S可以提升上述模型的性能,说明偏好信息的引入可以缓解原有基础模型受到非偏好干扰而导致的泛化问题信息。

  3.2 融合模型比较

  我们提出的 Pref-FEND 的最终目标是整合两种类型的模型。我们的实验基于两种组合:Bi-LSTM+DeClarE(基本组合)、BERT-Emo+MAC(高级组合)。由于该领域没有这样的组合基线,我们比较了常见的Last-layer Fusion和Logits Average。从表中可以看出,Pref-FEND相比基本融合方法能够带来更好的性能。同时,与单一偏好模型相比,融合模型可以进一步提高检测效果。

  4.偏好分布分析

  4.1 哪些术语更受欢迎?

  为了了解这两种偏好分布有何不同,我们分析了分布中最常用的词。对于每个帖子(来自微博验证和测试集),我们首先根据偏好分数将术语分为模式偏好组和事实偏好组,并找出所有帖子中每个组中频繁出现的术语进行人工分析。我们观察到:

  在模式偏好词集中,标点符号和否定词非常重要,其他词多与自我表达有关(“认为”、“也许”、“有点”)。在事实偏好词集中,证据相关词和实体相关词更容易被关注,如“视频”、“网页”、“图片”、“声明”、“披露”代表材料和动作,以及代表城市或地点的词语。两种偏好分布在人称代词的选择上有很大不同:这可能是最有趣的一点。模式偏好分布更关注复数人称代词(“我们”、“他们”、“你”),而事实偏好分布更关注单数人称代词(“他”、“它”、“你”)。我们推测这是因为具有明显假新闻模式的帖子通常会讨论某些群体或敦促读者采取行动,而描述事件的帖子往往是关于特定的人或事。

  4.2 案例研究

  我们观察了三个被 Pref-FEND(使用 Bi-LSTM 和 DeClarE 作为基础模型)成功判断的假新闻。第一个传达了强烈的情感信号(比如“无奈”和“好斗”),更容易被模式偏好模型所关注,所以Bi-LSTM是正确的,但DeClarE是错误的。第二篇文章收录大量位置信息和事件描述,对使用证据文本的事实偏好模型更友好,因此DeClarE判断正确,而Bi-LSTM判断错误。两种单偏好模型都将第三篇文章预测为真新闻,这可能是由于非偏好信息对这些模型的负面影响,而Pref-FEND通过偏好建模引导了单偏好模型(模块),

  四、结论与未来工作展望

  在本文中,我们提出了一个偏好感知框架 Pref-FEND,用于集成基于模式信息和事实信息的假新闻检测模型。学习到的偏好分布可以引导模型更加关注其理想情况下偏好的部分,减少非偏好部分的干扰。在新构建的中文微博和英文推特数据集上的实验表明,Pref-FEND 中的偏好学习可以帮助模型更加聚焦,这不仅可以提高单一偏好(基于模式或基于事实)模型的性能,而且还可以提高联合(基于模式和事实的)模型的性能。在未来的工作中,我们将重点关注如何增强偏好分布生成与具体检测模型之间的交互,以及如何将这个框架扩展到多类、多偏好的场景。此外,寻找更好的先验或远离手工制作的先验也有望提高模型的泛化性和灵活性。

  [1]“国家药监局集中受理狗肉店举报”是谣言-社会-人民网

  [2]徐林宏等.构建情感词典本体。中国科学技术情报学报,2008。

  [3] GitHub - baidu/lac:百度NLP:分词、词性标注、命名实体识别、词重要度

  [4] TexSmart:文本理解工具包和服务

  [5] 胡林梅等.用于半监督短文本分类的异构图注意力网络。EMNLP-IJCNLP 2019。

  [6]张雪瑶等.为假新闻检测挖掘双重情感。万维网 2021。

  [7] 强生等.通过记忆增强的关键句子匹配对文章进行重新排序,以检测先前经过事实核查的声明。ACL-IJCNLP 2021。

  [8] Shaden Shaar 等人。这是一个已知的谎言:检测以前经过事实核查的声明。ACL 2020。

  [9] Nguyen Vo 和 Kyumin Lee. 事实在哪里?搜索经过事实核查的信息以减轻假新闻的传播。欧洲自然语言处理 2020。

  [10] Elena Kochkina 等人。多合一:用于谣言验证的多任务学习。冷却 2018。

  [11] 韩果等.使用分层社会注意力网络进行谣言检测。CIKM 2017.

  [12] 哈米德·卡里米和唐吉良.学习用于假新闻检测的分层话语级结构。美国国家航空航天局 2019。

  [13] 汉娜拉什金等人。深浅不一的真相:假新闻和政治事实核查中的语言分析。2017 年 EMNLP。

  [14] 王亚庆等.EANN:用于多模式假新闻检测的事件对抗神经网络。2018 年 KDD。

  [15] Kashyap Popat 等人。DeClarE:使用证据感知深度学习揭穿假新闻和虚假声明。欧洲自然语言处理 2018。

  [16] 吴连伟等.用于可解释声明验证的证据推理网络。美国人工智能协会 2021 年。

  [17] Nguyen Vo 和 Kyumin Lee. 用于证据感知假新闻检测的分层多头注意力网络。2021 年 EACL。

  列相关文章:

  seo伪原创 事实:SEO过度优化是什么意思?SEO过度优化的危害有哪些?

  SEO过度优化通常是指在网站页面中加入关键词或者其他SEO友好的方式来提高网站的排名,这很好,对SEO也很有帮助,但是如果优化程度控制不好,出现过度优化,很可能会被搜索引擎惩罚,所以想提高网站在搜索引擎中的排名,避免网站 A发生过度优化的情况。

  SEO过度优化的危害有哪些:

  1) 被搜索引擎惩罚导致关键词图书馆数量、流量、收录下降。

  2)过度优化网站可能会导致用户流失。

  3) 可能被搜索引擎屏蔽。

  

  4) 网站 快照停止更新。

  5) 网站体重开始下降。

  如何判断网站本身是否涉嫌“过度优化”?

  1、发布时检查网站外链类型是否过于集中,做外链时外链类型要多样化

  2、外链是否过于集中在一个平台,外链一定要广泛,不能只发在一个平台。即使其他平台的权重值不高,也可以做到。

  3、在整体网站中勾选所有的目标关键词,永远不要专注于目标关键词,需要插入一些长尾的关键词辅助。

  4、查看网站关键词是否涉嫌堆叠

  

  很多人在做SEO优化的时候,“硬加”只是为了加关键词,不管句子流畅与否。这样做是非常错误的。虽然在文章开头加入关键词更有利于搜索引擎抓取,但是一定要控制好频率。一篇1000字的文章文章,关键词的出现频率控制在8次左右。另外,图片的描述也会被收录在关键词的密度中。整个文章的密度保证在2%~8%。

  5、检查网站文章页面是否存在多个H1标签,B标签是否使用合理。

  6、检查所有页面的网站标题后缀是否有关键词且是否相同,是否改为公司名(品牌名)或去掉。

  7、查看网站是否长期没有原创内容,内容质量太差!

  有些网站喜欢直接复制别人的网站内容或者网上的相关内容,稍微修改一下发布在自己的网站中,虽然给很方便网站添加了很多内容,但是这类内容可以说不是伪原创,还是直接复制类,搜索引擎不喜欢这类内容,久而久之搜索引擎就停止抓取了网站。

  好了,以上就是本次文章的全部内容,如果您也有网站代运营需求,欢迎随时联系我!大富SEO专注SEO技术十年,以实用的SEO流量,提供全网营销推广、全网营销获客、全网舆情优化、关键词优化等服务,vx:(这是微信号),欢迎私聊我,加我记得备注来意!

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线