内部信息源与外部信息源搜索引擎优化方法的异同(的自动虚假新闻检测方法,你了解几个? )
优采云 发布时间: 2022-03-27 12:00内部信息源与外部信息源搜索引擎优化方法的异同(的自动虚假新闻检测方法,你了解几个?
)
1 背景介绍
在过去十年左右的时间里,社交媒体上的虚假信息造成了许多政治、经济和社会危害,最近的例子是伴随着 2020 年 COVID-19 传播的“信息流行病”。在这种可怕的情况下,检测假新闻是对于维持可靠的在线新闻生态系统至关重要。
现有的假新闻自动检测方法主要利用内容(文本或图像)和社会背景(如用户信息、大众反馈、传播模式等)来区分假新闻和真实新闻。本文主要关注基于文本内容的假新闻检测,这些方法大致可以分为两类:
这两类模型的本质区别在于使用文本线索的角度不同,即它们有不同的文本偏好。下图为“上海开通12331*敏*感*词*受理狗肉店举报”的虚假信息。
理想情况下,基于模式信息的模型会更加关注消息的书写方式,例如频繁且连续使用感叹号,以及容易吸引读者的“好消息”或“500 美元”等词,而不是此消息中的新闻元素(例如位置、事件等)。换句话说,把上海换成北京,或者把狗肉换成猫肉,基于模式信息的模型应该保持其预测的准确性。
相比之下,基于事实信息的模型将关注文章所说的内容,而不是信息的写作方式。需要使用关键要素(如“上海”、“12331”、“狗肉店”)检索相关证据,并根据“12331不接受狗肉店举报”综合判断[ 1] 证据中提到。基于事实信息的模型应该保持其预测的准确性,即使信息是直截了当的并且不使用情感词。
从上面的例子来看,这两种方法从不同的角度观察互联网假新闻,它们捕捉到的信息是互补的。如果将它们结合起来,可以覆盖更多的情况,提高整体检测性能。然而,目前还没有工作考虑整合这两种方法。在本文中,我们首次尝试“整合模式和事实信息的假新闻检测”。集成的最大挑战是现实模型很难避免非偏好信息的干扰:基于模式信息的模型可能“记住”某些与事件相关的术语,而基于事实信息的模型可能具有相似性(一些假新闻有模仿常规新闻写作的倾向)并被误导。
本文主要考虑两个问题:
为此,本文提出了一种模型偏好感知假新闻检测框架Pref-FEND(Preference-aware Fake News Detection Framework)。该框架通过异构动态图卷积网络(Heterogeneous Dynamic GCN)生成术语级模式偏好分布(Pattern Preference Map)和事实偏好分布(Fact Preference Map),并使用生成的分布来指导检测模型相应的偏好。模型输出的偏好感知特征最终融合以预测给定帖子是否为假新闻。
2 Pre-FEND
1.整体框架
给定要检测的消息,Pref-FEND 首先根据预定义的字典或模型将 P 中的术语分为三组:样式词、实体词和其他词。这三组词被输入到一个异构动态图卷积网络 Preference Learner 中,分别生成模式偏好分布和事实偏好分布。完整的消息和模式偏好分布被一起馈送到基于模式的模型中,以生成偏好感知特征。类似地,事实偏好分布被输入到基于事实的模型中以生成特征。经过最后的MLP层拼接拼接后,得到Pref-FEND对是否为假新闻的预测结果。
2.偏好分布生成
假设有一个term,偏好分布定义为[0,1]中的实数序列,其中第th个数代表对应检测模型对第th个term的偏好程度。在本文中,我们希望通过基于图神经网络的方法获得模式偏好分布和事实偏好分布
由于偏好分布本质上是一个术语级别的权重分布,所以它的所有偏好得分之和为 1。
2.1 引入先验知识
虽然我们一直在讲“模式信息”和“事实信息”,而励志案例也对这两类信息给出了具体的理解,但在实践中仍然缺乏一套广泛适用的操作程序来从中寻找模式。文本。信息和事实信息。一种直接的方法是直接从模型中学习,依靠对真假新闻分类标签的“远程监督”,端到端。但这样做存在一定的过拟合风险:我们前面讨论的模型是理想模型——基于模式,“坚决”基于模式,可以实现对事实信息的天然免疫。但实际模型难免受到数据集偏差的干扰,难以“
模式信息通常反映在抽象的表达元素中,如风格、情感等。我们将这些特征词统称为风格标记作为模式信息先验。具体而言,我们基于大连理工大学情感本体数据库[2]等公共资源,匹配否定词、度词、情感词、断言词、表情符号、情感本体词、标点符号、人称代词等。风格词的集合。事实信息的表示更直接:可验证的声明通常收录实体词(人工事实检查数据集 FEVER 的众包注释过程中存在类似的规范要求)。因此,我们使用了百度 LAC[3] 和腾讯 TexSmart[4] 这两个公共工具来提取 中的实体词,并构成实体词集。不属于上述两组的词构成其他词组。
2.2 动态图卷积网络
基于以上三组,我们需要做:(1)根据风格词和实体词生成其他词的偏好分数;(2)根据上下文调整所有词的偏好分数。对于以上两点,我们需要尽可能让文本中的所有词条与其他词条连接和交互,这时候我们想到了一个图神经网络:用词条作为节点,边权重可以表示它们之间的关系terms Closeness。如果边权重是动态可学习的,那么这个closeness可以根据上下文进行调整。另外,我们希望风格词和实体词在交互中“知道并保持自己的身份”,需要对信息进行分组来体现在图上的学习中。
为此,在已有工作[5]的基础上,我们设计了异构动态图卷积网络(Heterogeneous Dynamic GCN,HetDGCN):每一层图卷积操作都是分组操作,体现异构性;term 它们之间的连接权重将根据最新表示进行调整,反映动态。
我们使用预训练的语言模型来初始化节点表示来获得术语表示。边缘权重使用余弦相似度进行初始化(限制在 [0,1] 区间内)。此外,我们对图的亲和度矩阵进行了行归一化,并计算了度数矩阵。
Heterogeneity:假设是第一层类型(即样式、实体、其他)节点的表示,那么第一层特征为
其中是归一化关联矩阵的子矩阵,收录所有节点与类型节点的关联。
动态:计算第一层特征后,我们使用以下公式更新相关矩阵
其中是可学习矩阵,用于将特征转换为相关矩阵的更新量。为了保证相关度的稳定性,我们使用移动平均来更新相关矩阵。
2.3 读出偏好分布
经过层HetDGCN计算后,我们得到相关矩阵。我们希望这个矩阵能够反映在这种情况下术语之间的关联程度。对于第 th 节点,其模式偏好得分是该节点与所有非实体词节点的关联度之和
类似地,它的事实偏好分数是与所有非风格词节点的关联的总和
最后,通过约束得到的偏好得分序列之和为1,即得到我们需要的模式偏好分布和事实偏好分布。
3.Preference-Aware 联合假新闻检测
Pref-FEND 使用注意机制将偏好分布信息注入检测模型。基于模式信息的模型的基本结构与一般文本分类模型相同(机制不难扩展到更复杂的情况),我们只需要使用 BERT 或输出的模式偏好分布加权求和即可LSTM获取偏好感知向量
基于事实信息的模型输入和检索到的相关文档(文档序列记为 ),我们使用事实偏好分布的表示来加权
然后,将向量与文档序列表示一起发送到模型的推理模块(该模块的实现主要参考 NLI 任务)
最后将pattern branch和fact branch得到的拼接通过最终的分类器(这里用MLP实现),即得到联合检测的预测值。
4.训练策略
在训练期间,我们使用了 3 个损失函数。一、将常用的交叉熵作为二分类问题的监督信号
此外,由于模式偏好应该与事实偏好不太一致,我们最小化两个偏好分布之间的余弦相似度,即
最后,我们设计了一个“反向监督信号”,在交换输入的两个偏好分布的同时翻转真实标签。该函数期望检测模型在收到与其自己“相反”的偏好分布时表现更差
其中,预测值。是两个检测模型分别交换偏好分布后输出的“逆”偏好感知向量。
最后,我们最小化上述三个损失函数的加权和
3个实验
1.数据集
由于当前数据集无法同时提供社交媒体帖子和相关的文章,我们在整合现有资源的基础上构建了两个数据集,根据帖子的来源分别命名为微博和推特。在微博数据集中,我们使用来自 Weibo-20 [6] 的微博文本和来自 Detecting Verified Messages [7] 的任务数据的反驳 文章 作为相关文档。我们还用百度新闻搜索结果扩充了相关文档集。后处理数据集收录 6,362 条推文和 17,849 篇文章 文章。在 Twitter 数据集中,我们合并了三篇文章 文章(Shaar 等人 [8]、Vo 和 Lee [9] 以及 PHEME [10])的数据,并使用 Google 新闻界面扩充了相关文档,得到14,709 条推文和 12,419 条相关 文章。
2.基础模型
我们使用了六种基于文本的方法作为基础模型。基于模式信息的模型包括 Bi-LSTM(在此任务的模型中广泛用作文本编码器,例如 [11-13])、EANN-Text [14] 和 BERT-Emo [6],以及基于模型的模型事实信息包括 DeClarE [15]、EVIN [16] 和 MAC [17]。当这些模型用作 Pref-FEND 中的检测模型时,我们使用保留适当维度的高级特征作为其输出。
3.性能对比3.1单偏好对比
为了与上面的基本模型进行公平比较,我们使用简化版本 Pref-FEND,它保留了 HetDGCN 部分和偏好分布的两个读数,但检测部分只有一个分支。从表中可以看出,Pref-FEND可以提高上述模型的性能,这说明偏好信息的引入可以缓解非偏好信息对原创基本模型的干扰所带来的泛化问题。
3.2 融合模型对比
我们提出 Pref-FEND 的最终目标是整合这两种模型。我们的实验基于两种组合:Bi-LSTM+DeClarE(基本组合),BERT-Emo+MAC(高级组合)。由于该领域没有这样的组合基线,我们比较了常见的 Last-layer Fusion 和 Logits Average。从表中可以看出 Pref-FEND 可以带来比基本融合方法更好的性能。同时,与单一偏好模型相比,融合模型可以进一步提高检测效果。
4.偏好分布分析4.1 哪些术语是首选?
为了了解这两种偏好分布有何不同,我们分析了常用词的分布。对于每个帖子(来自微博验证和测试集),我们首先根据偏好得分将术语分为模式偏好组和事实偏好组,并找出所有帖子中每组中出现频率较高的术语进行人工分析。
我们观察到:
在模式偏好词集中,标点符号和否定词比较重要,其他词大多与自我表达有关(“认为”、“也许”、“有点”)。
与证据相关的词和与实体相关的词更容易被关注在事实偏好的词汇中,比如“视频”、“网页”、“图片”、“陈述”、“启示”代表材料和动作,和代表城市或地点的词。
两种偏好分布在人称代词的选择上有很大的不同:这可能是最有趣的一点。模式偏好分布更关注复数人称代词(“we”、“them”、“you”),而事实偏好分布更关注单数人称代词(“he”、“it”、“you”)。我们推测这是因为带有明显假新闻模式的帖子经常讨论某些群体或鼓励读者采取行动,而描述事件的帖子通常与特定的人或事物有关。
4.2 案例研究
我们观察到三篇被 Pref-FEND 成功判断的假新闻(使用 Bi-LSTM 和 DeClarE 作为基础模型)。第一个传达了强烈的情绪信号(如“无助”和“攻击性”),更容易被模式偏好模型所关注,因此 Bi-LSTM 判断正确,而 DeClarE 判断错误。第二个收录了大量的位置信息和事件描述,对使用证据文本的事实偏好模型更友好,因此 DeClarE 判断正确,但 Bi-LSTM 判断错误。两种单偏好模型都将第三条预测为真实新闻,这可能是由于非偏好信息对这些模型的负面影响,而 Pref-FEND 通过偏好建模在一定程度上引导了单偏好模型(模块) ,
4 结论和未来工作展望
在本文中,提出了一种偏好感知框架 Pref-FEND,以集成基于模式信息和事实信息的假新闻检测模型。学习到的偏好分布可以引导模型在其理想情况下更加关注偏好部分,减少非偏好部分的干扰。在新构建的中文微博和英文 Twitter 数据集上的实验表明,Pref-FEND 中的偏好学习可以帮助模型更加专注,不仅可以提高单一偏好(基于模式或基于事实)模型的性能,还可以提高联合(基于模式和事实)模型的性能。在未来的工作中,我们将重点关注如何增强偏好分布生成与特定检测模型之间的交互,以及如何将此框架扩展到多类,多偏好场景。此外,从手工设计的先验中寻找更好的先验或指导也有望提高模型的泛化性和灵活性。
此解读文章首发于盛强所著知乎栏目《事实核查与假新闻检测》()。有关更多信息,请参见作者的主页 ( )。
[1]
[2] 许林宏等。构建情感词典本体。中国科学技术情报学会学报, 2008.
[3]
[4]
[5] 林梅胡等。用于半监督短文本分类的异构图注意网络。EMNLP-IJCNLP 2019.
[6] 张学尧等。挖掘双重情感以进行假新闻检测。万维网 2021.
[7] 强生等。通过记忆增强的关键句子匹配对文章进行重新排序,以检测先前经过事实检查的声明。ACL-IJCNLP 2021.
[8] 沙登·沙尔等人。这是一个已知的谎言:检测以前经过事实核查的声明。ACL 2020.
[9] Nguyen Vo 和 Kyumin Lee。事实在哪里?搜索经过事实核查的信息以减少假新闻的传播。EMNLP 2020.
[10] 埃琳娜·科奇金娜等人。多合一:谣言验证的多任务学习。科灵2018.
[11] 韩国等。使用分层社会注意网络进行谣言检测。CIKM 2017.
[12] 哈米德·卡里米和唐继良。学习用于假新闻检测的分层话语级结构。NAACL 2019.
[13] 汉娜·拉什金等人。深浅不一的真相:假新闻和政治事实核查中的语言分析。EMNLP 2017.
[14] 王亚庆等。EANN:用于多模式假新闻检测的事件对抗神经网络。KDD 2018.
[15] 卡什亚普·波帕特等人。DeClarE:使用证据感知深度学习揭穿假新闻和虚假声明。EMNLP 2018.
[16] 吴连伟等。用于可解释声明验证的证据推理网络。AAAI 2021.
[17] Nguyen Vo 和 Kyumin Lee。用于证据感知假新闻检测的分层多头注意力网络。EACL 2021.