KaaPexei 发表于 2022-11-28 21:08

万字长文带你入门虚假新闻检测

今天为大家带来深度学习技术解决虚假新闻检测任务的方法综述。


我将从一下几个方面描述综述的内容。首先介绍综述的motivation;之后介绍虚假新闻检测方法的分类原则;之后依次介绍有监督方法,弱监督方法和无监督方法;之后介绍虚假新闻检测常见的数据集以及现有方法在各个数据集上的实验表现;最后将结合现有工作的不足,展望一下未来的工作。


我们对虚假新闻检测方法进行综述的动机主要在于:
1, 虚假新闻确实危害了人们的生活,但是人工对虚假新闻检测会消耗大量的人力和物力,消耗大量时间,因此无法线上进行识别,因此需要自动的对虚假新闻进行检测,自动的虚假新闻检测是十分有必要的。
2, 现有的虚假新闻检测的综述文章往往仅关注有足够标注数据时的有监督虚假新闻检测方法,但是现实世界中往往大量的数据因为标注成本过高,或者时间紧张,暂时没有被标注导致标注数据不足或根本没有标注数据,因此有监督的方法往往不适合现实世界的应用环境。需要利用没有标注数据或者部分标注的数据训练出好用的虚假新闻检测模型,因此现实场景需要无监督或者弱监督的方法,本篇综述涵盖了大量的无监督方法和弱监督方法。
3, 本篇综述对常用的虚假新闻检测数据集进行了较为全面的整理,并整理了现有方法在各个虚假新闻检测数据集上的表现。
4, 本篇综述分析了现有的虚假新闻检测方法的局限,提出了未来的研究方向。


由上方右图所示,社交网络的新闻往往包括新闻内容,社交上下文内容,以及外部知识。其中新闻内容指的是文章中所包含的文本信息以及图片视频等多模态信息。社交上下文信息指的是新闻的发布者,新闻的传播网络,以及其他用户对新闻的评论和转发。外部知识指客观事实知识,通常由知识图谱表示外部知识。
虚假新闻检测的定义是给定新闻文章的新闻内容,社交上下文内容,以及外部知识,去判断新闻文章的真假。
本篇工作根据数据的标注情况将虚假新闻检测方法分为有监督虚假新闻检测方法,弱监督虚假新闻检测方法以及无监督虚假新闻检测方法。
有监督虚假新闻检测方法指在完全标注数据的情况下,对虚假新闻进行检测。本文按照输入数据的不同,将监督学习分为基于文章内容的有监督方法(其中包括基于文本的检测,基于图片内容的检测,以及基于多模态信息的检测);基于社交上下文的有监督方法(其中包括基于用户可信度的虚假新闻检测和基于传播信息的虚假新闻检测);基于外部知识的虚假新闻检测方法以及混合方法(利用以上的多种信息)。
弱监督虚假新闻检测方法指原有标注不精确,不完全的情况下,对虚假新闻检测。本文按照输入数据的不同,将弱监督学习分为基于文本的弱监督方法,以及基于社交上下文的弱监督方法。
无监督虚假新闻检测方法是指在完全没有标注数据的情况下对虚假新闻进行检测。
有监督虚假新闻检测

一,基于文章信息的虚假新闻检测

(一)基于文本的有监督虚假新闻检测

基于文本的有监督虚假新闻检测方法将新闻的文本信息作为输入,对虚假新闻进行检测。技术路线由下图所示。本文将详细介绍各个方法的内容。




IJCAI16年由香港中文大学的马晶博士发表的“Detecting rumors from microblogs with recurrent neural networks“首次将深度学习技术应用到虚假新闻检测中。该方法将新闻的每个句子输入到循环神经网络RNN,LSTM或者GRU中,利用循环神经网络的隐层向量表示新闻信息,将隐藏层信息输入到分类器中,得到分类结果。


IJCAI17年的文章“A Convolutional Approach for Misinformation Identification“首次利用卷积神经网络建模新闻文章。该工作将新闻事件的各个post映射到向量空间,之后将各个post向量拼接形成一个矩阵,之后利用卷积神经网络提取文本特征,将得到的嵌入向量输入到分类器中,得到最后的分类结果。


WWW18年香港中文大学马晶博士的文章“Detect rumor and stance jointly by neural multi-task learning “第一次将multi-task的思想应用到虚假新闻检测中。该文章将虚假新闻检测任务和立场分类任务组合成一个多任务模型,利用RNN作为backbone,训练两个任务,取得了不错的结果。


WWW19年香港中文大学马晶博士的文章“.Detect rumors on twitter by promoting information campaigns with generative adversarial learning”第一次将对抗训练的思想应用到虚假新闻检测中。该文章利用生成器将谣言转化为非谣言,将谣言转化为非谣言,扩展了训练数据。之后将生成器生成的新闻和原始新闻输入到判别器中进行虚假新闻检测。利用对抗学习,对抗训练生成器和判别器,提升模型的鲁棒性和分类准确率。


发表在EMNLP19的文章“Do Sentence Interactions Matter? Leveraging Sentence Level Representations for Fake News Classification”将新闻文章建模为一张以句子为节点,以句子间相似度为边的图。将虚假新闻检测问题转化为图分类问题。利用GCN融合图中节点之间的信息,获得节点嵌入向量,将节点向量池化得到图嵌入,输入分类器中进行分类,取得了不错的效果。


发表在WWW20的文章“Vroc: Variational autoencoder-aided multi-task rumor classifier based on text”使用变分自动编码器VAE自编码文本信息的方式得到新闻文本的嵌入表示,并且将得到的新闻向量进行多任务学习,提升了模型的效果。
(二)基于视觉信息的有监督虚假新闻检测

新闻中不仅包含文本信息,还包含图片,视频等视觉信息。
传统的基于统计学的方法利用附加图片的数目,图片流行度以及图片类型检测虚假新闻。然而这些基于统计学的特征无法描述图片的语义特征。
随着深度学习的兴起,大量的工作使用卷积神经网络VGG或者ResNet对图片进行特征抽取,利用抽取到的特征进行虚假新闻检测。但现有的图片造假技术可以更改图像的语义信息,传统基于CNN的模型只可以提取图片像素级信息,无法识别图片是否经过伪造。


计算机视觉方面的研究表明,经过修图软件伪造得到的图片与原始图片在频域的特征会有很大的不同。基于此,中科院曹娟老师团队提出虚假图片判别器MVNN,该工作发表在ICDM19上。MVNN提取图片的空域特征和频域特征,利用频领特征判别图片是否经过修图软件进行伪造,利用空域特征识别图片的语义信息,将得到的空域embedding和频域embedding拼接到一起,输入到分类器重,得到分类结果。该工作不但可以进行虚假图片的检测,还可以作为插件进行多模态虚假新闻的检测。
(三)基于多模态信息的有监督虚假新闻检测

以上研究表明文本信息和图片信息在虚假新闻检测任务是有效的。很直觉的想法是将文本信息和视觉信息结合起来进行虚假新闻检测。


现有的基于多模态信息进行虚假新闻检测方法大致可以分为三类:
1, 将多模态信息进行拼接融合:
随着深度神经网络和预训练模型的兴起,出现很多功能强大的特征提取器,比如文本特征提取器Bert,transformer等,视觉特征提取器VGG,Resnet等。很多学者利用视觉特征提取器提取视觉信息,利用文本特征提取器提取文本特征,之后将视觉信息和文本信息进行拼接融合,进行虚假新闻检测。


2019年发表在BIG MM的文章“Spotfake: A multi-modal framework for fake news detection “利用VGG19提取视觉信息,利用BERT提取文本信息,将视觉信息和文本信息拼接,输入到分类器中,对虚假新闻进行分类。
2020年发表在AAAI的“Spotfake+: A multimodal framework for fake news detection via transfer learning “利用VGG提取视觉特征,利用XLNET提取文本特征,将两者进行拼接输入到分类器中,对虚假新闻进行分类。


计算机研究与发展的文章“. MSRD: Multi-Modal Web Rumor Detection Method“考虑了新闻图片中包含的文本信息。使用LSTM建模文本信息以及图片中的文本信息,使用VGG建模视觉信息,最后将视觉信息,图片中的文本信息,新闻本身的文本信息拼接,得到最终的新闻表示,送入到分类器中,得到最终的分类结果。
但是直接将视觉信息和文本信息拼接的方法过于简单,无法充分利用多模态信息,很多学者设计一些辅助任务帮助模型更好的理解多模态信息。


发表在KDD18的“Eann: Event adversarial neural networks for multi-modal fake news detection “利用VGG提取视觉特征,利用Text-CNN提取视觉特征,将视觉信息和文本信息拼接得到新闻的表示。为了让模型更好的利用多模态信息,EANN设计了一个辅助任务,事件鉴别。事件鉴别器将拼接的多模态新闻信息作为输入,输出事件的类别。通过辅助任务更好的理解多模态信息,从而帮助虚假新闻检测。


发表在WWW18的文章“Mvae: Multimodal variational autoencoder for fake news detection“利用VGG提取图像特征,利用双向的LSTM提取文本特征,将视觉特征和文本特征拼接得到新闻的表示。为了让模型更好的利用多模态信息,MVAE设计了一个辅助任务,新闻重构任务。通过encoder编码新闻的视觉信息和文本信息,通过decoder将视觉信息和文本信息进行重构,通过重构任务,更好的融合新闻的多模态信息。最后,将编码器得到的新闻embedding输入到分类器中,得到新闻的分类。
2, 利用模态之间的对比识别虚假新闻
大量学者认为如果新闻图片内容与文本内容不符,则说明新闻是虚假新闻。基于该假设,学者将新闻的图片信息与文本信息编码后,计算两者的相似度,如果相似度较高,则说明新闻的文本信息和视觉信息匹配,为真实新闻;如果相似度较低,则说明新闻的文本信息和视觉信息彼此不匹配,为虚假新闻。


KDD20年发表的文章“Similarity-Aware Multi-modal Fake News Detection. Advances in Knowledge Discovery and Data Mining“是检测新闻图文相符性的代表工作。该工作利用image2text模型将视觉信息转化为文本信息,并通过全连接层将文本信息和视觉信息映射到同一向量空间中,之后对比视觉信息和文本信息之间的相似度。如果相似度较高,则图文相符,为真实新闻;如果相似度较低,则图文不符,为虚假新闻。


IPM21发表的文章“Detecting fake news by exploring the consistency of multimodal data“利用BERT建模文本信息,利用ResNet建模视觉信息,计算两者之间的相似度,判别图文是否相符。
3, 多模态信息增强
新闻往往即包含文字信息,又包含视觉信息,两种模态信息可以相互增强,视觉信息可以帮助模型更好的理解文本信息,文本信息也可以帮助模型更好的理解视觉信息。基于此,很多学者提出多模态之间的信息增强可以帮助模型更好的理解新闻内容,从而更好的分析新闻的真假。


中科院曹娟老师发表在ACM MM17的文章“Multimodal fusion with recurrent neural networks for rumor detection on microblogs“首次提出利用模态之间的注意力对模态之间的信息进行增强。该工作使用LSTM提取文本信息,使用VGG提取视觉信息,之后利用模态之间的注意力机制增强模态之间的信息理解,更好的对多模态信息进行理解,将融合的多模态信息输入到分类器中进行分类,取得不错的效果。


ACM MM19的文章“Multi-modal knowledge-aware event memory network for social media rumor detection“利用VGG提取视觉信息,利用双向GRU提取文本信息,利用注意力机制获得文本信息增强的视觉表示,更好的理解了多模态信息。


ACL21的文章“Multimodal Fusion with Co-Attention Networks for Fake News Detection “借鉴了人们阅读新闻时的习惯”人们通常是阅读一下文本,再看看图片,再阅读文本,再看看图片“,设计了双层的图片文本信息co-attention,从而更好的融合图片信息和文本信息。该工作认为图像的频域和空域信息对虚假新闻检测都是有必要的,因此作者使用VGG建模图片的空域信息,利用CNN建模图片的频域信息,使用co-attention将频域信息和空域信息进行融合,得到更好的图片表示。


SIGIR21年的文章使用BERT建模文本信息,使用ResNet建模视觉信息,使用co-attention的方法利用文本信息对视觉信息进行增强,利用视觉信息对文本信息进行增强。该工作还注意到了分层的语义信息,认为每一层的语义信息都对虚假新闻的检测有所帮助,因此该工作将BERT每四层的信息输出与图片信息进行融合,很好的利用了分层的语义信息。


CIKM21的工作利用预训练的BERT建模文本信息,利用ResNet建模视觉信息,利用多头transformer对文本信息和视觉信息进行融合,从而获得更好的新闻表示。除此之外,该工作还利用有监督的对比学习方法学习真实新闻和虚假新闻的高阶特征,从而更好的区分真实新闻和虚假新闻。该工作选择话题相似,且真实性相同的新闻作为正样本,选择话题相似,且真实性不同的新闻作为负样本,利用有监督的对比学习拉近正例之间的距离,拉远正例与负例之间的距离,从而学习到真实新闻和虚假新闻的高阶特征,更好的区分真实新闻和虚假新闻。


中科院曹娟老师团队发表在ACM MM21年的文章“Improving Fake News Detection by Using an Entity-enhanced Framework to Fuse Diverse Multimodal Clues”综合关注了多模态之间的互补信息,多模态的信息增强,以及多模态信息之间的对比。
该工作考虑了图片中的嵌入文字,图片实体,以及图片整体信息。
将图片中的嵌入文字作为文本信息的补充,利用BERT建模文本信息和图片中的嵌入文字。该工作利用VGG提取整张图片信息,利用目标识别算法提取图像实体。该工作将文本信息与图像整体信息利用co-attention进行融合从而实现多模态信息增强。该工作计算文本实体与视觉实体之间的相似度,从而计算文本信息与视觉信息的相关程度。
二,基于社交上下文的虚假新闻检测

现有的虚假新闻作者往往仿照真实新闻的写法编写虚假新闻,因此,仅仅根据虚假新闻的内容去判别虚假新闻是不够的。大量研究表明,新闻作者的可信度可以帮助我们进行虚假新闻检测,可信度高的用户发表的新闻文章更有可能是真实新闻,可信度低的用户发表的新闻更有可能是虚假新闻。社会学研究表明,真实新闻和虚假新闻在社交网络的传播情况往往有所不同,因此,可以利用新闻的传播信息对虚假新闻进行检测。
(一)基于用户可信度的虚假新闻检测

基于用户可信度的虚假新闻检测方法利用用户的profile以及用户的历史发文评估用户的可信度,之后对虚假新闻进行检测。


ACL20的文章GCAN构建了一张用户图,利用用户的profile作为图中节点的初始化信息,利用GCN得到用户的embedding,利用该用户信息进行虚假新闻检测。


NLPCC19的文章“user-Characteristic enhanced model for fake news detection in social meida”将新闻的传播网络和用户的社交网络建模为一张异质图,通过异质图神经网络建模图中节点信息,并将新闻信息和用户信息拼接到一起进行虚假新闻检测。


SIGIR21的工作“User Preference-aware Fake News Detection”利用用户的发文历史识别用户可信度,将其作为内因。同时该工作将新闻的传播情况作为外因,利用内因和外因共同进行虚假新闻检测。
(二)利用新闻的传播信息进行虚假新闻检测

真实新闻和虚假新闻在社交网络中的传播方式有所不同,大量学者根据新闻的传播情况对虚假新闻进行分类。利用传播方向对虚假新闻进行分类的技术路线如下图所示。本文将分文三种情况进行分类


1, 谣言传播时间线:
一些学者将谣言的传播过程看作是一个根据时间排列的顺序序列。


AAAI18的工作“Early detection of fake news on social media through propagation path classification with recurrent and convolutional networks”将谣言的传播与评论信息视做一个时间序列,利用RNN和CNN建模该序列,将两个隐向量拼接在一起,输入到分类层,得到分类结果。


AAAI20的工作“Interpretable rumor detection in microblogs by attending to user interactions”利用transformer建模时间序列,将源新闻以及其他转发句子作为transformer的输入,用time delay embedding替换掉原始transformer中的position embedding。将transformer输出的新闻嵌入向量输入到分类器中,得到分类结果。由于transformer优秀的表征能力,Plan取得了很好的效果。
2, 谣言传播树
基于谣言传播树的方法将谣言的传播过程建模为一个树形结构。源新闻作为树的根节点,转发以及评论信息作为分支节点和叶子节点。很多学者利用拓扑结构更好的建模传播树中的节点信息。


香港中文大学马晶博士发表在ACI18的工作“Rumor detection on twitter with tree-structured recursive neural networks”将谣言的传播过程建模为树形结构,该工作构建了一个bottom-up传播树,又构建了一个top-down传播树,并使用递归神经网络对树中的节点进行建模,对虚假新闻进行分类。


香港中文大学马晶博士发表在ACI20的工作“Debunking rumors on Twitter with tree transformer”利用tree transformer对谣言传播树进行建模,由于transformer优秀的表征能力,tree transformer取得了很好的效果。
3, 谣言传播图
由于图结构可以比树结构包含更复杂的拓扑结构,很多学者尝试使用图结构建模谣言的传播过程。根据节点和边的类别,可以将图分为同质图和异质图,只有一种节点和边类型的图称为同质图,具有多种节点和边类型的图称为异质图。本文将基于谣言传播图的方法分为同质图方法和异质量图方法。
(1) 基于同质图的方法:


AAAI20的工作“Rumor detection on social media with bi-directional graph convolutional networks”首次将新闻的传播过程建模为图结构,Bi-GCN利用top-down的图表示新闻的传播信息,利用bottom-up的图表示新闻的弥散信息,利用GCN去融合图中的节点信息,获得节点表征,Bi-GCN还提出了一种根节点强化机制,认为源新闻会对其他信息产生语义增强效果,因此在其余节点中融合了源新闻的信息。最后对top-down的图和bottom-up得到的节点信息进行池化得到两个图的图信息,再将两个图信息进行拼接,输入到分类器中,得到最终的分类结果。


新闻的传播过程本身就是一个动态的过程,以往基于静态图的工作仅仅考虑了传播结束时的状态,没有考虑新闻传播过程的动态变化,北京邮电大学吴斌老师团队发表在IPM的文章“Temporally evolving graph neural network for fake news detection”将新闻的传播图建模为一张动态图,考虑了新闻传播过程的动态变化,利用动态图神经网络得到动态图嵌入向量,将其输入到分类器中得到分类结果,取得了不错的效果。


SIGIR的工作“Rumor Detection on Social Media with Event Augmentations”首次将图对比学习的思想引入到虚假新闻检测中,该工作利用dropout边,mask点,以及提取子图的方式对传播图进行数据增强,将原始传播图作为锚点,将数据增强的图作为正例,将其他图作为负例,利用对比学习学习传播图的高阶不变特征,更好的理解新闻的传播过程,取得很好的效果。
(2) 基于异质图的方法:
社交上下文中存在多种节点类型和关系类型,比如用户-发表-贴子关系,出版商-发表-新闻关系,用户-关注-用户关系,以往的基于同质图的方法往往仅考虑了一种节点特征和关系特征,无法涵盖多种节点与关系,具有一定的局限性。因此出现很多研究利用异质图对虚假新闻的传播过程进行建模,从而表示更加丰富的语义,取得了不错的效果。


WSDM19年的工作“Beyond news contents: The role of social context for fake news detection”考虑了新闻发布者-发布-新闻关系,用户-传播-新闻关系,以及用户-关注-用户关系,构建异质信息网络,使用矩阵分解的方式获得各个新闻节点的嵌入表示,进行虚假新闻检测,异质信息网络包含更加丰富的语义信息,从而更好的对新闻进行建模,取得更好的分类效果。


发表在PAKDD21的工作“Fake News Detection with Heterogenous Deep Graph Convolutional Network”考虑了新闻-领域之间的关系,新闻-转发贴子之间的关系,新闻-发布者之间的关系构建新闻异质信息网络,并使用异质图卷积网络获得新闻节点的embedding,输入到分类器中,得到分类结果。
三:结合外部知识的虚假新闻检测方法



知识图谱中包含大量外部知识。外部知识含有丰富的语义信息,可以帮助我们更好的理解新闻内容;同时外部知识包含大量客观事实,可以与新闻内容进行对比,从而识别出虚假新闻中的虚假之处。
现有的结合外部知识进行虚假新闻检测的方法大致分为三种:
(一)利用注意力机制融合外部知识



发表在MM19的工作“Multi-modal knowledge-aware event memory network for social media rumor detection“利用注意力机制,将视觉信息和外部知识信息融合到文本表示中,帮助模型更好的理解新闻文本内容,对虚假新闻进行分类,取得了很好的效果。


AAAI20的工作“KAN: Knowledge-aware Attention Network for Fake News Detection“利用命名实体识别的方法将文本中的实体与知识图谱中的实体进行对齐,寻找到知识图谱中对应的实体。为了具有更加丰富的语义信息,KAN模型利用了知识图谱中对应的实体上下文信息。利用设计的multi head attention的方式融合新闻文本信息,实体信息以及实体上下文信息,获得语义丰富的新闻文本建模,对虚假新闻分类取得了很好的效果。
(二)利用图神经网络融合外部知识:



发表在ICMR20的工作“Fake news detection via knowledge-driven multimodal graph convolutional networks“构建了一张包含文本信息,图像信息,以及知识图谱中实体信息的异质量信息网络,使用GCN对各个模态信息进行信息融合,得到融合文本信息,外界知识与视觉信息的新闻表示的新闻表示,取得很好的判别效果。


发表在ACL21的工作“meet the truth: Leverage Objective Facts and Subjective Views for Interpretable Rumor Detection”利用预训练的事实核查模型在外部知识语料重查找事实证据,将事实证据和新闻内容构造为星形图,利用GCN融合新闻内容和事实证据,对虚假新闻进行检测。
(三)利用外部知识和新闻内容的对比

以上的方法都是将外部知识融入到新闻内容中,从而获取更语义更丰富的新闻表征。但是以上方法没有考虑将外部知识与新闻内容进行对比,从而识别虚假新闻。人们在阅读新闻内容的时候,往往将新闻中的内容与客观事实或者常识知识进行对比,基于此,北京邮电大学胡琳梅团队发表在ACL21的工作“Compare to The Knowledge: Graph Neural Fake News Detection with External Knowledge”考虑将新闻内容中的抽取实体信息与知识图谱中的实体信息进行对比,从而识别出虚假新闻。


该工作利用实体连接方法抽取出新闻文本中的实体词,利用LDA方法抽取出文章的主题词,构建了包含主题节点,句子节点以及实体节点的异质信息网络,利用异质量图神经网络方法融合各种节点的语义信息,从而得到更丰富的文章表示。该工作利用知识图表示学习TransE获得实体在知识图谱中的表征,并利用知识图谱中的实体描述信息增强了知识图谱中实体的语义信息。通过对比网络,对比新闻内容中的实体信息与知识图谱中的实体信息,判断新闻内容是否符合客观事实和常识信息。最后将新闻的文本信息与对比的实体信息输入到分类器中,得到最后的分类结果。
弱监督虚假新闻检测

由于数据标注需要消耗大量的人力物力,现实场景通常没有大量有高质量标注的数据,现实场景存在大量不完全标注(部分数据有标注,部分数据没有标注),不精确标注(标注的数据往往粒度较粗),不准确标注(标注数据不一定准确,可能存在错误标注)的情况,因此需要模型可以在弱监督的场景下进行虚假新闻检测。
本文将弱监督虚假新闻检测模型分为基于文本的弱监督虚假新闻检测以及根据社交网络信息生成弱监督信号的弱社会监督虚假新闻检测。


一,基于新闻内容的弱监督虚假新闻检测

该类方法以新闻内容作为输入,利用图神经网络或者半监督方法在部分标注的数据进行虚假新闻检测。基于图的检测方法基于一个假设:图中相邻结点往往具有相似的标签。基于半监督的虚假新闻检测方法利用半监督方法首先用标注数据训练一个有监督的模型,让训练好的部分为无标注的数据打上伪标签,从而使带标签的数据越来越多,实现较好的训练效果。
(一)基于图结构



以上的三篇文章都是基于图结构的半监督虚假新闻检测方法。方法大同小异。首先建模新闻的文本信息作为新闻节点的初始化信息,之后利用新闻之间的相似性构图,将相似性较高的前n个新闻互相连边,之后根据图神经网络方法进行信息传递,获得新闻的嵌入表示,最后将嵌入表示输入到分类器中,得到新闻的分类结果。
(二)基于伪标签的方法



上图上半部分描述的是一篇Arxiv20的工作,该工作使用shared CNN提取新闻文本的公共特征,利用有标签的数据训练supervised CNN,使用cross entropy损失函数更新supervised CNN的参数,将无标注数据输入到训练好的supervised CNN和待训练的unsupervised CNN得到两个新闻embedding,利用mean squared error拉近两个embedding的距离从而训练unsupervised CNN。从而让unsupervised CNN的性能越来越好。
上图下半部分为该工作的改进版本,将原有的CNN替换为更容易建模文本信息的RNN,从而实现更好的建模效果。


发表在BESC的工作“A Deep Learning Model for Early Detection of Fake News on Social Media“和上述发表在Arxiv20的工作使用类似的结构,同样是训练一个有监督模型和一个无监督模型,但是该工作不仅利用了新闻内容信息,还利用了用户对新闻的评论信息以及作者的可信度信息,使用的信息更为广泛,从而取得了更好的效果。


发表在Expert Systems with Applications, 2021的工作利用了半监督学习方法temporal ensembling对无标注数据打伪标签,即让先前的epoch训练得到的模型为后续epoch的无标注数据打伪标签,从而让有标注的数据越来越多,实现更好的预测结果。


发表在ICEE20的工作“A Semi-supervised Learning Method for Fake News Detection in Social Media“利用LDA方法为无标注数据打伪标签,从而更好的训练无标注的CNN模型,取得不错的效果。


发表在2021Multimedia Tools and Applications的工作“A novel self-learning semi-supervised deep learning network to detect fake news on social media“利用有标注数据训练好的模型为无标注数据打伪标签,该工作创新的使用一个confidence function的方式为伪标签进行评定,选取质量较高的伪标签样本放入到标注数据中,这样提升了伪标签的质量,从而更好的进行半监督的虚假新闻检测。


发表在ACL19 workshop的方法“Assessing arabic weblog credibility via deep co-learning “利用co-learning的方法训练两个模型,让两个模型互相的为无标注的数据打伪标签,从而让两个模型互相越学越好,实现较好的效果。该工作设计一个以word embedding为输入的CNN网络和一个以character embedding为输入的CNN网络,先利用有标注数据训练两个网络,之后两个网络互相为无标注数据打上伪标签,从而获得更多的带标注数据训练两个网络,依次迭代,直至模型收敛,取得最佳效果。
二,社会弱监督虚假新闻检测

社交网络包含丰富的信息,可以根据社交网络中的信息为新闻打上标签,比如,可信度较低的用户相较于可信度较高的用户更有可能发表虚假新闻;引起用户较强情感波动的新闻更有可能是虚假新闻。社会弱监督方法利用社交网络的信息为新闻打上伪标签。


发表在ECML/PKDD的文章“. Early detection of fake news with multi-source weak social supervision“基于以下三个假设为新闻打上伪标签:1,可信度较低的用户更有可能发表虚假信息;2,新闻内容如果包含更大的政治偏见,则更有可能是虚假信息;3,新闻如果引起用户较大的情感极性变化,则更有可能是虚假新闻。该工作利用以上三个假设为无标注新闻标上伪标签,训练网络进行分类,取得了较好的效果。


AAAI20的工作“Weak supervision for fake news detection via reinforcement learning“利用用户的评论为新闻提供伪标签,从而提升半监督虚假新闻检测效果。该工作包含三个部分:数据标注器,强化学习选择器以及虚假新闻鉴别器。数据标注器利用用户的评论为无标注数据提供伪标签,但是伪标注数据往往含有较大的噪声,强化学习选择器利用强化学习技术保留标注质量高的伪标签,丢弃标注质量低的伪标签。虚假新闻鉴别器利用利用真实标签和伪标签标注的数据,训练分类器,鉴别虚假新闻。


发表在ICDM20的文章“Adversarial active learning based heterogeneous graph neural network for fake news detection“将新闻作者,主题以及新闻文本信息构建为一张异质图,并且根据异质图表示学习方法融合各个异质节点的信息,进而为无标注数据提供伪标签,作者又利用主动学习思想对伪标签进行挑选,挑选出可信度较高的,作为最终的分类。
无监督虚假新闻检测

无监督虚假新闻检测指在没有数据标注的情况下对虚假新闻进行检测。有以下四种类型:
一,将虚假新闻检测问题转化为异常检测问题



TEMSCON17的工作“Detecting rumors on online social networks using multi-layer autoencoder“将虚假新闻检测问题转化为异常检测问题。该工作基于一个假设”用户发表的虚假新闻是用户发文历史中的异常行为“。该工作选取待检新闻作者的历史发文信息,利用自编码器对用户发文历史做编码,映射到向量空间,选出向量空间的离群点,将其视为异常,识别虚假新闻。


发表在PRL18的工作“Unsupervised rumor detection based on users' behaviors using neural networks”与上一篇文章基于同一个框架,将虚假新闻检测问题转化为异常检测问题,不同于上一篇文章仅仅考虑了新闻的文本信息,该工作考虑了新闻的文本信息与用户评论信息进行虚假新闻检测,有了更丰富的语义信息,取得了不错的效果。
二,利用图结构进行无监督虚假新闻检测

利用图结构的虚假新闻检测方法基于一个假设“图中相邻节点往往具有相似的标签”。


发表在ACM Conference on Hypertext and Social Media2020的工作“Unsupervised fake news detection: A graph-based approach”利用新闻之间的相似性构建新闻图。之后作者利用新闻发布者可信度等方式为一些新闻打上伪标签,将其作为种子节点,之后利用标签平滑特性为其他虚假新闻进行分类,从而取得不错的效果。
三,基于迁移学习的方式

基于迁移学习的方式利用有标注的英文数据集预训练模型,将预训练好的模型放到无标注的中文或者其他语言数据集中进行微调。迁移学习可以帮助模型在无标注的文本下取得不错的效果。


Arxiv21的工作“Cross-lingual COVID-19 Fake News Detection”提出了一个中文新冠疫情虚假新闻检测数据集,并且在多语言的场景下对虚假新闻进行分类。英文数据集具有大量标注好的数据,中文数据集规模较小,同时大量数据暂无标注,将英文数据集下预训练好的虚假新闻检测模型迁移到中文虚假新闻检测任务中,进行微调。
该工作用一个预训练好的BERT在具有大量标注数据的英文数据集上进行微调,之后将中文新闻翻译为英文,再输入到精调后的BERT中,进行分类。


ECML/PLDD21年的工作“Rumour detection via zero-shot Cross-lingual Transfer Learning”同样在标注充足的英文语料上训练模型,将其迁移到无标注的中文语料库中。该工作使用标注充足的英文数据集微调一个teacher BERT模型,之后让teacher BERT在无标注的中文语料对中文语料标注伪标签,利用伪标签的数据训练student BERT,通过不断的往复,student BERT取得很好的分类效果。
数据集:

本文总结了广泛应用的虚假新闻检测数据集,并统计了这些数据集所包含的数据特征。本文统计数据集是否支持多语言虚假新闻检测,数据集中的新闻数据是否包含文本信息和图像信息,数据集中是否包含用户的profile,是否包括用户回复与转发信息,是否包括用户社交网络信息,以及时间空间信息等。最后本文还统计了数据集中对数据的分类labels数目。统计结果如下表所示。


实验结果:

本文统计了各种虚假新闻检测方法在常见数据集上的ACC分类准确度结果,如下表所示:


未来工作:

本文总结了以往关于虚假新闻检测工作的不足,并提出了一些未来可行的研究方向。
一,小样本虚假新闻检测:

现有的深度学习方法在虚假新闻检测任务上较为有效,但是这些方法需要大量的数据进行训练,从而达到理想的效果。但是在紧急事件虚假新闻检测,以及虚假新闻早起检测任务中,可能无法短时间收集大量训练数据,在这种情况下,现有的虚假新闻检测模型往往无法取得较好的效果。
我们需要探索在少样本的情况下,进行虚假新闻检测的方法。
二,跨领域虚假新闻检测:

现有的大多数虚假新闻检测数据集都基于单个领域的新闻数据进行区分的,然而现实世界中的新闻往往涵盖多个不同的领域。由于不同领域之间的区别,如领域特定的使用词语不同,领域特定的新闻传播方式不同,造成了现有的虚假新闻检测方法无法较好的进行跨领域虚假新闻检测。
我们需要探索可以适应各个领域的虚假新闻检测方法。
三,跨语言虚假新闻检测:

现有的虚假新闻检测数据集往往是基于英文的,现有的检测方法也大多基于同一语种的新闻进行检测,但是现实的社交网络平台上,往往充斥着各种平台的发言,现有模型很难理解各个语种的信息,因此需要我们探索出可以实现多语言虚假新闻检测的方法。

IT圈老男孩1 发表于 2022-11-28 21:12

非常全面,总结的特别好!!

FeastSC 发表于 2022-11-28 21:17

我靠!!!谢谢师姐,哈哈哈,好玩儿

Mecanim 发表于 2022-11-28 21:26

谢谢大佬,条理很清晰[赞同]

DomDomm 发表于 2022-11-28 21:30

兄弟,表三搬运的那篇文章呀

Ylisar 发表于 2022-11-28 21:33

兄弟,求下这篇文章的原文名或地址[可怜][可怜]

jquave 发表于 2022-11-28 21:36

自己的在投论文,哈哈哈

stonstad 发表于 2022-11-28 21:38

非常厉害啊

KaaPexei 发表于 2022-11-28 21:47

您好,请问Table 2的出处可以给一下嘛

KaaPexei 发表于 2022-11-28 21:50

额,都是自己的论文,但是投出去,暂时没有发表
页: [1] 2
查看完整版本: 万字长文带你入门虚假新闻检测