IJCAI16年由香港中文大学的马晶博士发表的“Detecting rumors from microblogs with recurrent neural networks“首次将深度学习技术应用到虚假新闻检测中。该方法将新闻的每个句子输入到循环神经网络RNN,LSTM或者GRU中,利用循环神经网络的隐层向量表示新闻信息,将隐藏层信息输入到分类器中,得到分类结果。
IJCAI17年的文章“A Convolutional Approach for Misinformation Identification“首次利用卷积神经网络建模新闻文章。该工作将新闻事件的各个post映射到向量空间,之后将各个post向量拼接形成一个矩阵,之后利用卷积神经网络提取文本特征,将得到的嵌入向量输入到分类器中,得到最后的分类结果。
WWW18年香港中文大学马晶博士的文章“Detect rumor and stance jointly by neural multi-task learning “第一次将multi-task的思想应用到虚假新闻检测中。该文章将虚假新闻检测任务和立场分类任务组合成一个多任务模型,利用RNN作为backbone,训练两个任务,取得了不错的结果。
WWW19年香港中文大学马晶博士的文章“.Detect rumors on twitter by promoting information campaigns with generative adversarial learning”第一次将对抗训练的思想应用到虚假新闻检测中。该文章利用生成器将谣言转化为非谣言,将谣言转化为非谣言,扩展了训练数据。之后将生成器生成的新闻和原始新闻输入到判别器中进行虚假新闻检测。利用对抗学习,对抗训练生成器和判别器,提升模型的鲁棒性和分类准确率。
发表在WWW20的文章“Vroc: Variational autoencoder-aided multi-task rumor classifier based on text”使用变分自动编码器VAE自编码文本信息的方式得到新闻文本的嵌入表示,并且将得到的新闻向量进行多任务学习,提升了模型的效果。
(二)基于视觉信息的有监督虚假新闻检测
2019年发表在BIG MM的文章“Spotfake: A multi-modal framework for fake news detection “利用VGG19提取视觉信息,利用BERT提取文本信息,将视觉信息和文本信息拼接,输入到分类器中,对虚假新闻进行分类。
2020年发表在AAAI的“Spotfake+: A multimodal framework for fake news detection via transfer learning “利用VGG提取视觉特征,利用XLNET提取文本特征,将两者进行拼接输入到分类器中,对虚假新闻进行分类。
计算机研究与发展的文章“. MSRD: Multi-Modal Web Rumor Detection Method“考虑了新闻图片中包含的文本信息。使用LSTM建模文本信息以及图片中的文本信息,使用VGG建模视觉信息,最后将视觉信息,图片中的文本信息,新闻本身的文本信息拼接,得到最终的新闻表示,送入到分类器中,得到最终的分类结果。
但是直接将视觉信息和文本信息拼接的方法过于简单,无法充分利用多模态信息,很多学者设计一些辅助任务帮助模型更好的理解多模态信息。
KDD20年发表的文章“Similarity-Aware Multi-modal Fake News Detection[J]. Advances in Knowledge Discovery and Data Mining“是检测新闻图文相符性的代表工作。该工作利用image2text模型将视觉信息转化为文本信息,并通过全连接层将文本信息和视觉信息映射到同一向量空间中,之后对比视觉信息和文本信息之间的相似度。如果相似度较高,则图文相符,为真实新闻;如果相似度较低,则图文不符,为虚假新闻。
IPM21发表的文章“Detecting fake news by exploring the consistency of multimodal data“利用BERT建模文本信息,利用ResNet建模视觉信息,计算两者之间的相似度,判别图文是否相符。
3, 多模态信息增强
新闻往往即包含文字信息,又包含视觉信息,两种模态信息可以相互增强,视觉信息可以帮助模型更好的理解文本信息,文本信息也可以帮助模型更好的理解视觉信息。基于此,很多学者提出多模态之间的信息增强可以帮助模型更好的理解新闻内容,从而更好的分析新闻的真假。
中科院曹娟老师发表在ACM MM17的文章“Multimodal fusion with recurrent neural networks for rumor detection on microblogs“首次提出利用模态之间的注意力对模态之间的信息进行增强。该工作使用LSTM提取文本信息,使用VGG提取视觉信息,之后利用模态之间的注意力机制增强模态之间的信息理解,更好的对多模态信息进行理解,将融合的多模态信息输入到分类器中进行分类,取得不错的效果。
ACM MM19的文章“Multi-modal knowledge-aware event memory network for social media rumor detection“利用VGG提取视觉信息,利用双向GRU提取文本信息,利用注意力机制获得文本信息增强的视觉表示,更好的理解了多模态信息。
ACL21的文章“Multimodal Fusion with Co-Attention Networks for Fake News Detection “借鉴了人们阅读新闻时的习惯”人们通常是阅读一下文本,再看看图片,再阅读文本,再看看图片“,设计了双层的图片文本信息co-attention,从而更好的融合图片信息和文本信息。该工作认为图像的频域和空域信息对虚假新闻检测都是有必要的,因此作者使用VGG建模图片的空域信息,利用CNN建模图片的频域信息,使用co-attention将频域信息和空域信息进行融合,得到更好的图片表示。
中科院曹娟老师团队发表在ACM MM21年的文章“Improving Fake News Detection by Using an Entity-enhanced Framework to Fuse Diverse Multimodal Clues”综合关注了多模态之间的互补信息,多模态的信息增强,以及多模态信息之间的对比。
该工作考虑了图片中的嵌入文字,图片实体,以及图片整体信息。
将图片中的嵌入文字作为文本信息的补充,利用BERT建模文本信息和图片中的嵌入文字。该工作利用VGG提取整张图片信息,利用目标识别算法提取图像实体。该工作将文本信息与图像整体信息利用co-attention进行融合从而实现多模态信息增强。该工作计算文本实体与视觉实体之间的相似度,从而计算文本信息与视觉信息的相关程度。
二,基于社交上下文的虚假新闻检测
NLPCC19的文章“user-Characteristic enhanced model for fake news detection in social meida”将新闻的传播网络和用户的社交网络建模为一张异质图,通过异质图神经网络建模图中节点信息,并将新闻信息和用户信息拼接到一起进行虚假新闻检测。
AAAI18的工作“Early detection of fake news on social media through propagation path classification with recurrent and convolutional networks”将谣言的传播与评论信息视做一个时间序列,利用RNN和CNN建模该序列,将两个隐向量拼接在一起,输入到分类层,得到分类结果。
AAAI20的工作“Interpretable rumor detection in microblogs by attending to user interactions”利用transformer建模时间序列,将源新闻以及其他转发句子作为transformer的输入,用time delay embedding替换掉原始transformer中的position embedding。将transformer输出的新闻嵌入向量输入到分类器中,得到分类结果。由于transformer优秀的表征能力,Plan取得了很好的效果。
2, 谣言传播树
基于谣言传播树的方法将谣言的传播过程建模为一个树形结构。源新闻作为树的根节点,转发以及评论信息作为分支节点和叶子节点。很多学者利用拓扑结构更好的建模传播树中的节点信息。
香港中文大学马晶博士发表在ACI18的工作“Rumor detection on twitter with tree-structured recursive neural networks”将谣言的传播过程建模为树形结构,该工作构建了一个bottom-up传播树,又构建了一个top-down传播树,并使用递归神经网络对树中的节点进行建模,对虚假新闻进行分类。
香港中文大学马晶博士发表在ACI20的工作“Debunking rumors on Twitter with tree transformer”利用tree transformer对谣言传播树进行建模,由于transformer优秀的表征能力,tree transformer取得了很好的效果。
3, 谣言传播图
由于图结构可以比树结构包含更复杂的拓扑结构,很多学者尝试使用图结构建模谣言的传播过程。根据节点和边的类别,可以将图分为同质图和异质图,只有一种节点和边类型的图称为同质图,具有多种节点和边类型的图称为异质图。本文将基于谣言传播图的方法分为同质图方法和异质量图方法。
(1) 基于同质图的方法:
AAAI20的工作“Rumor detection on social media with bi-directional graph convolutional networks”首次将新闻的传播过程建模为图结构,Bi-GCN利用top-down的图表示新闻的传播信息,利用bottom-up的图表示新闻的弥散信息,利用GCN去融合图中的节点信息,获得节点表征,Bi-GCN还提出了一种根节点强化机制,认为源新闻会对其他信息产生语义增强效果,因此在其余节点中融合了源新闻的信息。最后对top-down的图和bottom-up得到的节点信息进行池化得到两个图的图信息,再将两个图信息进行拼接,输入到分类器中,得到最终的分类结果。
新闻的传播过程本身就是一个动态的过程,以往基于静态图的工作仅仅考虑了传播结束时的状态,没有考虑新闻传播过程的动态变化,北京邮电大学吴斌老师团队发表在IPM的文章“Temporally evolving graph neural network for fake news detection”将新闻的传播图建模为一张动态图,考虑了新闻传播过程的动态变化,利用动态图神经网络得到动态图嵌入向量,将其输入到分类器中得到分类结果,取得了不错的效果。
SIGIR的工作“Rumor Detection on Social Media with Event Augmentations”首次将图对比学习的思想引入到虚假新闻检测中,该工作利用dropout边,mask点,以及提取子图的方式对传播图进行数据增强,将原始传播图作为锚点,将数据增强的图作为正例,将其他图作为负例,利用对比学习学习传播图的高阶不变特征,更好的理解新闻的传播过程,取得很好的效果。
(2) 基于异质图的方法:
社交上下文中存在多种节点类型和关系类型,比如用户-发表-贴子关系,出版商-发表-新闻关系,用户-关注-用户关系,以往的基于同质图的方法往往仅考虑了一种节点特征和关系特征,无法涵盖多种节点与关系,具有一定的局限性。因此出现很多研究利用异质图对虚假新闻的传播过程进行建模,从而表示更加丰富的语义,取得了不错的效果。
WSDM19年的工作“Beyond news contents: The role of social context for fake news detection”考虑了新闻发布者-发布-新闻关系,用户-传播-新闻关系,以及用户-关注-用户关系,构建异质信息网络,使用矩阵分解的方式获得各个新闻节点的嵌入表示,进行虚假新闻检测,异质信息网络包含更加丰富的语义信息,从而更好的对新闻进行建模,取得更好的分类效果。
发表在PAKDD21的工作“Fake News Detection with Heterogenous Deep Graph Convolutional Network”考虑了新闻-领域之间的关系,新闻-转发贴子之间的关系,新闻-发布者之间的关系构建新闻异质信息网络,并使用异质图卷积网络获得新闻节点的embedding,输入到分类器中,得到分类结果。
三:结合外部知识的虚假新闻检测方法
发表在MM19的工作“Multi-modal knowledge-aware event memory network for social media rumor detection“利用注意力机制,将视觉信息和外部知识信息融合到文本表示中,帮助模型更好的理解新闻文本内容,对虚假新闻进行分类,取得了很好的效果。
AAAI20的工作“KAN: Knowledge-aware Attention Network for Fake News Detection“利用命名实体识别的方法将文本中的实体与知识图谱中的实体进行对齐,寻找到知识图谱中对应的实体。为了具有更加丰富的语义信息,KAN模型利用了知识图谱中对应的实体上下文信息。利用设计的multi head attention的方式融合新闻文本信息,实体信息以及实体上下文信息,获得语义丰富的新闻文本建模,对虚假新闻分类取得了很好的效果。
(二)利用图神经网络融合外部知识:
发表在ICMR20的工作“Fake news detection via knowledge-driven multimodal graph convolutional networks“构建了一张包含文本信息,图像信息,以及知识图谱中实体信息的异质量信息网络,使用GCN对各个模态信息进行信息融合,得到融合文本信息,外界知识与视觉信息的新闻表示的新闻表示,取得很好的判别效果。
发表在ACL21的工作“meet the truth: Leverage Objective Facts and Subjective Views for Interpretable Rumor Detection”利用预训练的事实核查模型在外部知识语料重查找事实证据,将事实证据和新闻内容构造为星形图,利用GCN融合新闻内容和事实证据,对虚假新闻进行检测。
(三)利用外部知识和新闻内容的对比
以上的方法都是将外部知识融入到新闻内容中,从而获取更语义更丰富的新闻表征。但是以上方法没有考虑将外部知识与新闻内容进行对比,从而识别虚假新闻。人们在阅读新闻内容的时候,往往将新闻中的内容与客观事实或者常识知识进行对比,基于此,北京邮电大学胡琳梅团队发表在ACL21的工作“Compare to The Knowledge: Graph Neural Fake News Detection with External Knowledge”考虑将新闻内容中的抽取实体信息与知识图谱中的实体信息进行对比,从而识别出虚假新闻。
发表在BESC的工作“A Deep Learning Model for Early Detection of Fake News on Social Media“和上述发表在Arxiv20的工作使用类似的结构,同样是训练一个有监督模型和一个无监督模型,但是该工作不仅利用了新闻内容信息,还利用了用户对新闻的评论信息以及作者的可信度信息,使用的信息更为广泛,从而取得了更好的效果。
发表在Expert Systems with Applications, 2021的工作利用了半监督学习方法temporal ensembling对无标注数据打伪标签,即让先前的epoch训练得到的模型为后续epoch的无标注数据打伪标签,从而让有标注的数据越来越多,实现更好的预测结果。
发表在ICEE20的工作“A Semi-supervised Learning Method for Fake News Detection in Social Media“利用LDA方法为无标注数据打伪标签,从而更好的训练无标注的CNN模型,取得不错的效果。
发表在2021Multimedia Tools and Applications的工作“A novel self-learning semi-supervised deep learning network to detect fake news on social media“利用有标注数据训练好的模型为无标注数据打伪标签,该工作创新的使用一个confidence function的方式为伪标签进行评定,选取质量较高的伪标签样本放入到标注数据中,这样提升了伪标签的质量,从而更好的进行半监督的虚假新闻检测。
发表在ACL19 workshop的方法“Assessing arabic weblog credibility via deep co-learning “利用co-learning的方法训练两个模型,让两个模型互相的为无标注的数据打伪标签,从而让两个模型互相越学越好,实现较好的效果。该工作设计一个以word embedding为输入的CNN网络和一个以character embedding为输入的CNN网络,先利用有标注数据训练两个网络,之后两个网络互相为无标注数据打上伪标签,从而获得更多的带标注数据训练两个网络,依次迭代,直至模型收敛,取得最佳效果。
二,社会弱监督虚假新闻检测
发表在ECML/PKDD的文章“. Early detection of fake news with multi-source weak social supervision“基于以下三个假设为新闻打上伪标签:1,可信度较低的用户更有可能发表虚假信息;2,新闻内容如果包含更大的政治偏见,则更有可能是虚假信息;3,新闻如果引起用户较大的情感极性变化,则更有可能是虚假新闻。该工作利用以上三个假设为无标注新闻标上伪标签,训练网络进行分类,取得了较好的效果。
AAAI20的工作“Weak supervision for fake news detection via reinforcement learning“利用用户的评论为新闻提供伪标签,从而提升半监督虚假新闻检测效果。该工作包含三个部分:数据标注器,强化学习选择器以及虚假新闻鉴别器。数据标注器利用用户的评论为无标注数据提供伪标签,但是伪标注数据往往含有较大的噪声,强化学习选择器利用强化学习技术保留标注质量高的伪标签,丢弃标注质量低的伪标签。虚假新闻鉴别器利用利用真实标签和伪标签标注的数据,训练分类器,鉴别虚假新闻。
发表在ICDM20的文章“Adversarial active learning based heterogeneous graph neural network for fake news detection“将新闻作者,主题以及新闻文本信息构建为一张异质图,并且根据异质图表示学习方法融合各个异质节点的信息,进而为无标注数据提供伪标签,作者又利用主动学习思想对伪标签进行挑选,挑选出可信度较高的,作为最终的分类。
无监督虚假新闻检测
TEMSCON17的工作“Detecting rumors on online social networks using multi-layer autoencoder“将虚假新闻检测问题转化为异常检测问题。该工作基于一个假设”用户发表的虚假新闻是用户发文历史中的异常行为“。该工作选取待检新闻作者的历史发文信息,利用自编码器对用户发文历史做编码,映射到向量空间,选出向量空间的离群点,将其视为异常,识别虚假新闻。
发表在PRL18的工作“Unsupervised rumor detection based on users' behaviors using neural networks”与上一篇文章基于同一个框架,将虚假新闻检测问题转化为异常检测问题,不同于上一篇文章仅仅考虑了新闻的文本信息,该工作考虑了新闻的文本信息与用户评论信息进行虚假新闻检测,有了更丰富的语义信息,取得了不错的效果。
二,利用图结构进行无监督虚假新闻检测
利用图结构的虚假新闻检测方法基于一个假设“图中相邻节点往往具有相似的标签”。
发表在ACM Conference on Hypertext and Social Media2020的工作“Unsupervised fake news detection: A graph-based approach”利用新闻之间的相似性构建新闻图。之后作者利用新闻发布者可信度等方式为一些新闻打上伪标签,将其作为种子节点,之后利用标签平滑特性为其他虚假新闻进行分类,从而取得不错的效果。
三,基于迁移学习的方式