xiaozongpeng 发表于 2021-5-26 09:48

CVPR2021 行人再识别虚拟生成数据预训练UnrealPerson

论文标题:UnrealPerson: An Adaptive Pipeline towards Costless Person Re-identification
论文地址:UnrealPerson: An Adaptive Pipeline towards Costless Person Re-identification
Unreal数据集下载:FlyHighest/UnrealPerson
本文对我们最新的工作UnrealPerson进行简单介绍,文章已被CVPR2021接收为oral paper。我们在实验中充分验证了在虚拟生成数据上预训练的有效性,所提方法能够大大降低再识别算法训练、部署时的标注成本。我们设计的数据生成流程生成的行人图像,无论是直接迁移、监督学习,还是无监督学习,都有出色的表现。
Motivation

行人再识别技术在智能园区、智慧公安等场景有着广泛的应用。目前学术界流行的几个公开数据集(Market-1501,MSMT17等)规模较小,一方面真实场景数据集标注成本高,另一方面隐私问题越来越受到大家关注,已经出现了数据集下架撤回的情况。受之前一些工作(PersonX,RandPerson等)的启发,我们认为使用游戏引擎生成虚拟数据应该是一个可行高效的获取海量行人再识别数据的方案。并且虚拟生成流水线一旦打通,其灵活性是真实数据无法比拟的。我们甚至可以有意模拟部署场地的情况开发虚拟场景,快速低成本地获取海量、高质量的数据。怀着这样的愿景,我们开始了对虚拟数据生成技术的调研探索。
Method

之前的工作使用了Unity3D来生成行人图像,我们经过调研,发现UnrealEngine4可定制性更强一些,在邱卫超博士 @邱卫超 的指导和帮助下,我们最终选择了UE4+UnrealCV作为我们的生成工具。这里简单介绍一下我们用到的工具和数据生成流程。
工具介绍
Makehuman. 生成行人数据首先得有行人,在对比了各种行人模型生成技术后,我们选择了makehuman,这款软件一直由社区维护,开源,人体模型质量尚可。虽然比不上那种高清扫描的3D模型,但胜在成本低、能无限生成。Mixamo. 目前是adobe在维护的一个工具,能为3D人体模型生成动作,比如走路、跑步、站立、交谈、打电话,甚至边走路边玩手机的动作都有。UE4. 这个软件爱玩游戏的同学应该耳熟能详了,不少大作都是使用UE4制作的,比如风靡全球的《绝地求生》(PUBG)。我们从UE的官方商城里看到了不少高质量、贴近真实场景的地图关卡,并从中挑选够买了一些城市、商超的地图,作为我们虚拟数据生成的场景。UnrealCV. 这是为UE4开发的插件,专门为生成CV数据集打造,能够对当前游戏画面进行截图,同时产生分割标注。利用分割标注可以切分图像中的行人目标,直接生成行人再识别数据集。这个工具大大节省了我们数据收集和数据标注的时间。
数据生成流程
使用makehuman生成人体模型
2. 在UE4中实现一个character蓝图,绑定动作、外观、网格体等
3. 在关卡中预先设置好摄像机坐标、方向,以及人物行进路径
4. 运行游戏关卡,截取画面并保存分割标注,后续进一步处理成bbox作为行人再识别数据集
这些步骤中1、2都可以复用, 不需要每次都重新做。这套生成方案的成本很低,花销主要在虚拟场景(即地图关卡)上。我们在各个步骤都编写了脚本,因此这套方案的自动化程度也很高。
UnrealPerson Pipeline
我们把虚拟生成数据的预训练模型应用在各种下游任务当中,将这一范式称为UnrealPerson Pipeline,并在实验中验证了其在supervised learning、unsupervised learning、direct transfer,乃至多种边缘场景,如black reid,low illumination上的有效性。
Experiments

下面这张表(表1)展示了我们在数据生成方面的一些探索,主要是人体衣物材质、随身携带物、困难样本对性能的影响。这里的性能展示的是使用我们的虚拟生成数据训练的模型直接在三大真实数据集上测试的结果。
表1 ID数、摄像机数量、衣物材质、携带物、困难样本对直接迁移性能的影响
下面的表格(表2)展示了我们的数据和之前的真实数据、生成数据的性能对比。可以看到,我们的数据不但超过了之前的虚拟合成数据集,甚至也超越了MSMT17迁移到Market和duke的性能。
表2 直接迁移性能对比
另外,在Unsupervised domain adaptation任务上,我们也取得了非常高的准确率(表3)。因为JVTC引入了时空信息,在无监督的任务上,以我们的Unreal数据作为source domain,甚至都超过了监督训练的结果。
表3 无监督域适应任务性能对比
在几种边缘场景,包括室内场景(GRID)、低光照场景(LIPS)、Black ReID(衣物相似,深色为主),我们的数据集在direct transfer上也展现了优势,只需要在数据生成时稍作调整,就能使得生成数据的分布更加接近这些困难的真实场景。
在这里也顺便安利一下我们发表在ECCV 2020的工作,Camera-based Batch Normalization。上述的所有实验都使用了CBN,庄子杰博士 @庄子杰 的代码也非常整洁好用:automan000/Camera-based-Person-ReID。
结论

我们基于虚拟数据设计了unrealperson pipeline,将虚拟数据预训练应用在各种下游任务当中取得了良好的效果。这一工作展现了虚拟数据的能力和应用前景。其实unreal data在数量上(id数、场景数、摄像机数……)、质量上,都还有不少提升空间,是否有更有效的unreal data的利用方式也是值得探索的问题。近期我们也会放出一些人体模型资源和ue4素材,希望大家多多关注。
参考


[*]^Dissecting Person Re-Identification From the Viewpoint of Viewpointhttps://www.semanticscholar.org/paper/Dissecting-Person-Re-Identification-From-the-of-Sun-Zheng/3ff74b685615f50736e10294811281c41de3d61e
[*]^Surpassing Real-World Source Training Data: Random 3D Characters for Generalizable Person Re-Identificationhttps://www.semanticscholar.org/paper/Surpassing-Real-World-Source-Training-Data%3A-Random-Wang-Liao/9e99f02d153728a8bcad2dbe8f60dad79a457154
[*]^UnrealCV: Virtual Worlds for Computer Visionhttps://www.semanticscholar.org/paper/UnrealCV%3A-Virtual-Worlds-for-Computer-Vision-Qiu-Zhong/cae56bb2657943bb07823fdf076625643e75095a
[*]^Joint Visual and Temporal Consistency for Unsupervised Domain Adaptive Person Re-Identificationhttps://www.semanticscholar.org/paper/Joint-Visual-and-Temporal-Consistency-for-Domain-Li-Zhang/7dac9cc7e0b4ad6e63db59cdefd3a805bd1db279
[*]^Rethinking the Distribution Gap of Person Re-identification with Camera-Based Batch Normalizationhttps://www.semanticscholar.org/paper/Rethinking-the-Distribution-Gap-of-Person-with-Zhuang-Wei/6dc2c37a62ad509649bf20487114f0c805deb794
页: [1]
查看完整版本: CVPR2021 行人再识别虚拟生成数据预训练UnrealPerson