CVPR2021 AGORA: Avatars in Geography Optimized for Regression Analysis

Ilingis · 发表于 2022-2-12 19:28

0、关键词

synthetic dataset, 3D human pose and shape estimation,SMPL-X
1、链接

该论文来自德国图宾根大学（University of Tübingen）的马克斯普朗克智能系统研究所（Max Planck Institute for Intelligent Systems），所长是著名CV教授Michael Black。MPII在CV领域十分高产，自是不用多提，论文中使用的大量baseline，同样来自这个研究所已经发布的研究成果。

论文链接：https://arxiv.org/pdf/2104.14643.pdf

论文主页：https://agora.is.tue.mpg.de/index.html

论文代码：https://github.com/pixelite1201/agora_evaluation

论文提供了一个全新的人工合成数据集AGORA。该数据集由逼真的3D场景和人体模型合成，包含有3D/2D人体关键点、3D人体模型、2D人体分割掩码等丰富的标注，主要用于3D人体姿态与形状（3D human pose and shape，3DHPS）估计任务。更多细节请访问论文主页。

AGORA数据集样例展示

2、主要内容概述

※ Introduction

首先，论文在Introduction中重述了现在已公开的用于3DHPS任务的benchmarks的缺陷，例如，limited clothing, focus on single subjects, have limited occlusion, are captured in laboratory environments, or have a limited range of ages and ethnicities.，基于这些有“缺陷”的数据集，评价标准只能是3D joints，而不是更精确的body shapes，所以还有与AGORA数据集相关的新的评价标准evaluation protocol；

然后，作者开始介绍构建AGORA的思路，其中有两点最为重要。1）购买高质量的带有纹理的人体扫描模型（包括四个商业付费网站3DPeople、AXYZ、Human Alloy、Renderpeople），再依赖合成数据与图形学渲染（rely on synthetic data and a graphics rendering pipeline），基于丰富的背景（HDRI panoramas and 3D environments），用Unreal游戏引擎合成了大量逼真的图像。2）对于每一个3D人体扫描模型（一系列三维点），作者使用SMPL-X人体参数模型（由大量顶点和相互连接的三角形组成，CG中的常用3D模型）来精准地匹配它的身体形状，包括三个主要部分：整体（body）、手部（hand）、面部（facial）。【值得一提的是，论文使用的模型SMPL-X，以及相关的fit方法SMPLify均来自它们自己的实验室，研究传承相当紧密~】
※ Related Work

因为是发布数据集类的文章，作者主要强调了现有的人体相关数据集的“缺陷”。

Datasets with real images. 包括使用multiple synchronized cameras + optical markers构建的数据集HumanEva, Human3.6M, and TotalCapture，他们的缺陷包括lack of background variation in lab scenarios, only one subject in each image, no scene occlusions, and little clothing variety due to the attachment of markers；另外，Alternatively，也有一些数据集构建方法使用了marker-less motion capture，包括MuPoTS-3D, PanopticStudio, MPIINF-3DHP-Test, and HUMBI。这类方法则存在精度较marker-based方法更低的缺陷（due to yaw drift）。AGORA认为这样得的标签只能算是参考数据（reference data），不能用来作为GTs，作为比较，他们提出了的SMPL-X meshes具有高保真度（fidelity），可以作为伪标签（pseudo ground truth）。最后，上述数据集中，只有PanopticStudio和HUMBI两个数据集包含了身体（bodies）标签的同时，还包括人脸（face）和手（hands）的标签。

Synthetic datasets. 首先提到合成数据集需要足够真实（sufficiently realistic），并指出了具体的衡量点，包括body shape, ethnicity, motion, cloth deformation, texture, and interaction with environments. 数据集MHOF, LTSH, 3DPeople, and SURREAL直接在背景图像中放置3D人体模型（如SMPL, MakeHuman, or Mixamo），而数据集MPI-INF-3DHPTrain and MuCo-3DHP则直接将分割得到的真人图像作为前景粘贴到2D背景图像中。作者认为这些方法生成的图像都不够真实，Such composition does not faithfully reflect the local statistics of pixel intensity in real images and does not support methods that learn how humans interact with scenes。唯一与AGORA比较相近的工作是SimPose，其构建思路与作者类似，但作者认为其场景简单、人体类别单一，且该数据集未公开。还有一些基于GAN方法的数据集如Human synthesis and scene compositing（AAAI2020）和Generating 3D people in scenes without people（CVPR2020），但生成模型得到的结果总会存在人工瑕疵（imagesartifacts），合成图像不适合（unsuitable）用来作为GTs。

Other human-related datasets. 还有一些数据集不包括3D人体标注，但是包含2D人体关节点或人体分割掩码标注（如OCHuman，LSP-Extended, COCO, and MPII），或者使用真实图像+拟合的人体模型作为GTs（如EFT（arxiv2020）, STRAPS（BMVC2020） and 3DOH50K（CVPR2020）），更进一步的，有些方法使用motion或multi-view matching来获得视频中复杂场景的人体模型。对于这类合成方式，作者认为尽管更鲁棒，但with unknown accuracy in body shape and pose.

最后，作者总结道，AGORA是集大成者，解决了上述众多缺陷AGORA provides realistic textures, complex body shapes and clothing, complex varied scenes and lighting, high-resolution (4K) imagery, varied occlusion, all with high-quality 3D ground truth.

AGORA与现有可用于3DHPS任务的数据集比较

※ Method: Obtaining reference data

作者的主要思路借鉴了三块内容：1）基于自己所在实验室之前的研究成果人体模型SMPL-X body model，和拟合人体的方法single-view SMPLify-X fitting，来拟合人体主体形状（包括body shape、face shape和hand shape），关于SMPL-X及SMPLify-X需要另外解读；2）借鉴另一项工作，即带有衣服的扫描人体的拟合方法fitting body shape under clothing（Detailed, accurate, human shape estimation fromclothed 3D scan sequences （CVPR2017）），来拟合人体的皮肤（skin and hair）和所穿的衣服（clothing）；3）再使用Graphonomy（CVPR2019）来人工地调整标注皮肤和衣服相关的顶点（vertices）。最终复合多个terms得到目标函数。

另外，作者发现小孩（child）的人体扫描并不能像成人（adults）那样使用同一套人体拟合模型和方法，因此进一步提出了改进的方法，即使用SMIL（the mean infant body template）生成小孩的模板Tchild，再取其与成人模板Tadult的插值平均，细节见论文。
※AGORA Dataset

AGORA数据集总计包括公开标签的14529张训练集图像（包含2930个scans）、1225张验证集图像（包含259个scans），和未公开标签的3387张测试集图像（包含1051个scans）。总计包含了4240个扫描人体模型（high-quality textured scans），其中有257个是儿童扫描体（child scans）。

另外，经过再次的人工修正（manually curate），这4240个扫描体中，有3161个同时包含对齐的人体、人脸和手（those with well aligned body, face and hands (3161, BFH)），有1079个仅仅包含对齐的人体（those only with well aligned bodies (1079, B)）。这意味着，如果基于AGORA做body estimation相关的任务，可使用全部数据集，如果需要做face或hand相关的estimation任务，仅一部分数据可用。

Fitting Accuracy 关于数据集中，3D人体的拟合精确度，作者基于the high-quality 3D scans，提出了两个考察关键因素Skin error和Penetrating clothing error。并用具体数值证明了伪标签的可信赖度（Thus, we believe that the SMPL-X fits provide valid pseudo ground truth.）

Evaluation metrics andEvaluation protocol常见的用于3DHPS方法的度量标注，都需要在计算error之前，进行Procrustes alignment，制定的标注忽视了3D物体的尺寸、位移和旋转（eliminates discrepancies in scale, translation and rotation, measuring only the error in poses (PA-MPJPE) and shapes (PA-MVE/V2V)）。作者指出，这是因为当前HPS数据集的构成造成的，因为他们只有pose和shape的标注，而AGORA包含了complete 3D pseudo ground truth:body parameters of each person and their spatial arrangement in the 3D scene，足够支持更全面的误差度量。因此，作者不采用Procrustes alignment，并提出了一系列新的度量指标（包括MPJPE、MVE、NMJE和NMVE），用于单张图像中多人的pose和shape的估计误差度量，细节见论文。
※Experiments

由于是数据集文章，作者需要强调的是数据集的优越性。作者设计了两种实验，一种是在AGORA上测试SOTA的3DHPS方法，来证明该数据集是否能反映当前领域的问题（指数据集确实更具有挑战性？）；另一种是测试AGORA是否能用来作为预训练数据集，帮助提升SOTA方法性能。【角度和思路值得借鉴~】

Baseline Evaluation. 通过比较发现，SOTA方法在旧的指标MPJPE和MVE下的表现好，但新的指标NMJE和NMVE下表现差，指出MPJPE alone is not enough to evaluate performance on multi-person images，说明AGORA揭示了多人姿态估计中的误检和漏检问题；接着，SMPL-X模型下，各个SOTA方法的表现并不统一，没有各项指标均表现最好的，于是提出了消融研究（ablation studies），讨论各项参数的影响occlusion, child shape, distance to the center of the image and orientation。【学会如何在自己的文章中，做此类消融实验】

Baseline Improvement. 作者选用三种不同的模型拟合方式，即Pretrained SPIN、SPIN finetuned with AGORA and EFT([MPII+LSPet+COCO])和论文提出的基于SPIN-ft的模型，然后再在两个数据集合（3DPW和AGORA）上进行测试，通过实验数据证明Training with AGORA leads to significant improvement in performance on both datasets。
※Conclusions and Future Work

We have presented AGORA, a new dataset that goes beyond current datasets to include challenging cases of environmental occlusion, person-person occlusion, scale variation, children, crowds, etc. AGORA is challenging and reveals limitations of existing methods. Despite being synthetic, fine-tuning on AGORA improves performance of a SOTA method on the natural 3DPW dataset. We introduce a new metric to include misses and false positives and facilitate analysis of the SOTA methods on images with multiple people. We also introduce a simple child body model and provide better 3D ground truth for images with children. Future work should include adding images of varied camera height, indoor scenes, multi-view images, larger crowds, animals, and movement. 【贴个原文，学习一下总结方式】
3、新颖点

尽管是数据集论文，没有大量的公式，也没有提出花里胡哨的新算法，但是却解决了3DHPS任务中，始终没有真实且有可靠的GTs的多人姿态估计数据集的痛点。可以预见，这将推动一大批更高效的3DHPS方法的诞生。另外，本文有两个有趣之处：

1）站在巨人的肩膀上。AGORA的主要重难点在于生成并拟合逼真的3D人体模型，SMPL-X模型是关键，而其是现成的工作，且本就是作者自己所在实验室的成果，这个巨人正是自己的MPII实验室，提出AGORA事半功倍；

2）填补空白。尽管作者在文章中多次强调了AGORA如何解决了之前众多数据集的缺陷，但我认为，其主要贡献是融合了multi-person和in the wild两大特点，这是文章在做数据集对比时最大的优势。当然，在对比中也能发现，AGORA确实在各项指标中，都做到了更完备，因此可以作为可靠的挑战性更大的benchmark。
4、总结

AGORA数据集虽然被用来解决3DHPS问题，但其提供的丰富的标注GTs，可以使得其被用作做很多其它与人体相关的下游CV任务，包括2D mutli-person pose estimation、instance segmentation、hand keypoints detection、face landmarks detection、head pose estimation等。

		自动登录	找回密码
密码			立即注册

CVPR2021 AGORA: Avatars in Geography Optimized for Regression Analysis

本帖子中包含更多资源