CVPR 2023 | 文字捏脸、场景重建等游戏行业内首创工作

APSchmidt · 发表于 2023-4-3 19:43

CVPR（Conference on Computer Vision and Pattern Recognition）作为计算机视觉和模式识别领域最顶级的学术会议之一，至今已有40年历史。在 Google Scholar 的学术会议 / 杂志排名中，CVPR 名列总榜第四，仅次于Nature、NEJM和Science。今年的CVPR采用单轨（Single Track）会议形式，并取消了传统Oral的评选。上月，CVPR公布了本年度的论文接收结果，本次 CVPR 会议共收到9155篇的投稿，中稿率为25.78%。

本次网易伏羲共有5篇论文入选，涉及文字捏脸、场景重建、动作生成、视觉导航等研究方向。欢迎跟随此篇文章，共同学习计算机视觉和模式识别领域的最前沿成果。

01 基于文本到参数翻译的游戏角色自动创建

篇名：《Zero-Shot Text-to-Parameter Translation for Game Character Auto-Creation》
关键词：文字捏脸，多模态
涉及领域：text-to-3D, Multimodal
论文链接：https://arxiv.org/abs/2303.01311
角色扮演游戏（如逆水寒、永劫无间等）见证了角色定制系统的巨大成功。过去，玩家需要手动调整上百种面部参数来创建心仪的角色。现在，通过网易伏羲首创的图像捏脸系统，玩家上传照片便可以自动创建与之长相一致的游戏角色。图像捏脸系统解放了玩家的双手，广受好评。但是这一过程仍需要玩家找到心仪角色的照片，搜索图片的过程仍旧耗时，而且当玩家想要天马行空的角色时则很难找出真实图像与之对应。
那能否只输入一段文字就能创建出与之对应的游戏角色呢？
为此，网易伏羲与北航邹征夏教授提出基于文本到参数翻译的游戏角色自动创建方法（T2P），继业界首创图像捏脸之后再次首创文字捏脸。无需任何文字-角色数据对训练，充分挖掘多模态预训练大模型的语言、视觉感知能力，仅需输入一段文字便可自动创建出惟妙惟肖的游戏角色。

文字捏脸效果图

角色的头部是一种连续参数(如骨骼位置)和离散参数(如发型)控制的骨骼驱动模型。由于离散参数的非连续表示导致的学习困难，以往的方法只能优化连续参数和少量离散参数。本文方法首次实现了全部连续参数和离散参数的联合优化。此外，本方法得到的具有物理意义的参数使玩家或游戏开发者能够按需进一步调整角色的外观，对用户是灵活的、友好的。
文字捏脸算法T2P包括三个关键：
1）训练模拟器模拟游戏引擎，使游戏角色的渲染变得可微；
2）随机生成大量“游戏角色-面部参数”数据对来预训练翻译器；
3）文字捏脸：输入文本提示，微调翻译器来搜索连续面部参数。在此基础上，基于文本驱动的进化搜索联合优化连续面部参数和离散面部参数、并对角色的侧面施以监督。

方法总图

在文字捏脸时，翻译器搜索连续面部参数，文本驱动的进化搜索进一步联合优化连续面部参数和离散面部参数的效果如下图：

翻译器、进化搜索创建的角色

文字捏脸算法T2P可以捏出惟妙惟肖的虚构人物（如灭霸）、动物（如猪）、真人：

文字捏脸结果

本方法创建的角色还支持多个角色插值，来看看长得像灭霸的猴子是什么样子的：

角色插值结果

基于本论文相同底层技术的文字捏脸玩法目前已经上线逆水寒手游，将在428寻梦测试和630全平台公测中和大家见面，欢迎广大玩家来游戏中实机体验。

02 神经隐式曲面的无偏体积渲染方法探索，并辅以几何先验

篇名：《Towards Unbiased Volume Rendering of Neural Implicit Surfaces with Geometry Priors》
关键词：3D建模，神经渲染
涉及领域：3D reconstruction, neural rendering
多视角三维重建是计算机视觉中的重要任务，并在AR、VR、数字孪生以及3D游戏等有着丰富的应用场景，如沉浸式活动场景构建、3D建筑与物体建模等。近年来NeRF结合隐式曲面的方法飞速发展，为多视角三维重建提供了新的可能。现有的代表方法NeuS 和VolSDF，实现了SDF场的体积渲染，可以生成较为完整的3D Mesh，但由于渲染的权重与深度值存在偏置，精度仍然受限。我们分析了导致偏置的2个因素：视线方向与表面法线之间的夹角、可学习的SDF标准差参数。
在此分析的基础上，我们改进了SDF体积渲染方法，通过视线与法线夹角（余弦绝对值的倒数）来加权SDF场。理论推导与仿真实验表明，我们的渲染方法去除了视线夹角导致的偏置。

另一方面，在训练初期SDF标准差参数较大时，渲染的深度值仍存在不可忽略的偏置。因此我们使用预训练的CasMVSNet获取3D点云，以此监督SDF场的0水平集，通过几何先验减少初期偏置。

公开数据集重建结果可视化对比，第一行为NeuS，第二行为我们的方法

公开数据集重建结果可视化对比，第一行为NeuS，第二行为我们的方法

公开数据集上实验结果表明，在无物体掩码监督的情况下，我们的方法显著降低了重建误差。本文的隐式曲面重建方法即将在网易瑶台业务中上线应用。
03 基于光线追踪逆向渲染的纹理和材质分解

篇名：《PTIR: Path Tracing based Inverse Rendering for Reflectance Decomposition》
关键词：逆向渲染，反射分解
涉及领域：Inverse Rendering, Reflectance Decomposition

逆向渲染（Inverse Rendering）是一种从多视角RGB图像中估计场景几何、材质和照明的方法，具有广泛的应用前景，包括电影、游戏、虚拟现实、增强现实等领域。最近的一些研究使用预训练的球面高斯系数（Sphere Gaussian）来建模场景中的间接光照，然而，这种方法会模糊高频反射细节，并且这种预训练的间接光照存在一定误差。另一类方法则是采用递归的方式完整计算了场景中的间接光照，然而这类方法需要大量计算资源，且难以优化。
因此我们提出了一种新的端到端的逆向渲染框架，旨在更准确地分解多视角图像中的间接光照和材质系数：
1. 我们基于蒙特卡洛采样 (Monte Carlo Sampling) 代替球面高斯实现间接光照的渲染过程，以更好地建模间接光照。
2. 我们缓存表面光场而非采用完整的递归光线追踪过程来避免高计算成本和优化难度。
3. 我们引入了辐射一致性约束，监督来自未观察方向的间接光照，从而提升了光照估计的准确性。

方法流程图。在Tracing阶段，我们进行光线采样并追踪每根入射光线的来源；在Rendering阶段，我们基于蒙特卡洛方法实现渲染；最后通过与真实渲染结果计算损失函数以优化材质和光照变量。

实验结果表明，我们的方法能更精细地还原间接光照渲染结果，从而实现更准确的材质恢复效果。本文算法将作为网易瑶台隐式曲面场景重建方案的技术基础，优化纹理和材质的重建精度。
04 基于双边手解耦的从身体动力学预测多样化3D手势

篇名：《Diverse 3D Hand Gesture Prediction from Body Dynamics by Bilateral Hand Disentanglement》
关键词：3D建模，多样化手势预测
涉及领域：3D reconstruction, diverse hand gesture prediction
论文链接：https://arxiv.org/abs/2303.01765

从上半身骨骼动态预测自然和多样化的3D手势是虚拟化身创建中的一项实际但具有挑战性的任务。这种非语言的body-hand交互在各种虚拟化身场景中起着重要作用，包括人机交互、协同语音手势合成、全息移动等。然而，预测自然且多样化的3D手势面临如下三个主要的挑战：
1. 空间不对称性：双手的运动往往是不对称，现有的方法忽略了这一现象，以整体的方式生成双手，导致了生成手势的不自然现象。
2. 时间一致性：预测生成的手势应该与上半身骨骼动态在时序上保持一致。
3. 非确定性预测：给定上半身骨骼运动序列，可以有各种的3D手势匹配身体姿势而不是确定性结果。由于现有数据集只有少数avatar身份，因此生成的手通常缺乏多样性。

方法流程图。在第一阶段，我们从连续的上半身skeleton中生成初始化自然地双手手势。在第二阶段，我们根据第一阶段的初始化手势进行多样化

基于以上讨论，在这项工作中，我们提出了一种新颖的基于双边手解耦的两阶段3D手生成方法，以从身体动力学中实现自然多样的3D手预测。在第一阶段，我们通过两个手解耦分支生成自然的手势。考虑到两只手的不对称手势和运动，我们引入了空间残差记忆(SRM)模块，通过残差表征学习对身体和每只手之间的空间交互进行建模。同时，为了增强双手动作与身体在整体上的协调性，我们提出一个时间运动记忆(TMM)模块。TMM可以有效地建模身体动力学和两个手运动之间的时间关联。第二阶段建立在3D手部预测在给定连续身体姿势的情况下应该是不确定的这一见解之上。因此，我们根据第一阶段的初始输出进一步多样化我们的3D手势预测。具体而言，我们提出了一种原型记忆采样策略(PSS)，通过基于梯度的马尔可夫链蒙特卡罗 (MCMC)采样生成不确定的手势。
此外，现有的3D手势预测数据集包含的avatar身份不足10个，导致手势的多样性不足。因此，我们新收集了一个大型 3D手势数据集（称为TED Hands），其中包含来自in-the-wild场景的超过1.7K个avatar身份。 我们的数据集包含大约 100小时的TED演讲，该数据集的提出可以支持对多样化3D手势预测的研究。
大量实验表明，我们的方法在B2H数据集和我们新收集的TED Hands数据集上优于最先进的模型。

结果可视化：从上到下，第一行的样本来自 B2H 数据集，其他来自我们新收集的TED Hands数据集。

05 通过探索历史导航关系的物体目标视觉导航

篇名：《Object-Goal Visual Navigation via Effective Exploration of Relations among Historical Navigation States》
关键词：强化学习，物体目标视觉导航
涉及领域：reinforcement learning, object-goal visual navigation

基于强化学习的物体目标视觉导航旨在让机器人能够自主地在复杂的未知环境中导航和探索。与传统的导航方法不同，强化学习视觉导航的机器人具有一定的智能和自主性，能够通过自主的探索和学习来优化它的导航策略，实现更加高效和准确的导航。在强化学习视觉导航中，机器人通常会通过视觉传感器（例如摄像头）来感知环境，并使用强化学习算法来学习如何在环境中移动以达到其目标。强化学习算法会基于机器人当前的状态和目标，选择合适的行动来使得机器人获得最大的奖励，从而逐步优化机器人的导航策略。

强化学习视觉导航的应用非常广泛，包括机器人导航、智能家居等领域。例如，机器人在医院中可以通过强化学习视觉导航来自主地导航到目标房间，从而实现快速的物流和服务；在智能家居中，智能家居设备也可以通过强化学习视觉导航来自主地移动到指定位置，完成各种家居任务。

之前的研究集中于学习如何将图像转化为有效的导航表示，但却忽略了导航状态对导航效率和有效性的影响。我们发现导航状态之间的高度相关性可能导致现有方法的导航效率低下或失败。因此，我们提出了一种受历史启发的导航策略学习（HiNL）框架，它可以通过探索历史导航状态之间的关系来有效地估计导航状态。HiNL由两个新颖的组件组成：（i）一个历史感知状态估计（HaSE）模块；（ii）一个基于历史的状态正则化（HbSR）。
我们先设计了历史感知状态估计（HaSE）模块以减轻历史状态对当前状态估计的影响，并且HaSE还可以鼓励机器人对当前的观察变化保持警惕，从而使机器人能够做出有效的行动。具体来说，HaSE首先分析历史导航状态之间的相关性，然后消除历史状态中重复信息对当前状态估计的影响。受益于此，机器人能够动态地对当前的视觉观察做出反应，然后做出明智的导航动作。
此外，现有的基于强化学习的视觉导航系统通常会产生高相关性的导航状态，从而导致较差的导航性能。为此，我们设计了一种基于历史的状态正则化（HbSR），以明确抑制训练中导航状态之间的相关性。我们引入了对所有状态之间的相关性的显式约束，即基于历史的状态正则化（HbSR）。具体而言，HbSR强制要求一个状态与其之前的所有状态（除了其上一个状态）之间的相关性（即相关性）要低。我们不约束连续两个步骤的状态，因为在实践中，考虑到导航的连续性，时间上接近的状态通常具有相关性。在使用我们的HbSR进行训练之后，导航状态之间的相关性显著降低。
实验结果表明，我们的方法在测试环境中的成功率和SPL方面都明显优于最先进的方法。网易伏羲未来将在机器人业务中推动物体目标视觉导航算法的实际落地。
结语：

特别感谢北航邹征夏教授对《Zero-Shot Text-to-Parameter Translation for Game Character Auto-Creation》的重要研究贡献，感谢昆士兰大学于昕教授团队对《Diverse 3D Hand Gesture Prediction from Body Dynamics by Bilateral Hand Disentanglementl》和《Object-Goal Visual Navigation via Effective Exploration of Relations among Historical Navigation States》的重要研究贡献。

kyuskoj · 发表于 2023-4-3 19:47

好羡慕这些人能有自己的成果[发呆]

kirin77 · 发表于 2023-4-3 19:49

你一定也口以！[耶]

		自动登录	找回密码
密码			立即注册

CVPR 2023 | 文字捏脸、场景重建等游戏行业内首创工作

本帖子中包含更多资源