找回密码
 立即注册
查看: 1784|回复: 20

计算机图形学领域还有哪些没有啃到肉的问题?

[复制链接]
发表于 2020-11-27 11:07 | 显示全部楼层 |阅读模式
计算机图形学领域还有哪些没有啃到肉的问题?
发表于 2020-11-27 11:12 | 显示全部楼层
二十年前,图形学研究如火如荼,现在回归正常了,在某些人眼里就变成已死了。计算机理论顶会STOC、FOCS一年才三百多人,没人觉得是已死学科;网络顶会SIGCOMM一年也三百多人,没人觉得是已死学科;19年CVPR和NeurIPS暴涨也不过分别九千和一万五千人。SIGGRAPH这几年,虽然人数确实比十年前有所下降,但是参会人数都在15000-20000左右,19年是18000左右。放到整个CS学科里,算是最大的会议了。一个已死的学科会有这么多人感兴趣?
不同年份SIGGRAPH参与人数,来源:维基百科
所谓图形学已死,其实就是一部分人追热点跑的比谁都快,觉得只要没有一帮VC在屁股后面追着的都是已死学科;另一部分人是受不住诱惑从图形学跳坑,然后看空图形学以彰显自己跳坑的明智。有些人会无视自己搞不定的问题以保护自己的自尊心,然后声称图形学已经没有什么问题需要解决了。顺便说,2019年一大批靠PPT起家的公司垮了,一大堆追热门方向的调包侠找不到工作,于是一帮人开始喊深度学习已死了,灰飞烟灭了,其实也都是一个套路。
无论最上层的物理和几何模型有多么fancy,图形学的本质还是计算。从工业应用角度来看,目前比较高质量的物理模拟和渲染,计算都太慢。一般来说,电影级别的效果,都得上计算集群,而且动不动就跑好几天。数据量也太大,动不动一帧百GB。以毛发模拟为例,正常人头上有约10万根毛发,猫猫狗狗身上有上百万根毛发,而目前效果最好的ADONIS跑3万左右的毛发所需时间就需要以周计,尤其是碰撞和摩擦。物理模型其实都不难,但是落实到数值算法上就有一堆的问题,时间步长、稳定性等等。目前学术界很多文章是靠调参数和hack才能保证可接受的时间步长下的稳定性。
而电影工业里,美术希望一切都可调可交互(0.1-10帧/秒),而不是模拟、渲染只能提交集群和整个工作室的人一起排队用机时结果导演不满意打回去重跑;游戏工业里,玩家要求的是实时(60帧/秒),而且不能说你只做一个效果、只在两千美元一块的高端显卡上实时。一般要求,模拟、绘制三角形、材质、光照、镜头、抗锯齿效果等等整体做到在中端显卡上甚至中高端手机上实时,这就要求一个效果在开发机上1ms以下。
这两年有一些用深度学习来加速模拟和渲染的尝试,以及做压缩的尝试。但是都还很初级,能加速的模型还非常有限,整体质量也和经典算法有差距。
人们对效果要求越来越高,但计算力却没能随着人们的要求而发展,研究越来越难。并且由于各种现实考量(学生要毕业,教授要评tenure等等),学术界和工业界关心的问题越来越不一样。有些学者更愿意去解决一些toy problem,而不是倾向于算法实际中管用。于是图形学越来越难吸引人投钱,没钱就没学生,没学生就没成果,没成果每年SIGGRAPH文章就更少,恶性循环。而业界面临的问题就是,想要招到既熟悉学术前沿,又熟悉实际应用落地的人,简直太难了。
另一方面,很多学者一般使用自己开发的框架,只做核心内容,不怎么考虑用户习惯,也不熟悉落地的应用场景。因此算法就算是整理开源了,也要几乎全部重写才可能用到业界常用的工具链里(电影工业是Houdini、Maya插件;游戏工业是Unreal和Unity插件)。这些插件的开发本身就比较复杂,不同的用户可能有差异巨大的需求、应用场景、工作流程、魔改版工具链、代码规范等等。通常,为了适应这些不同,要做大量的配套组件、用户交互界面以打通数据流和让算法更好用,并且要能和有具体需求的用户协作完成这些配套工具的设计开发。而学术界本身熟悉甚至用这些工具的人就比较少,愿意走出自己的comfort zone去做这些engineering和marketing的就更少。而业界对于前沿算法熟悉的人又很少。结果就是两边很难接洽起来,一些SIGGRAPH文章最后就只停留在文章状态,难以落地;而业界有可能还在用十几年前的技术,难以发展。这种状况,其实是很可惜的。
以上说的是全世界都有的问题。具体到中国来说,又涉及了一个图形学教育的问题。我们不能只给学生讲如何裁剪填充多边形计算曲线曲面,然后要求他们就业时懂渲染、懂模拟、懂Mesh、会写Shader、会写CUDA、玩得转Maya/Houdini、也熟悉Unreal/Unity。
甚至某些方向,国内基本没有教材。这里郑重推荐一下闫老师的GAMES101(https://sites.cs.ucsb.edu/~lingqi/teaching/games101.html)和胡老师的GAMES201(https://forum.taichi.graphics),是我见过最好的中文图形学课程了。
以上种种困难,确实会让一部分人对图形学望而却步。但是我一直相信事在人为:如果你因为觉得一件事很难做成,然后就不去做了,那这件事就真的做不成了。人呢,要能沉下心来做才会让一个领域进步。而所谓行行出状元,每个行业的佼佼者都不会被亏待。
Have fun. Be awesome.如何看待32年后,图形学第二次获得图灵奖?这对接下来的计算机图形学的应用方向有何引导?

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
发表于 2020-11-27 11:17 | 显示全部楼层
还有比我们童欣研究员的这个talk更能解决题主的这些问题的吗?没有!看完童姥对于data-driven graphics前世今生未来发展(尤其在深度学习时代中的机遇)的阐述,你只会觉得计算机图形学!大有可为啊大有可为!
早在深度学习之前,机器学习就已经被应用于图形学研究中。随着近年来深度学习研究的进展,计算机图形学也通过与深度学习的紧密结合而得到了新的发展。展望未来,机遇与挑战并存。本文根据微软亚洲研究院首席研究员童欣博士在中国科大本科创新班上讲课内容整理而成。


引入:三维图形学的基本要素与研究方法



图形学的一个核心课题是如何在计算机里有效地产生和表达可视的三维内容。遵循对物理世界的观察,我们可以把研究对象进一步解构为如下研究课题:
第一方面是几何,就是三维空间中的形状;第二就是材质,它决定了当光打到这个物体上的时候,最后呈现出什么样的颜色;第三是动态,我们做出来的东西应当有一些复杂逼真的动态效果。最后,当我们想把这个场景呈现到屏幕上时,我们必须模拟光在这个虚拟场景中进行传输的整个过程,最后生成一幅具有真实感的图像,这个过程由绘制完成。




因为真实世界是三维的,很自然的我们可以按照真实世界的物理规律去在计算机中进行建模和模拟,这样产生了基于物理的方法。这个方法构建了图形学研究的基石,能对图形对象进行很好的建模和模拟,但是仍有一些缺点。第一,一个简洁的物理公式可以描述非常多的现象,但当用一个简单的物理公式去描述真实世界中所有这些细节的时候,导致过程复杂和庞大的计算量。第二,当艺术家想创造一些完全属于想象中的虚拟世界时候,如何放宽这些物理限制,同时还能生成看起来合理的非常漂亮的图像,就变成了一个很大的挑战。




上个世纪末,随着捕捉设备的发展,大家开始直接从真实世界中捕捉到高质量的图形学内容,比如用于记录几何数据的三维扫描仪,和在影视行业中广泛应用的运动捕捉技术。我把这一类方法叫做基于数据的方法(data-based approach)。它基本策略是对目标对象做一个非常直接、致密的采样,在使用时只需要做插值,就可以生成想要的结果。其好处是结果质量高,重构很快,计算很简单。缺点就是设备昂贵,使用起来也很复杂,对于用户的专业性有很高的要求。更麻烦是,即便只是捕捉一个对象,生成的数据量也非常大,并且数据之间缺乏联系,很难把用户的编辑传递到所有数据中去。因此这种方法只能满足一些特定应用,在大多数情况下还是很不方便的。




2000年左右,大家开始尝试一种新的方法,还是从真实世界中捕捉一些样本,然后运用这些样本结合机器学习的方法学习到欲求解空间中的一个模型,再用这个模型来推出新结果。我们把这个方法叫做数据驱动的方法(data-driven approach),它并不是简单地直接用数据进行插值,而是从数据首先利用机器学习得到解空间的一个模型出来,由此生成新的结果。这个方法有两个好处。第一,由于数据是从真实世界中捕捉来的,所以结果质量高。第二,可以通过模型对数据进行有效的编辑维护。这个方法过去多年被广泛应用,但它仍有一个一直解决不了的问题就是:到底应该用什么方法去学习模型,这个模型又应该具有什么特性?




在过去几年,我们组在 data-driven approach 方面做了一系列研究工作,结合自己和同行们的探索渐渐总结出了一些思路。下面我们先做个考古,看看在深度学习出现之前数据驱动的图形学研究,然后再讲深度学习和图形学结合面临的挑战和我们的探索;最后展望未来这一领域中还存在哪些问题和挑战。




数据驱动的图形学的过去



深度学习出现以前,基于数据驱动图形学主要聚焦于如何从稀疏和少量数据中有效构建模型。这方面有三个常用的解决技巧:第一:利用稀疏性先验,找到一个空间,数据在空间的投影是稀疏的,第二,对问题分解,通过构建一些局部模型;三,如果一个问题的维度比较高,就把它 decompose 成一系列比较低维度的问题。


利用稀疏性求解表面材质


在这个工作[1]中,我们假设物体的几何,光照已知,希望从尽可能少的图片中恢复物体表面的反射属性。同时,我们想回答一个理论问题,给定一个物体的材质,最少需要多少张图像才能恢复出结果。




通过观察真实世界物体表面材质,我们发现:第一,大量的物体表面材质都可以由若干种基础材质组成,基础材质非常稀疏;第二。当我们建模每一个点的 BRDF 属性的时候,这些基也并不需要全部用到,每个点可以表达为其中几个基础材质的线性组合。利用这个表达,我们可以通过最小化重构的材质渲染的图片与拍摄图片的差来重建材质。为此,我们开发了专门的优化算法,来求解这个具有稀疏性约束的非线性优化问题。同时,基于这个求解框架,我们进行了一些分析。结论是所需要的图像数由每个点的所需要的基础材质数目决定。所以如果有一个物体,它表面的材质分成很多块,每一块都是一样的,比如足球,那理论上只要一张图像就够了。


利用局部模型和空间解构构建手部动画


在这个工作[2]中,给定少量的不同手部姿势的三维扫描结果,我们希望能够推导出这只手在所有可能姿势下的动画效果,同时生成手部表面所有的细节。这非常有挑战性,原因有二:第一,手有21个关节,变形的自由度非常高;第二,随着手的变化,褶皱细节的变化也很丰富。但是我们有的数据只包含十几个或二十几个手的姿势。




为解决这个问题,我们注意到两点:第一,所有变形都是由内部骨骼驱动的,一些控制点的变形可以决定其他所有点的变形,存在一个函数关系;第二,函数关系虽然可知,但比较复杂。于是我们把它分成几个部分,每一个局部区域都由一个独立的函数来控制。同时,对不同的姿态,我们用单独的局部函数控制它附近的变形。通过这样的分解,我们得到一些非线性的局部函数,再把一些细节运动、大尺度运动分解,最后得到一系列小模型,它们都可以从稀疏的数据中经过训练得到。在实验中,我们的模型可以有效地学习并生成合理手的动画,表面的细节也恢复得非常好。


小结


传统的基于数据驱动的方法优点是所需要的数据量小,获得的模型比较简洁,同时对输入噪声比较鲁棒。但是,这些方法缺乏通用性,需要针对每个特定的问题进行专门的设计。同时,每个模型以来于特定的假设。如果假设本身和数据有偏差,那么得到的模型无法获得很好的建模效果。


数据驱动的图形学的现在



随着深度学习技术的发展,在过去几年中,深度学习也被应用于数据驱动的图形学研究中。但深度学习在图形学上的应用并不简单。根本的问题在于数据的高维度。不同于图像和视频,几何形体是三维的,它的形变动画就是4维的,而表面材质更是6维或8维的函数,光线的传输也是一个8维函数。数据的高维特性造成了一系列的问题,第一,因为数据维度比较高,无法用现有的捕捉设备捕捉到所有数据,因此三维数据没有统一的基于规则采样的表达。第二,数据捕捉难导致已有的三维数据的规模很小。第三,标注高维数据比标注二维数据难得多。我们认为,只有一步步把这些问题都解决了,深度学习在图形学中才可能发挥它的威力,推动图形学的发展。在过去几年中,我们也对这三个方面的挑战做了一些工作。


面向深度学习的有效几何表达


对于几何形状的表达,我们提出了基于八叉树[3],自适应八叉树[4],以及基于表面坐标架的卷积神经网络框架。这些框架可以直接继承已有的面向图像的卷积神经网络的架构,同时可以利用 GPU 进行有效的训练和推理。这些框架也被用于三维形状分析和重建中,验证了这些表达的有效性。






在今年的 CVPR 2019 的工作[5]中,我有幸参加了韩晓光博士、贾奎教授的团队的一个工作。这个工作提出了一种层次混合的表达来表达三维形状,并将这一表达应用于基于单张图像的三维重构中,取得了非常好的效果。通过这个工作,我们感到在 3D 形状上学习时,只用单个的底层表达可能不太充分,多层的表达可能可以更好的揭示形状空间的属性,因而更加有效。




通过跨越图像和三维的鸿沟解决数据问题


为了解决数据集和数据量的问题,我们希望能够利用大量图片来完成一些三维的学习任务,从而提供解决数据问题的一个新的思路。在今年的 CVPR 2019 工作[6]中,我们提出了一个多投影方法,可以从一类物体的图片集中学习一个三维生成网络,生成此类物体的三维形状。这个问题主要有3个挑战:第一,输入只有 2D 图像,而输出需要是 3D 形状;第二,我们没有输入图像中直接的一致性,或者说没有同一只鸟不同视角的图片,这导致很多传统的多视角重建方法不适用。第三,每张图像的视角信息也是未知的。




为了解决这些挑战,我们设计了两个模块。第一个是 Multiple Projection GAN。我们先假设每张图像的视角已知,把所有输入图像根据视角分类,然后对每个视角类训练一个鉴别器。我们训练一个生成器来生成 3D 形状,然后把它投影到不同视角上,再通过这个视角下的鉴别器比较和这个视角的图像是否一致。但图像视角是未知的,所以第二个模块就是视角预测网络。这样我们先从生成器得到 3D 形状作为视角预测网络的训练数据,训练好的视角预测网络可以用来预测 2D 图像的视角,从而把 3D 形状生成器训练得更好。这个过程不断迭代进行,就能互相优化提高,得到最终的结果。目前我们的算法利用物体的轮廓线来进行训练。




充分利用无标注数据参与训练


针对标注数据少,我们也进行了一些研究。在 SIGGRAPH 2017, 我们提出了 Self-Augment CNN 用于从单张图片中自动构建高维的表面材质贴图[7]。为解决没有足够多的标注数据(图片和对应的材质贴图)问题,我们利用了少量的标注数据和大量的材质图片,利用训练中的神经网络和绘制算法,生成大量的训练数据,来优化训练过程,有效地提高了结果质量。在今年的 SIGGRAPH ASIA 2019 上,我们也提出了一个基于无监督的三维形状的结构抽取算法[8],通过将形状抽象近似为若干个长方体盒子的表达,来抽取和构建数据集中同一类物体共有的形体结构。




小结


深度学习方法具有很好的通用性,可以自动地从大量数据中提取模型。但是,这一方法需要大量的数据,模型本身是个黑箱,难以理解。当测试数据和训练数据有偏差时,模型的效果会变差。如何利用图形学里有效的合成和模拟技术帮助深度学习,跨越图片视频和图形内容的鸿沟是值得探索的问题。


数据驱动的图形学未来



深度学习给数据驱动的图形学研究注入了新的活力,并推动着图形学应用的升级和变革。同时,也带来了挑战。展望未来,我们在如下几个方面还需要更加努力:
第一是数据。数据是推动领域发展的一大障碍。如何进一步减少数据捕捉和建模的难度,让我们可以更加有效地获取大量数据仍然是个难题。另一方面,如何突破图片、视频和三维数据之间的鸿沟也是一个值得研究的方向。只有解决了数据的问题,才能形成一个闭环,更多的数据能帮助学习更好的模型,而更好的模型又能使数据获取更加高效。
第二就是表达。已有的图形学研究已经建立了对单个图形学对象的有效表达。但是,对于所有对象构成的空间的表达还远远不够。如何有效表达与构建所有合理的三维形体的形体空间,所有表面材质的材质空间,所有衣物,人体等变形的动画空间都是非常值得探索的问题。另外,如何构建这些空间的有效的基于深度网络的表达,也是一个好的问题。
第三是深度学习的算法本身。如何结合深度网络和人的交互输入,如何结合深度学习与已有的物理先验,以及如何将不同的跨媒体输入集合在一起,如语言、图片、三维模型等,来完成真正的创作任务,仍然是没有解决的问题,也是未来的发展方向。


参考文献



1.        Zhiming Zhou, Guojun Chen, Yue Dong, David Wipf, Yong Yu, John Snyder, Xin Tong, Sparse as Possible SVBRDF Acquisition, ACM SIGGRAPH ASIA 2016
2.        Haoda Huang, Ling Zhao, KangKang Yin, Yue Qi, Yizhou Yu, Xin Tong, Controllable Hand Deformation from Sparse Examples with Rich Details, ACM Symposium on Computer Animation, 2011
3.        Peng-Shuai Wang, Yang Liu, Yu-Xiao Guo, Chun-Yu Sun, Xin Tong: O-CNN: Octree-based Convolutional Neural Networks for 3D Shape Analysis, ACM Transactions on Graphics (SIGGRAPH), 36(4), 2017
4.        Pengshuai Wang, Chunyu Sun, Yang Liu, Xin Tong, Adaptive O-CNN: A Patch-based Deep Representation of 3D Shapes, SIGGRAPH ASIA 2018
5.        Jiapeng Tang, Xiaoguang Han, Junyi Pan, Kui Jia, Xin Tong: A Skeleton-bridged Deep Learning Approach for Generating Meshes of Complex Topologies from Single RGB Images, CVPR 2019
6.        Xiao Li, Yue Dong, Pieter Peers, Xin Tong, Synthesizing 3D Shapes from Unannotated Image Collections using Multi-projection Generative Adversarial Networks , CVPR 2019
7.        Xiao Li, Yue Dong, Pieter Peers, Xin Tong, Modeling Surface Appearance from a Single Photograph using Self-Augmented Convolutional Neural Networks, ACM Transactions on Graphics(SIGGRAPH), 36(4), 2017
8.        Chunyu Sun, Qian-Fang Zou, Xin Tong, Yang Liu, Learning Adaptive Hierarchical Cuboid Abstractions of 3D Shape Collections, ACM SIGGRAPH ASIA 2019
本账号为微软亚洲研究院的官方知乎账号。本账号立足于计算机领域,特别是人工智能相关的前沿研究,旨在为人工智能的相关研究提供范例,从专业的角度促进公众对人工智能的理解,并为研究人员提供讨论和参与的开放平台,从而共建计算机领域的未来。
微软亚洲研究院的每一位专家都是我们的智囊团,你在这个账号可以阅读到来自计算机科学领域各个不同方向的专家们的见解。请大家不要吝惜手里的“邀请”,让我们在分享中共同进步。
也欢迎大家关注我们的微博和微信 (ID:MSRAsia) 账号,了解更多我们的研究。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
发表于 2020-11-27 11:19 | 显示全部楼层
一直想写,今天终于凑到坐飞机又没电源的时候。图形学里面是有核心底层问题没有解的,今天这里说说整个高真实感渲染领域悬而未决的根本问题。


在高真实感渲染领域,包括实时渲染(游戏),离线渲染(电影)以及下属的一堆子领域和课题,至今没有一个合理并且实用的渲染质量评价标准。我们没有一个合理实用的metric去评判渲染质量的好坏(人类视觉意义上的),当渲染出来的结果背离真实照片或者暴力物理模拟的结果时,缺乏有效的手段,认可哪些背离对人类视觉系统来说是不敏感的,哪些是不可容忍的。


我们需要定义一个更好的距离函数(或者叫相似性函数,或者叫误差度量函数,一回事儿),可以用来计算两张图片的距离,要求这个距离体现人类视觉心理层面的相似性。
这个事情直接关系到能否大规模地利用现在海量数据和算力推动学科发展。说出来很羞耻,在图形学领域,一个渲染算法如果有几个参数要调优,我们怎么办?就是手调,眼睛看呀!不像人家隔壁CV那样拉个数据集,可以全自动地狂跑数据,自动狂调。这就是为什么现代的机器学习方法没怎么在渲染领域用起来,因为没法用呀,loss function定义不出来 !
同时这个事情对减少学术界和工业界的隔阂至关重要,使得很多工业界的hack,有理论的依据。以后大家可以更愉快地hack各种绘制算法,并且有科学依据。也对一票的图像合成方向上的CV算法带来更具实际意义的指导。


这个距离函数现在不是没有,比如L2 distance,correlation等为基础的,有一堆常用的。这些本质都是线性度量,认为图像空间是线性的。这些度量在比对两张非常接近的图像是,是很有效的,因为非线性流型空间的无限小的局部子空间是线性的。但是当两张图差距比较大的时候,这个线性近似就完全不靠谱了。很多时候,人类视觉看起来很严重的问题(比如不该有的边界),用线性度量发现误差很小,而有些人类视觉看起来差别不大的变化(大面积的低频变化),在线性度量下误差非常大。


然后,就没有然后了 …… 我们现在没有更好的度量方案,任何问题都用线性近似硬刚了。这样的标准在有些领域是有效的,比如图像压缩,因为很多时候他们比对的图像本来就是极其相近的。但是在渲染领域,像素级一模一样代价极大,并且也是完全没有必要的,但是这是唯一的well-formulated的方法,只能用这个呀。然后分歧就来了,很多渲染学术工作不得不屈从这个标准去做,不计代价,而工业界很多有效的方法,在这个标准下其结果就很差,但其实人看起来挺好的。这个分歧是导致渲染领域学术界和工业界比较隔阂的重要因素。


这个问题有解吗?我觉得是有的,但是非常挑战。我们先可以看看隔壁听觉是怎么弄的。对于耳朵的听觉机理的研究,我们知道了人类听觉有截止频率,有相位不敏感性,这些都被用到声音压缩技术里面,并且有个很高端的名字,叫听觉心理学模型。视觉系统的前端早期感知研究也挺多的,比较成熟的比如色彩感知,所以我们知道没必要去刻画光谱,记录RGB三个响应曲线的积分值就好了,视觉也有截止频率即分辨率,但是和听觉不同,人的脑袋可以动,图像可以zoom,然后这个特性就没啥用。相位的局部变化(部分平移)对视觉来说是敏感的,而且当有参照物的时候很敏感。然后,更后期的感知,无论视觉和听觉的机理,都还没有什么成熟的东西可以用。


另一边,基于深度学习的CV算法浩如烟海,那边应该是可以得到很多启示的,但是罕有针对人类视觉本身的特性作为研究对象的。更多是假设了人类视觉的一些特性,然后去简化他们要解决的CV问题,也不知道这些假设是否靠谱。
但是深度学习的方法论是值得参考的,当我们无法直接研究一个对象的时候,我们就大量收集这个对象的行为样本,然后用大规模的人工神经网络去近似它。这种反向工程的思路,可以帮助我们在搞清楚人脑是如何处理视觉信息之前,尝试建模人类的视觉感知行为。


飞机落地了,到上海~,要是有兴趣看的同学多,我就展开多讲讲。这个方向上一定是能出高质量的论文,SIGGRAPH及以上,前人也多多少少也有些探索和铺陈了。
论文题目我都拟好了,Perceptual Image Similarity 。标题越短,事儿越大~   评论区里的同学都是co-author,抖机灵、灌水的除外 ……
发表于 2020-11-27 11:23 | 显示全部楼层
楼上答得很好了,弱鸡在这里稍微补充一下。


图形学是CS这个大学科里面很特殊的一个分支,因为图形学横跨的专业领域非常多,并不是说影视特效游戏才能用上,甚至医学也会用一些图形学的东西,所以很难说这整个分支是日薄西山了。


图形学的一部分研究是逆问题,从数据推断原理,从2D推理3D,用像素去绘制真实世界,是很浪漫的一件事情。


举个栗子,图形学里有一部分人是做physics based modelling的,也就是研究怎么用计算机显示建模。这个东西有什么用呢?如果把modelling的技术用到人体三维模型重建上面(从骨架到肌肉到软组织到皮肤等等),这显然对医学教学甚至是医疗本身有推动作用的。比较有意思的工作参考一下去年SIGGRAPH realtime live的一个工作(名字不记得了,那个工作主要偏重realtime。如果我们放松realtime的要求那么经过一些处理就可以得到更精确可用的结果)实际上这些研究结果已经有人在尝试进行商业化了。


再举个栗子,图形学还有一个很大(也很火)的分支是做几何处理/工业设计的。CAD/CAE软件都会用到这些结果,而机械设计又是个刚需。


至于49年加入国民党的调侃,图形学的热浪的确已经过去了,但是用到图形学的地方还有很多,可解决的问题也有很多,需要更多的人来做有意义的工作才行。


如果非要跟隔壁的计算机视觉比,的确远不如视觉火,但是学问无贵贱,重点是自己喜欢什么,愿意做下去,就行了。


我们做graphics的人经常自嘲,实在找不到工作,这几年写的几十万行C++也足够找个码农职位养活自己东山再起了(笑)
单独来回答一下问题4:
首先建议参考一下这个:
硕鼠酱:【书单】图形学科研之路(持续更新)这个问题要看自己想做的是什么方向,渲染/模拟/几何/动画师完全不同的东西,需要的技能点也是不一样的。至于模拟内部,流体/软体等需要的技能点也是不一样的。鄙人不才,尝试回答一下模拟方向需要的技能点。需要注意的是,无论做什么方向,有些基础知识是一定要懂的。
编程:C++(没什么好说的,几乎所有的graphics项目都是用C++写的)和一些科学计算库(Eigen, MKL等,根据个人需要选择,也许每个项目都不一样),Python可选(用来做一些批处理工作,任何一门脚本语言都可以)
数学:线性代数,微积分(这两样是必修),数值线性代数,数值最优化
背景知识:渲染基础(可编程渲染管线,这是每个人都要知道的),力学(根据自己的方向酌情学习),一些零碎的计算机常识(比如如何解决Linux下的包依赖,如何从源码编译软件,静态链接和动态链接怎么处理等。图形学最恶心的一条是工程量非常大,而做一个工程需要踩的坑就非常多了)
工具:Illustrator/Maya/Houdini/Premier/LaTeX (论文排版和写作,制作demo等)
工具链:git, Meshlab, meshmixer等,根据个人喜好选择
发表于 2020-11-27 11:28 | 显示全部楼层
我们组是做渲染方向的,以我浅薄的实验室打杂经历抛砖引玉一下:
1、计算机图形学还有哪些问题值得花费一个PhD周期去啃?我觉得我老板做的能耗优化 还是有一定的科研价值的,使用Deep Learning解决图形学原本存在的一些问题也是主流的方向,如何在图形学应用深度学习目前其实还比较初步:包括卢老师提到的三维视觉推理,材质推理,光照推理等等。使用Deep Learning做一些有趣(但是可能没什么实际价值)的图形学相关的事情也经常可以在SIGGRAPH上看到。
2、在电影/游戏工业里,现有技术还有什么“势必要解决但暂未解决”的痛点?这个不太懂,离线领域开个脑洞,可能是对波的模拟?因为现在的Path Tracing本质上还是几何光学。怎么实时应用光线追踪技术在RTX出来后也需要工业界探索。
3、“图形学已死,SIGGRAPH日落西山,19年搞计算机图形学,相当于49年入国民党”的说法,有没有道理?
         从纯科研的角度来说,现在深度学习才是科研热点,图形学已有的工具确实已经研究到比较深层次的领域了,剩下的坑,一部分是价值不大,一部分是难度太大没有新工具。这一点不仅是图形学,很多其他的方向也是这样,科研不好做,工程问题多。
         但是从非科研角度来说,我觉得图形学是有特殊之处的,图形学是需要将艺术和工程结合起来的一个领域,我个人感觉图形学比起计算机科学其他的方向要更为有趣。就就业而言,国内研究这一方向的机构并不多,并且随着AR/移动端视频的发展,人们对游戏精品化的要求,电影工业的发展,国内图形学仍然会有一定的需求。
4、如果没道理,图形学要重新成为显学,要重新推动新的一波产业升级,要做出AlphaGo级别的工作,还有哪些潜在的大故事,是可能的潜力股?其实VR本身就是一个大故事,只是在几年前不是正确的吹牛皮时刻。未来科幻电影中的VR体验,一直是图形学从业者的目标啊。
5、一个足够优秀的计算机图形学博士,需要具备哪些特别的、与其他计算机学科不同的技能点?这些技能点的培养,需要如何着力?就我对实验室学长们的观察和交流:
        1、图形学API的了解和工程能力:OpenGL/DirectX,这一部分是图形学从业者必须学习的能力,至于掌握,需要量的积累。这个过程可能是重现SIGGRAPH的论文,或者是开发图形引擎这样。
        2、对艺术的感知感觉:尽管我们实验室硕士大都安排炼丹了,但我个人觉得优秀的图形学博士还是应该有一定的“艺术创作”能力。
6、技术元素在中国电影产业中的比重,未来会越来越大,还是越来越小?而中国电影/动画要真正走向世界,要真正产出足以载入世界电影史册的作品,在技术层面,我们和世界一流电影工业体系相比,还差什么?技术元素肯定会原来越大,只是电影工业界真正需要图形学的大量人才,我觉得还是相当遥远的事情了。电影工业本身的差距需要足够的接近,工业界才会在创作工具技术上投入资源。
发表于 2020-11-27 11:37 | 显示全部楼层
谢谢修总 @修宇亮 邀请. Graphics 是一个很大的话题, 以至于到底什么问题应该归到 graphics 下甚至还没有绝对的定论. 有时候我们说模拟, 看似是一个 graphics 下一个小领域, 其实声音模拟和流体模拟是两个差异很大的话题, 可能比其他计算机子领域之间的差异要大得多 (这是当然的, 我认为图形学是在计算机里当上帝, 连物理学都没搞出统一场论来简化差异在纸上当上帝, 我们计算机就先别操这个心了哈哈哈哈). 其实比起关注单纯的一个领域到底有什么可做的这个问题, 我个人认为更重要的是培养发现问题的能力. 这里给大家推荐一下我本科实验室大老板程明明教授博客里的一段话, 希望能有所启发 (至少我看后受益良多):
机遇与挑战总是并存的。这一点很多时候被作为政治口号说的太多,以至于我们很多时候都对此感觉有些麻木,甚至在重要问题上容易忘记这一点。就阅读论文和寻找新的题目而言,几乎在任何时刻,如果我们去阅读之前的论文,都会觉得几乎每个学科都发展到一定程度(有无数的重要工作以至于想通读一遍都很困难),容易做的都被人做光了,剩下了一堆难啃的硬骨头。但是当我们从某个时间点往后看,又总是有太多的工作让人觉得异常兴奋,振奋之余又陷入了那个问题,貌似仅剩的容易工作又被人做了。只恨自己比别人晚出生几年。要是真的能够早生几年,我们就能够做出哪些工作吗?我想如果抱着这种心态,这种假设大概只会一直回退到远古时期,回退到那个大家都在为食物而拼命的年代。
与其抱怨已有工作浩如烟海,无从入手,感叹我们怎么会不幸的出生在一个“科技发展的后喷发时代” ,不如认真的换个更加客观的角度重新思考问题。假如我们是一个计算机处理器设计行业的新从业者,当我们刚进入这个行业的顶级公司,看到无数的已有工作和成绩,我们很可能也会发出类似上述情况的感慨。但是,身为一个外行,和无数的外行一样,我非常有信心 ,计算机的处理能力在未来很多很多年还会继续快速增长,比这个世界上几乎所有其他行业都要快的速度继续增长。所有的局外人都明白其中所蕴含的机遇。对于我们所从事的领域,很多时候我们的迷茫,我们的“不识庐山真面目”,都只源于我们“身在庐山中”。
任何的科学创新,都是基于已有工作基础之上,不存在空中楼阁。激发创新工作的要素很多,新的数学理论,新的算法工具 ,新的软件分析平台,新的设备,…。其中任何一种新的东西,都有可能激发一个伟大的工作。我们不用担心可做的事情被做完了,我们所能够访问到的新的理论、工具、平台、设备,比历史上任何时间点都要多很多。我们应当清楚的认识到,机会不是即将耗尽的资源,而是会随着时间的增长,变得越来越多。就像你站在过去的每个时间点上看后来的CPU计算能力一样,那将是持续的超乎任何人想想的增长。
在从事这些领域的过程中,我也曾经经历了迷茫、失望、探索、发现、振奋的各个阶段。虽然迷茫和失望在时间跨度上占了我短短几年科研经历的明显多数,但现在更多的是信心和对未来的憧憬。 当我们摆脱之前的悲观情绪之后,一个现实的问题是,如何寻找这些机遇,如何从海量的文献中找出适合我们的科研题目?关于这一点,我想从自己比较熟悉的几个领域出发 ,用具体的实例来总结我的一些经验和教训。
下面主要通过时间顺序,分析一些领域的一些代表性工作是如何一个接一个涌现出来的,是什么基础启发了这些工作?这些想法是如何转化为实际的成果。对于新的科研工作者,特别是一二年级的学生,不妨假设我们也是曾经的“当事人”。如果能够顺着这几条脉络走下去,在每个论文出来之后,想一想如果我是当时从事这些工作的人,我会从之前的工作中得到什么启发 ?我会如何开展下一步研究?对于低年级的新手,开始的时候这种锻炼会非常辛苦。最初的“启发”很可能是“又一个软柿子被人捏过了”,“貌似能做的都已经被做了”,“貌似只剩难啃的硬骨头了”,“这家伙从事科研的时间点怎么这么幸运”。我们可以想想如果是自己,站在当时那个位置,会做什么后续工作。当确实充分的思考完一个工作之后,我们可以看一看下一个同领域的重要工作。如果你发现自己很多时候可以“预测”这些发展了,那么非常恭喜你,这篇小总结可能对你没太大用处了。如果我们又一次陷入那个觉得只恨又一个容易做的工作被别人做掉了的怪圈,那么还是再认真锻炼,仔细琢磨这些新的工作是怎么一个接一个在在相似的topic上层出不穷的。
之后文章列举我就不继续引用了, 有兴趣的同学可以去看全文:
关于文献阅读和科研选题
发表于 2020-11-27 11:43 | 显示全部楼层
我不是做图像学的,(虽然发过一篇SIGGRAPH Asia,L0-norm Smoothing),不过从AI和图形学交叉的角度看,有些有意思的事情可能可以做:
(1)3D视觉:3D视觉的很多topic(e.g point cloud segmentation),很多图像学的prior蛮有用的,比如shapeNet,这个很多做3D视觉的人都会有体会。另外一点,在2D识别上做需要数据量很大,但是我直觉在shape recognition上是有可能用摆脱大数据枷锁的(这个有时间展开写)。
(2)视觉知识推理:这个事情肯定要三维世界做。Graphics 提供构造这样一个推理世界提供了可能性,各种知识也可以encoding在模型上。另一方面,也会有可能产生新的有效训练数据。虽然,目前做的人不多,但随着各种条件成熟后,会体现其实用价值。比如,我们组目前在做human object Interaction understanding,把2D的玩了一遍,限制挺大的,感觉要下一步要推到3D 点云上做,就遇到各种graphics问题,光human body 模型就弄一段时间,以后还要求助各位graphics大佬。
(3)智能机器人:能看到的是北美有几个vision大组,比如飞飞组,在进入 robot learning,vision+robot有很多有价值的研究题目(这个我一直想写一篇长文,不过一直没时间)。逼近真实世界的仿真肯定是跑不掉的一个环节。举一个简单例子,我们组最近做的一个object 6D pose Estimation for grasping。有一个步骤就是,用3D模型,做渲染(各种光照,遮挡)生产物体检测训练数据,这个真是work的,做这个方向的人都知道。
(4)。。。。
可能我想的这些问题,对于做graphics的人觉得是小问题。
随便写写,还请各位graphics大佬指点。
发表于 2020-11-27 11:50 | 显示全部楼层
说SIGGRAPH review质量不如CV/DL.  楼上的有些答主,你确定不是来搞笑的吗?
可能与个别人的体验有关系,但是这话也有点无厘头。。
作为中过SIGGRAPH, CVPR,ECCV 的CG圈的人,我可以说SIGGRAPH review 质量甩computer vision 的五条街吗?
我中的vision文章3个review 意见加起来都是不到2页。。 而SIGGRAPH 文章一共5个reviewers. 其中2个是technical paper committee members (19年的committee members), 其余3个至少有一个是你投稿方向上的富有经验的external reviewer。 从novelty, reproducibility , reference, 等等入手,出来的review意见大约10来页,给的意见大多也很中肯。要命的是,假设你review意见很好,第一轮结果你会得到一个在3.3~4.0的平均分,以及1~3的confidence 分. 然后committee members 会集中在一起开会,一起决定每篇文章是否接受。然后你会收到第二轮结果,最好的是"conditional accept", 接下来还必须在2个月内,根据review意见对文章进行修改。 修改完成后,你会收到第三次结果 “accept”,才能被接收 (有被拒的可能)。。
考虑到一年只有400-600 投稿,以及这么多专家评委 ,导致的结果是:每位committee members每年会经手10篇、具体审3-5篇,一般的SIGGRAPH review也就一年审1篇不错了。  
再想想vision的投稿量以及review质量?? 我知道的最离谱的是,我们实验室有的三年级博士生17年审了CVPR 15篇(包括分配的以及后来加急的)。。其中种种细节,我就不说了,各位自行体会。
应该这么说吧,我质量好一点的文章都不会投vision的 (当然也与自身的研究方向有关系, learning 交叉的不多)。质量一般的就会投:投呗,碰碰运气,全匿名反正没什么损失。 但是我是肯定不会拿质量一般的文章去投SIGGRAPH“碰运气”的。 一方面是因为 SIGGRAPH 严格意义上来说,算是半盲审(主审你文章的2个 committee members 知道投稿人是谁,其余3个reviewer不知道你是谁),所以得注重本组以及自身的reputation. 另一个原因是:这种review机制一套走下来,你碰运气中的概率相对低很多,是在浪费自己的投稿时间。这也是为什么每年投稿400-600,而不是几千的原因之一。
CG圈有自己的问题,而且问题很大,但是你从review质量入手怼,并且和vision/dl 的会议比较,简直贻笑大方。
发表于 2020-11-27 11:59 | 显示全部楼层
我老板主要做character animation,这个方向有分纯kinematic based的和physics based. Kinematic based最近的最好结果基本来自Taku Komura组:http://homepages.inf.ed.ac.uk/tkomura/ 。 他们在siggraph asia2019的文章能让一个小人在一个简单场景下完成各种任务:http://www.ipab.inf.ed.ac.uk/cgvu/nsm.pdf ,比如坐在各种不同的椅子,捡东西,开门等等。如果能把这些结果在physics based的场景下重现估计又是一篇siggraph了。最直接的做法是一个motion generator生成动作,再在上面做deepmimic(https://www.cs.ubc.ca/~van/papers/2018-TOG-deepMimic/index.html ),最近也有几篇文章在相对简单的场景这么做,但要达到这个效果估计还要加些新的方法。
自从deepmimic(https://www.cs.ubc.ca/~van/papers/2018-TOG-deepMimic/index.html )出来后,感觉大家都是基于这个框架修修补补。一个问题就是能否摆脱对reference motion的需求,单凭简单的reward就能生成好看的动作。Karen Liu (https://www.cs.stanford.edu/~karenliu/Home.html) 近两篇siggraph就探索了这个方向,包括使用curriculum learning和muscle based的actuation。然后就是对于在复杂场景做rl,能否做到和kinematics based相似的效果 (纯rl,不用任何kinematic data)。我老板还经常问用rl能不能做到跑酷的效果(不是deepmind 的那种搞笑跑酷)。另一个我老板经常想做的方向是whole body motion,比如攀岩 (芬兰的一个lab有做过类似方向 https://users.aalto.fi/~hamalap5/ )。
还有我感兴趣的一个方向是multiagent interaction,比如基于physics的篮球比赛。我之前喜欢玩nba2k,他们的动作生成应该都是纯kinematics的,导致有时候一个人就能直接穿过另一个人之类的,偶尔会显得不真实,如果能换成physics based相信效果会好很多。去年siggraph有一篇单人玩篮球的 (http://libliu.info),如果能延伸到multiagent,有合作有对抗的场景应该很有意思。
懒得打字嘛,点击右侧快捷回复 【右侧内容,后台自定义】
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Unity开发者联盟 ( 粤ICP备20003399号 )

GMT+8, 2024-12-25 14:53 , Processed in 0.078214 second(s), 24 queries .

Powered by Discuz! X3.5 Licensed

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表