DomDomm 发表于 2022-1-5 10:31

计算机图形学与机器学习(深度学习)怎么结合起来?

我就放两篇。
第一篇是
Global Illumination with Radiance Regression Functions 喂进去很多离线渲染的场景和渲染结果,训练出个NN。运行时直接用场景就能预测出GI的效果。SIGGRAPH 2013的。GI可以60fps,任意bounce数,间接高光随便搞。


第二篇Image Based Relighting Using Neural Networks (
Global Illumination with Radiance Regression Functions),把前面那套框架用在了relighting上。现实中拍摄的场景也可以重新打光。

量子计算9 发表于 2022-1-5 10:37

我就放两篇。
第一篇是
Global Illumination with Radiance Regression Functions 喂进去很多离线渲染的场景和渲染结果,训练出个NN。运行时直接用场景就能预测出GI的效果。SIGGRAPH 2013的。GI可以60fps,任意bounce数,间接高光随便搞。


第二篇Image Based Relighting Using Neural Networks (
Global Illumination with Radiance Regression Functions),把前面那套框架用在了relighting上。现实中拍摄的场景也可以重新打光。

franciscochonge 发表于 2022-1-5 10:38


[*]Deep Convolutional Neural Networks
Accelerating Eulerian Fluid Simulation With Convolutional Networks 离线训练一个解poisson equation的CNN,然后用它代替流体模拟中pressure projection那一步的conjugate gradient solve以加速。这篇文章很新,目前刚上传arxiv,至于最后会被哪个期刊或会议收录,我们拭目以待。






[*]Reinforcement Learning for Motion Control
Dynamic Terrain Traversal Skills Using Reinforcement Learning Terrain-Adaptive Locomotion Skills Using Deep Reinforcement Learning 这两篇估计算是CG里把Reinforcement Learning用来做motion control的先驱了,分别发表于15和16年的SIGGRAPH,作者是UBC的杰森大神,由于不是很懂,就不多说啥了。据说杰森大神下一篇文章也会是相关问题,并且难度设定大大升级,期待他本硕期间的第三篇SIGGRAPH一作!




[*]Data-Driven Approaches
不知道大家把不把Data driven approach分类在learning里,其实CG里近年来有很多data driven的文章,里面会用到很多统计学工具以及unsupervised learning什么的。就是说最初的CG把各种图形处理工具和算法研制出来后,素材一直是靠艺术家来创作的。最近几年,大数据流行起来了,CG从业的艺术家们通过十几年的努力也创作了大批大批的成品,那么研究人员就开始想着利用这些数据来给今后艺术家们的创作带来方便,所以CG就朝data driven迈步了。具体可以去看看MIT教授Wojciech Matusik得了ACM SIGGRAPH New Significant Researcher Award - 2009后的获奖感言。Youtube链接:Video Part 1 , Video Part 2
我印象里data driven的文章用得比较多的就是PCA降维一个数据库里的数据,然后使得用户得到的结果是和他的简单输入最相似的在数据库形成的数据空间里的一点。有兴趣可以去搜一搜,例子很多,我这里简单举两个:
A Morphable Model For The Synthesis of 3D Faces 用单张人脸正面照片做3D人脸重建,基于3D人脸模型数据库。



A Data-driven Approach for Synthesizing High-resolution Animation of Fire
用高精度火焰模拟数据让低精度火焰模拟结果快速的获得更多细节。




[*]Active Learning
Active Learning对我来说是个新概念。简单来讲,它是一种可以交互式的向外界索要数据点label的semi-supervised learning方法。由于每个数据点的label在训练过程中其实并不是同等重要的,所以active learning通过不断询问最关键的数据点的label进行训练,可以大大减少所需的label数量,这对在大数据集上训练模型而言可以很好地减轻人工标定的负担。下面这篇SIGGRAPH Asia 2016的文章提出了一种active learning的方法来快速、轻松地获取大型三维模型数据集的模型区块标签:
A Scalable Active Framework for Region Annotation in 3D Shape Collections


这篇文章研究的问题属于Shape Analysis,是三大CG传统研究分支(详见计算机图形学是不是计算机专业方向中对数学要求最高的? - 李旻辰的回答)之一的Geometry方向目前的一个研究热点。Shape Analysis主要解决如何从几何形体中挖掘出高层次语义信息的问题,而且通常研究的对象是大型三维模型数据集。从中我们也可以看出Geometry方向已经逐渐开始从基础的低语义层次几何问题不断向高语义层次问题延伸了。这种趋势有点像计算机视觉,从特征点提取到物体识别。事实上,我个人的观点是Shape Analysis与计算机视觉研究非常相似,只不过是把研究对象从图像换成了三维模型而已,所以它也是一个inverse problem,用到机器学习也就理所当然了。


References

[*]Tompson, J., Schlachter, K., Sprechmann, P., & Perlin, K. (2016). Accelerating Eulerian Fluid Simulation With Convolutional Networks. arXiv preprint arXiv:1607.03597.
[*]Peng, X. B., Berseth, G., & van de Panne, M. (2015). Dynamic terrain traversal skills using reinforcement learning. ACM Transactions on Graphics (TOG), 34(4), 80.
[*]Peng, X. B., Berseth, G., & van de Panne, M. (2016). Terrain-adaptive locomotion skills using deep reinforcement learning. ACM Transactions on Graphics (TOG), 35(4), 81.
[*]Blanz, V., & Vetter, T. (1999, July). A morphable model for the synthesis of 3D faces. In Proceedings of the 26th annual conference on Computer graphics and interactive techniques (pp. 187-194). ACM Press/Addison-Wesley Publishing Co..
[*]Sato, S., Morita, T., Dobashi, Y., & Yamamoto, T. (2012, August). A data-driven approach for synthesizing high-resolution animation of fire. InProceedings of the digital production symposium (pp. 37-42). ACM.
[*]Kim, L. Y. V. G., Ceylan, D., Yan, I. C. S. M., Huang, H. S. C. L. Q., Sheffer, A., & Guibas, L. A Scalable Active Framework for Region Annotation in 3D Shape Collections.

Ylisar 发表于 2022-1-5 10:48

在计算机视觉领域里,人们通过分析大量的图像数据来帮助机器理解世界;在语音信号处理领域里,人们借助机器学习从大量的语音数据中解析语言的魅力。随着三维数据的日益增多,让机器通过分析三维数据来理解物理世界也方兴未艾,优秀的工作也层出不穷。做为三维理解的第一步,人们希望能从数据中学习三维形体空间。
随着深度学习尤其是卷积神经网络(CNN)这一利器在各领域里的卓越表现,如何将CNN运用到三维数据上成为计算机视觉和图形学一个焦点课题。
结合近期微软亚洲研究院网络图形组在这方面的一些工作,刘洋博士分享了数据在三维几何处理与分析的作用与效力,主要包括三维几何处理中的去噪问题,以及卷积神经网络在三维数据上的应用。
————这里是正式回答的分割线————
分析与处理三维形体是计算机图形学中的一个基本任务与研究方向。近年来随着三维数据获取的便捷和三维数据集的迅猛增长,这个研究方向也面临新的挑战和契机。一方面,在新的数据形势下,传统算法的一些前提假设不再成立,研发新型算法的需求迫在眉睫。另一方面,大数据的出现,可以使得传统的三维分析和机器学习更加有机地结合起来,从而帮助人们加深对三维世界的认知,有效地理解现实三维几何世界并构建虚拟数字世界。
从“三维去噪”谈起

>>>> 问题缘起
关于三维网格去噪或点云去噪的问题,图形学的初学者一定不会陌生。举一个例子,利用微软的Kinect设备扫描三维物体(图一(a)),我们可以获得三维网格(图一(b))。但由于Kinect设备的低精度,三维网格存在着大量的噪声。去除这些噪声并尽量恢复物体的原貌(如图一(c))就是三维去噪需要解决的问题。从简单的拉普拉斯平滑到复杂点的谱分析去噪,从热门的 https://www.zhihu.com/equation?tex=L_%7B0%7D 平滑到便捷的双边滤波, 林林总总有非常多的算法可以使用,也有非常多的图像域上的去噪方法可以借鉴。但遗憾的是对于类似图一的噪声,已有的算法并不能很好地去除。问题出在何处?



图 一:三维网格去噪
>>>> 三维去噪问题的前生今世
在回答上述具体问题之前,我们先从一个更大的范畴来考察三维去噪问题。去噪问题难在何处?我们对该问题有以下几点认识:
● 去噪问题本质上是求解一个病态的逆问题:在噪声的类型和程度未知、真实模型的几何特性未知的前提下,如果要把噪声从输入中完美剥离,必然需要引入各种假设来辅助求解。
● 很多去噪算法对真实物体的几何特性做了很强的假设,比如曲面是 https://www.zhihu.com/equation?tex=C%5E%7B2%7D+ 光滑,或者曲面类似CAD模型具有分片光滑和含有大量平面的特性。 然而这一类的曲面只占三维物体类型中一小部分。
● 众多算法显式或隐含地对噪声模型做了假设,这些模型基本以高斯噪声为主,更广义一点,算法假设噪声是独立同分布。然而真实噪声的成因复杂,这些假设在很多情况下并不成立。针对高斯噪声的去噪方法在实际中也表现一般。
● 很多算法的机理和评测是有缺陷的,呈现理论和实际脱节的情况。以三角网格曲面去噪为例,很多算法在已知网格上加若干噪声,然后用去噪结果和已知曲面的差异来比较算法的优劣。这些算法有两大缺陷:(1)噪声类型人为给定,与真实不符。(2)已知网格和加噪网格共享相同的网格连接关系,与真实情况不符。如无视这些缺陷,就无助于解决真实去噪问题。
● 实用中各个算法的参数需要人为调配,根据不同输入反复尝试。对于用户而言,调参显然是一门痛苦且颇具经验色彩的苦力活。
>>>> 让数据说话
不同采集设备由于精度和三维数据获取方式的差异会导致数据噪声的不同(比如Kinect一代和二代的噪声迥异),噪声在相异几何特征和不同物体材质上的表现也会有所不同。真实噪声是与数据以及设备相关的,简单的噪声模型不可能刻画出真实的噪声。因此,我们提出用数据驱动的方式来学习噪声和数据的关系,从而帮助解决去噪这一问题。
众所周知,数据驱动不能盲目地进行,数据本身要有内在并自洽的联系。在假定了三维数据获取方式的一致性、物体材质的相似性之后,我们认为符合这些前提获取的数据集可以用来揭示其中噪声的特点,并有效地帮助去除这类数据的噪声。
>>>> 算法概略
我们对无噪声三维曲面做一个合理的假设:曲面局部光滑并且任意一点的法方向 https://www.zhihu.com/equation?tex=%5Cbar%7BN%7D+ 可以由其局部邻域的法方向构成的函数刻画。进一步假设局部邻域   的法方向可以构造一个特征描述子   并且存在一个函数g使得 https://www.zhihu.com/equation?tex=%5Cbar%7BN%7D_%7Bf%7D+%3A%3Dg()。如果该特征描述子对噪声不敏感,那么在该曲面相对应的噪声曲面上,可以寻找类似g的函数并使得()来近似真实的法方向 https://www.zhihu.com/equation?tex=%5Cbar%7BN_%7Bf%7D+%7D+ ( https://www.zhihu.com/equation?tex=%5Ctilde%7B%5COmega+%7D+ 是噪声曲面上对应的区域)。
描述子。注意到双边法向滤波算子具有一定的抗噪性,我们提出整合不同参数下的双边法向滤波算子来构造上述的特征描述子,并称之为“法方向描述子”(FND)。FND在不同噪声下具有很好的抗噪性,并且可以用来区分不同的几何特征。下图是我们用FND来聚类噪声曲面的面片(每一类用不同颜色绘制)。可以看到,具有不同几何特征的噪声区域被明显地区分开来,在不同噪声下(高斯噪声、均匀噪声)划分也具有比较一致的相似性。



级联回归网络。 在给定无噪声曲面和其对应的含噪声曲面数据下,我们通过构造一个简单的神经网络来寻找。该神经网络是一个单隐层的RBF网络,其输入是噪声数据的法方向,损失函数由()和其对应的真实法方向的差异构造。为了进一步减少回归误差,我们针对由FND分类的区域分别寻找各自的。回归出来的法方向结果,用来指导噪声曲面顶点位置的更新,从而达到减少噪声的效果。注意到单隐层网络的拟合能力有限,我们利用级联的方式将当前去噪后曲面的法方向作为输入,训练新的网络降低逼近误差。我们发现,级联若干个单隐层网络可以极大程度地减少噪声并不失计算的便捷性。在实际中,三次级联就可以带来非常优秀的去噪结果。训练出来的网络在实际运用时也不再有调参之苦。
>>>> 去噪实战
我们的算法在人工合成的噪声数据和真实扫描数据上都表现卓越。比起现有的去噪算法以及它们最佳的参数搭配,在质量和速度上都有很大程度的提高。下图中展示的是我们使用的真实三维物体(树脂石膏材料)。我们用高精度的三维扫描仪获取这些雕像的真实几何模型并当作无噪声数据(groundtruth)。




我们准备了三种噪声数据:1.利用 Kinect 一代的单帧深度数据构成的三角网格;2. 利用Kinect 二代的单帧深度数据构成的三角网格;3. 利用Kinect Fusion 技术重构的三角网格。前面提到,噪声跟数据、设备都相关,因此对于这三个来源不同的数据,我们分别训练不同的级联回归网络用来去噪。以下各图展示了典型的噪声数据和它们对应的无噪声数据。




我们的算法可以很好地针对以上数据去噪。以下各图展示了我们的算法在这三类数据的测试集上的表现。左右两端分别是噪声数据和真实数据。可以看到与其他算法(双边法向滤波bilateral normal、引导法向滤波 guided normal、 光顺等)相比,我们算法的输出更忠实于真实结果:噪声引起的曲面波动明显减少,曲面也无过分光滑和过强的剧烈变化。图下方数值表示的网格法方向与真实值的平均误差也进一步说明了我们数据驱动下的算法优越性。



KinectV1 数据上的去噪比较结果



Kinect V2 数据上的去噪比较结果



Kinect Fusion 数据上的去噪比较结果

从数据中学习噪声与三维数据之间的复杂关系是我们去噪方法的核心思想。从这项工作中我们也认识到:忽略真实数据去研发一个放之四海而皆准的去噪算法是不可行的。噪声来自数据,我们应该从数据中探究其中的奥秘。我们的工作也体现了数据的威力。大家不妨参考我们发表在Siggraph Asia 2016的文章” Mesh Denoising via Cascaded Normal Regression”,并试试附带的Matlab代码。
值得一提的是,我们的算法假设了物体某点噪声只和该点附近区域的数据相关。这个局部相关的假设并不总是成立。比如Kinect二代这样飞时测距的设备,光线由于物体几何形状不同可以产生多次反射,从而造成全局位置偏差。我们的算法并不能很好地去除这样的偏差。是否可以从数据中挖掘其中的规律,还是一个值得探讨的问题.
形状空间与3D CNN

三维形状在数字世界里可以有不同的表达,如三角网格、点云、体素、参数曲面、隐式曲面等。不同的表达和CNN也有着不同的结合方式。有的方法将网格参数化到二维空间,在二维空间编码几何特征,并利用CNN在二维定义域上类似图像空间进行卷积;有的将曲面局部处理成测地圆盘域并在其上编码几何信号,然后在圆盘上进行CNN卷积;也有的以三维空间的体素作为定义域,示性函数作为信号(即物体形状内部信号编码为1,外部为0)进行3D卷积,将CNN直接拓展到三维空间;还有一大类方法是利用空间投影将物体变为多个视图下的二维影像,然后当作图像来处理。在近年的视觉、机器学习、计算机图形学的会议上,如CVPR/ICCV/NIPS/SIGGRAPH,针对三维形状的深度学习网络已开始大放光彩。但这些方法各有利弊,对输入也各有不同的要求。
我们希望发明一个对输入鲁棒(如不对形状拓扑、曲面光滑程度、物体可见范围等做过多假设)的三维CNN网络,用来处理纷杂的三维数据。这里面最接近我们期望的就是基于体素的3D CNN。基于体素的3D CNN是图像空间CNN的自然推广,然而从二维推广到三维,CNN涉及的离散元素(2D是像素,3D是体素)个数是空间格点分辨率的三次方,即 https://www.zhihu.com/equation?tex=N%5E%7B3%7D+ 。庞大的存储量和计算量让基于体素的3D CNN畏足于高分辨率,徘徊于 https://www.zhihu.com/equation?tex=32%5E%7B3%7D+ 这样低分辨率的数据中,使得该方法在众多的三维学习任务中饮恨败北。

突破口之一:八叉树的稀疏表达与面向CNN的高效访问
如何提升基于体素的3D CNN的能力? 我们依旧让数据说话。
和图像空间不同,三维形状只占其所在三维空间的一小部分,大部分三维区域是空的。用空间中所有体素来表达形体,无疑是非常浪费存储的。一个自然的想法是,利用自适应的空间剖分来压缩存储,八叉树显然是个非常好的选择。在指定最大深度的情况下,三维空间根据是否含有三维形状的一部分来决定是否一分为八,并在子块里重复这样的划分。八叉树的最深叶节点可以存储三维形状的信息。在我们的实现中,这些叶节点只需存储所含区域的平均法向,并且它们的数目也只是O( https://www.zhihu.com/equation?tex=N%5E%7B2%7D+ ) 。这样的存储方式不受形状表达的限制,网格、曲面、点云等都可以轻松存储。
传统八叉树的实现是构建标准的树型结构,其访问周边邻居的效率并不高。而在CNN计算中,经常要大量访问周边邻居来做卷积运算。为此,我们构造了一种高效的八叉树结构并在GPU上高效实现:八叉树的每一层由一个排序过的散乱键数组、一个标记非空节点序号的数组组成。访问节点邻居可以通过这些数组快速获得,并支持高效访问所有同父节点的邻居。这一实现非常利于CNN计算,并且数据的下采样也非常便捷。 在下图中我们用二维的四叉树来阐述我们的数据结构。


图(a)中红色部分表示一个二维形状,l=0,1,2表示了不同深度下四叉树,每个节点的标号用排序过的散乱键标定并记在数组 https://www.zhihu.com/equation?tex=S_%7B0%7D+%2CS_%7B1%7D+%2CS_%7B2%7D+ 里 (图(b)),每一层非空节点的序号(从1开始计数,0表示空节点))由 https://www.zhihu.com/equation?tex=L_%7B0%7D+%2CL_%7B1%7D+%2CL_%7B2%7D+ 数组存储(图(c))。在四叉树每一层都存储CNN网络的特征数组,和 https://www.zhihu.com/equation?tex=S_%7Bi%7D 相对应,比如 https://www.zhihu.com/equation?tex=T_%7B1%7D%2CT_%7B2%7D 。当下采样发生的时候,如在 https://www.zhihu.com/equation?tex=T_%7B2%7D 上,四个同父的子节点通过 https://www.zhihu.com/equation?tex=L_%7B1%7D 可以迅速把采样结果放在 https://www.zhihu.com/equation?tex=T_%7B1%7D 中父节点所对应的位置。

突破口之二:限制在八叉树节点的CNN计算
图像域上每一像素都含有具体信息,都会经历CNN的计算,如卷积、池化。而在三维空间中,并不是每个体素都含有三维形体信息。我们认为,盲目地对所有体素做CNN计算是得不偿失的。为此,我们提出只在八叉树节点上进行CNN运算,这样的方式有以下三个好处。
● 存储优势:由于卷积计算限制在八叉树节点上,多次卷积也不会扩张卷积的计算区域,从而保证了计算量只和八叉树节点数目相关。而已有的一些基于稀疏存储的CNN的工作在多次卷积后会将整个空间占据,变得低效且无法处理高分辨率。
● 计算高效:八叉树的层次结构和便捷的数据组织使得卷积、反卷积、池化、反池化操作与八叉树高效结合。比如,常见池化操作就是把一个父节点的所有子节点的信息降采样到该父节点上。
● 信息传播优势:我们限定卷积计算只在八叉树节点上发生,实际上是隐式地将网络信息在形状表面上传播,从而可以更高效地交换和共享信息。基于全空间体素的3D CNN将信息在整个空间传播,信息流动的效率慢,很多含零信号的区域并不能贡献有效信息。从另一方面看,我们的限定计算也和多视角CNN、基于流形的CNN思想不谋而合:CNN计算都在形状表面发生。虽然目前我们还缺乏理论上对这一优势的严密分析,但我们的实验已经很好地体现这方面的优势。
基于八叉树的卷积神经网络(O-CNN)
基于高效的八叉树和限定CNN计算思想,我们提出了一个基于八叉树的卷积神经网络(O-CNN)。为了体现我们方法的优越性,并尽量避免不同网络结构所带来的优劣难以做公正的评价,我们只用常见的卷积和池化层来构造网络。把卷积+BN+ReLU+池化看作一个构建单元并记作 https://www.zhihu.com/equation?tex=U_%7Bl%7D (如果卷积是应用在八叉树的第l层)。O-CNN的前端构造如下: https://www.zhihu.com/equation?tex=input+%5Crightarrow+U_%7Bd%7D+%5Crightarrow+U_%7Bd-1%7D+%5Crightarrow+%5Ccdot+%5Ccdot+%5Ccdot+%5Crightarrow+U_%7B2%7D+ 。为了使得不同八叉树结构在最后具有相同长度的特征,我们对所有八叉树的第二层空节点补零填满。 基于这个前端(见下图),我们开发了完整的O-CNN网络,用在形状识别、检索、分割等三维分析的任务上。



图二: O-CNN 前端

牛刀小试
我们首先在Princeton ModelNet40数据集上测试O-CNN的形状识别能力。该数据集含有标定物体类别的40类三维数据,共含12311个CAD模型。我们利用这个数据集训练并测试了六个O-CNN网络:O-CNN(3)、O-CNN(4)、O-CNN(5)、O-CNN(6)、O-CNN(7)、O-CNN(8)。其中的数字表示所用八叉树的最大深度,即这个六个网络所用的最大空间分辨率为 https://www.zhihu.com/equation?tex=8%5E%7B3%7D+%2C16%5E%7B3%7D+%2C32%5E%7B3%7D+%2C64%5E%7B3%7D+%2C128%5E%7B3%7D+%2C256%5E%7B3%7D+。下表展现了这六个网络以及其他一些深度学习网络在ModelNet40上的识别率。从中可以看出,在同等分辨率下,O-CNN明显优于其他方法。值得一提的是,在低分辨率下,我们的O-CNN(3)和O-CNN(4)也表现不俗。O-CNN(7)和O-CNN(8)稍逊于O-CNN(6),这主要是由于ModelNet40的数据量不足以很好地训练这些相对深的网络。



我们也在ModelNet40数据集上测评了O-CNN在不同分辨率下(即八叉树最大深度)的显存开销以及运算时间,并和基于全部体素的3D CNN做了对比。实验中我们使用了一块 GeForce 1080 GPU (8GB显存),网络的minibatch大小为32。下表是各个网络的内存开销。




O-CNN网络平均一个前向和反向运算时间见下表。



由此可见,O-CNN的内存占用和计算时间明显占优,尤其在高分辨率下得到充分体现。
在形状检索任务中,我们和SHREC16比赛中的各个方法也做了对比。在ShapeNet55 Core数据集上,我们测评了O-CNN(5)和O-CNN(6),O-CNN(5)和其他方法中最好的结果类似,O-CNN(6)在各项测评指标上有明显优势。图三中展示了一些检索结果。



图三: O-CNN(6) 的形状检索结果。
在形状分割任务中(其中需要反卷积和反池化操作),O-CNN(6)也取得非常好的成绩 (下表中对比了我们方法和其他方法的结果,黑体标示最好的指标)。 限于篇幅,感兴趣的读者可以阅读我们即将发表在Siggraph2017上的文章,” O-CNN: Octree-based Convolutional Neural Networks for 3D Shape Analysis”。



表一: 形状分割对比结果。比较指标为分类结果的IoU。
O-CNN在三维分析任务中的优良表现让我们更有信心在未来研究工作中继续探索O-CNN的其他任务能力,如去噪、形状对应、形状补全、形状生成、场景理解等范畴更广、粒度更细的三维分析与理解的任务。
结语

纷繁芜杂的三维数据构建了多姿多彩的三维几何世界,如何整合数据的力量、结合机器学习与图形学知识来认识三维世界是我们研究的重点方向。我们将沿着这一方向继续前行!也期望看到更多年轻学子和研究学者加入到这一充满活力的前沿领域。

————这里是回答结束的分割线————
以上回答摘选自微软研究院AI头条,以数据的名义——浅谈三维几何的处理与分析(上)和 以数据的名义——浅谈三维几何的处理与分析(下)
感谢大家的阅读。
本账号为微软亚洲研究院的官方知乎账号。本账号立足于计算机领域,特别是人工智能相关的前沿研究,旨在为人工智能的相关研究提供范例,从专业的角度促进公众对人工智能的理解,并为研究人员提供讨论和参与的开放平台,从而共建计算机领域的未来。
微软亚洲研究院的每一位专家都是我们的智囊团,你在这个账号可以阅读到来自计算机科学领域各个不同方向的专家们的见解。请大家不要吝惜手里的“邀请”,让我们在分享中共同进步。
也欢迎大家关注我们的微博和微信账号,了解更多我们研究。

JamesB 发表于 2022-1-5 10:55

使用渲染的图片训练视觉识别网络。好处是不用人肉添加label。参见某公司用GTA5的截图训练无人驾驶道路物体检测的神经网络(
https://arxiv.org/pdf/1608.02192.pdf)。
现在很多人希望有一个好用的可以直接调用的渲染引擎,现有游戏引擎的问题在于都是它调用你,你很难调用他,也没有专门的工具让你可以轻松地同时产生渲染的图片和label。

Baste 发表于 2022-1-5 11:02

Lab大师兄在SIGGRAPH 2015上的文章,渲染去噪:
A Machine Learning Approach for Filtering Monte Carlo Noise
不算Deep learning (只有1层hidden layer...),但好歹算是Neural Network了

IT圈老男孩1 发表于 2022-1-5 11:04

先贴个图


千亿像素级里约全景图2(152GP)
在贴个图


千亿像素级里约全景图1(69GP)

这个是港科大Prof. Pedro V. Sander和他的研究团队一同制作出了好几张超高分辨率的实景图片。其中这两张千亿像素级的里约全景图更是前后两次打破了当时的世界纪录。

虽然说这个只是纯粹的计算机图形学的研究作品,但默默的觉得,作为来自里约的教授,这就是一种情怀吧!

------------------------------ 情怀分割线 ----------------------------------------------------
好了,扯完情怀了。

目前计算机图形学设计的领域包括而不仅限于图像、视频处理、渲染、可视化到网络传输,除此之外,我想到了两个例子,所属的方向还是计算机图形学和机器学习的结合。只说方向,具体的论文,自己查阅就好。

1. 3D打印&3D图像识别
这方面举个比较有趣的公司,就是著名数学家邱成铜老师开到3D打印公司GEOMETRIC INFORMATICS Technology Inc.(GIT) , 不懂邱老师的请自己蹲墙角吧,公司主要专注于三维几何的计算处理,包括曲面匹配、三维人脸识别、动态曲面跟踪、形状分析、表情模拟等各种算法。
现在的人脸识别可以理解为是计算机视觉和机器学习的结合,但是3D的人脸识别那就是涉及到包括了计算机图形学再加机器学习的应用了。

2. 用深度学习做图像修复或者图像渲染
近期的一个例子,用了TensorFlow+DCGAN(生成对抗模型)做的图像修复,深度|如何在?TensorFlow?中用深度学习修复图像?(附论文)


-------广告分割线,顺一则广告,反正有兴趣的就加我,没兴趣的就绕道就好---------
我司组织了一个计算机视觉的开发者交流微信群,目标是汇集【计算机视觉,图像处理,3D图像,视频处理,深度学习,机器学习】的开发者,一起分享开发经验,共同探讨技术,有兴趣入群的可以加我微信(WeChat: LaurenLuoYun,二维码如下),请注明“姓名-公司/学校-技术方向-加群”(纯交流的无需添加“加群”),谢谢。

Ylisar 发表于 2022-1-5 11:10

我觉得吧可以在建模方面找切入点。通过机器学习的方法利用一些鲜艳的知识进行计算机辅助建模。
比如,利用单张人脸图片来讲进行3D 重建,本来对于3D 重建来讲一张图片的信息量是不够的,但是可以利用大量的人脸数据训练来进行。浙大的周昆老师做了很多这方面的工作,你可以参考一下。再比如说,能不能利用训练数据生成某种特定风格的城市建筑群的模型啦之类的。这一类自动建模,三维重建之类的应该还是蛮有意思的。
此外,不知道能不能通过机器学习的方法简化渲染的计算量。比如毛发、水体这些大量的物理运算,本来都是按照物理规律来的,但在实际应用中我们其实只需要一个合理的近似就可以。那是否可以通过机器学习的算法对于物理规律进行近似,然后简化计算。大部分的机器学习算法都具有训练时间长,测试时间短的特点。比如把对某个计算量巨大的物理函数用神经网络进行回归之类的。
还有就是生成某种特定的风格(漫画、油画)的渲染结果之类的。

RecursiveFrog 发表于 2022-1-5 11:11

可以考虑人能做什么事情,尝试用机器去做:

[*]绘画 → 根据绘画例子的风格渲染非实感图形。
[*]摄影 → 根据真实的摄影作品在虚拟世界构图拍摄作品。
[*]舞蹈、武术 → 根据动作捕捉数据按需求生成动画。

zifa2003293 发表于 2022-1-5 11:15

今年Siggraph Asia 2016有一篇基于机器学习对三维模型去噪的:Mesh Denoising via Cascaded Normal Regression(
http://wang-ps.github.io/)。


模型去噪在图形学中是一个很古老当然也很重要的问题。近几十年来,研究这个问题的论文估计有上千篇。但是据我所知,近15年来,发表在Siggraph或者Siggraph Asia这种顶级会议上的这类文章也就5篇左右。这篇能中Siggraph Asia,肯定是对这个方向有巨大贡献的。作者把代码数据也都放出来了。
页: [1] 2 3
查看完整版本: 计算机图形学与机器学习(深度学习)怎么结合起来?