CVPR 2018：十大最酷论文

jquave · 发表于 2021-3-30 21:45

作者：George Seif
编译：Bing
编者按：上周，2018年计算机视觉和图像识别会议（CVPR 2018）在美国盐湖城举行，这是计算机视觉领域的顶级会议之一，今年，CVPR共收到了3300份论文，最终接收了979份，与会者超过6500人。作者George Seif在博客上分享了自己最喜欢的10篇论文，其中不乏新奇有趣的项目，让我们一起来看看吧！
每年的CVPR都有各路大神和他们的作品，总有可以学习的新事物。当然，我们也总能看到具有创新性的突破性成果，给行业注入新鲜的血液。这些论文通常在计算机视觉下的子类中获得顶尖的结果。
这几天最开心的就是看这些论文了！很多成果展示的是全新深度网络在视觉中的应用，它们也许不是最基础的突破性成果，但是往往都能提供一种创新思维，给人展示一种新思路。总之非常酷！
在这篇文章里，我将总结我个人认为CVPR中最酷的10篇论文，其中既有深度网络下的新应用，也有从新的角度提出运用方法的。让我们开始吧！
Training Deep Networks with Synthetic Data: Bridging the Reality Gap by Domain Randomization

这篇论文来自英伟达，核心思想是用合成数据训练卷积神经网络（CNNs）。研究人员为Unreal Engine 4创造了一个插件，使其能够生成合成训练数据。其中的关键是他们将训练数据可能拥有的变量进行了随机化，包括：

研究人员展示了利用合成数据进行预训练后出色的效果和效率，达到了前所未有的水平。这也为没有重要数据来源时提供了一种思路，即生成并使用合成数据。
WESPE: Weakly Supervised Photo Enhancer for Digital Cameras

这篇非常精妙！研究人员训练了一个生成对抗网络（GAN），能够自动“修图”。最酷的部分是，它是弱监督的，你不需要有输入和输出的图像对！想要训练网络，你只需要拥有一套“好看”的图片和一套“粗糙”的图片，想进一步调整。之后，研究者会训练生成对抗网络，使其更符合审美，通常是改进色彩和图片的对比度。
这一模型非常简单并且能快速上手，你无需拥有成对的图片，最终会得到一个通用的图片增强器。我还喜欢这篇论文的一点是它是弱监督的方法，非监督学习看起来很遥远，但是对CV领域的许多子类来说，弱监督似乎是一个更可靠的方向。
Efficient Interactive Annotation of Segmentation Datasets with Polygon-RNN++

深度网络之所以能有巨大帮助，正是得益于大型的经过标注的数据集。但是对很多机器视觉任务来说，想获得这样的数据会很耗费时间并且成本高昂。特别是分割的数据需要对图片中的每个像素进行分类标注。所以对大型数据集来说，标注是永远都标不完的。
有了Polygon-RNN++，你可以在图中每个目标物体的周围大致圈出多边形形状，网络会自动生成分割的注释！论文中表明，这一方法的表现非常不错，并且能在分割任务中快速生成建议的标注。
Creating Capsule Wardrobes from Fashion Images

每天早上你是否都会面临“不知道穿什么衣服”的难题，现在“胶囊衣柜（Capsule Wardrobes）”来帮你了！在这篇论文中，作者设计了一款模型，给定线程的服装和首饰，模型能对各件单品进行组合，提供所有可能的混合搭配方案。事实上它是使用目标函数进行训练，这些目标函数只在捕捉视觉兼容性、多功能性和用户偏好等关键要素。有了胶囊衣柜，妈妈再也不用担心我穿错衣服啦！
SuperSloMo: High Quality Estimation of Multiple Interediate Frames for Video Interpolation

这篇论文论智君曾专门报道过：《CVPR 2018：英伟达用深度学习实现任意视频的完美慢镜头回放》。这篇英伟达的论文讲述了用CNN估计视频中间帧，可以将标准的30fps视频转化成240fps的慢动作回放视频！模型估计了帧与帧之间的光流，并将它插入视频帧中间，让慢动作看起来更清晰流畅。
Who Let The Dogs Out? Modeling Dog Behavior From Visual Data

这个题目可能是最酷的了吧！这篇文章的研究方向是尝试对狗狗的思想和活动建模。作者在狗狗的四肢上安装了传感器，收集其运动时的数据；他们还在狗狗头上安装了摄像机，从而获得“狗狗视角下的画面”。为了从视频帧中提取图片特征，研究人员用到了CNN特征提取器，之后和传感器数据一起被传输到LSTM中，预测狗狗的行为。这一充满创造性的应用和任务搭建方法让这篇论文非常有可读性！希望这样的数据收集方法和深度学习技术的应用能激励未来的研究。
Learning to Segment Every Thing

Facebook人工智能研究专家何恺明的团队在过去几年做了太多CV方面的研究了，他们的论文一向以创新性和简洁性著称。ResNet和Mask R-CNN都算不上是最疯狂、最复杂的点子，虽然他们简洁易用，但在实际中非常高效。但这次却有所不同。
Learning to Segment Every Thing是Mask R-CNN的扩展，他可以让网络分割在训练时从未见过的目标物体！这对于快速获取数据集中的标签非常有帮助，同时成本也较低。它可以对从未见过的目标种类获取强大的基本分类，这对于实际应用这类分割网络是非常重要的，因为在这样的环境中可能有很多陌生种类。总的来说，这是大多数深度网络模型应该考虑的正确方向。
Soccer on Your Tabletop

正好在世界杯期间发表这篇论文，时机刚刚好。简单地说，论文作者训练了一个模型，给定足球比赛的视频后，模型可以输出一个动态3D重建比赛，也就是说你可以用AR技术随时随地查看比赛。
最巧妙的是，作者将不同种类的信息结合了起来。网络使用视频数据训练的，数据可以用3D网格提取。在测试时，运动员的边界框、姿势和轨迹都被提取出来，以进行分割。这些3D分割可以轻松投射到任意平面上。在我看来这也是用合成数据进行训练的好方法。
LayoutNet: Reconstruction the 3D Room Layout from a Single RGB Image

这种CV应用我们很多人可能都想到过：利用一个摄像机进行拍摄，然后用数字3D重建场景。这就是论文讨论的重点——3D重建房间。研究人员将全景图像当做输入，之后精确输出3D重建的图像。模型可以生成不同形状、含有不同家具的房间。
Learning Transferable Architectures for Scalable Image Recognition

最后是我认为未来深度学习发展方向的论文：神经架构搜索（NAS）。NAS背后的原理是，不手动设计网络结构，而是用另一个网络“搜寻”最佳模型结构。搜索会基于一个奖励函数，在验证集上函数会根据模型表现进行奖励。作者表示这种架构比手动设计的精确度更高，并且灵活性更好。
结语

希望以上论文能给你带来灵感，甚至尝试pick一些新思路应用到自己的项目中吧！如果觉得不错，请分享给更多人哦！

Arzie100 · 发表于 2021-3-30 21:47

最后一张图来自哪篇论文？

RhinoFreak · 发表于 2021-3-30 21:48

mark

NoiseFloor · 发表于 2021-3-30 21:53

最后一张图感觉很厉害

yukamu · 发表于 2021-3-30 21:58

最后一张应该是来自predicting deeper into the future of semantic segmentation 最近刚好看到

Arzie100 · 发表于 2021-3-30 22:06

源码哪里找

		自动登录	找回密码
密码			立即注册

CVPR 2018：十大最酷论文

本帖子中包含更多资源

浏览过的版块