找回密码
 立即注册
查看: 625|回复: 5

CVPR 2018:十大最酷论文

[复制链接]
发表于 2021-3-30 21:45 | 显示全部楼层 |阅读模式
作者:George Seif
编译:Bing
编者按:上周,2018年计算机视觉和图像识别会议(CVPR 2018)在美国盐湖城举行,这是计算机视觉领域的顶级会议之一,今年,CVPR共收到了3300份论文,最终接收了979份,与会者超过6500人。作者George Seif在博客上分享了自己最喜欢的10篇论文,其中不乏新奇有趣的项目,让我们一起来看看吧!
每年的CVPR都有各路大神和他们的作品,总有可以学习的新事物。当然,我们也总能看到具有创新性的突破性成果,给行业注入新鲜的血液。这些论文通常在计算机视觉下的子类中获得顶尖的结果。
这几天最开心的就是看这些论文了!很多成果展示的是全新深度网络在视觉中的应用,它们也许不是最基础的突破性成果,但是往往都能提供一种创新思维,给人展示一种新思路。总之非常酷!
在这篇文章里,我将总结我个人认为CVPR中最酷的10篇论文,其中既有深度网络下的新应用,也有从新的角度提出运用方法的。让我们开始吧!
Training Deep Networks with Synthetic Data: Bridging the Reality Gap by Domain Randomization

这篇论文来自英伟达,核心思想是用合成数据训练卷积神经网络(CNNs)。研究人员为Unreal Engine 4创造了一个插件,使其能够生成合成训练数据。其中的关键是他们将训练数据可能拥有的变量进行了随机化,包括:
    目标物体的数量和种类干扰项的数量、种类、颜色和规模目标物和背景照片的图案针对不同场景的虚拟摄像机的位置针对不同场景摄像机的角度点光源的数量和位置
研究人员展示了利用合成数据进行预训练后出色的效果和效率,达到了前所未有的水平。这也为没有重要数据来源时提供了一种思路,即生成并使用合成数据。
WESPE: Weakly Supervised Photo Enhancer for Digital Cameras

这篇非常精妙!研究人员训练了一个生成对抗网络(GAN),能够自动“修图”。最酷的部分是,它是弱监督的,你不需要有输入和输出的图像对!想要训练网络,你只需要拥有一套“好看”的图片和一套“粗糙”的图片,想进一步调整。之后,研究者会训练生成对抗网络,使其更符合审美,通常是改进色彩和图片的对比度。
这一模型非常简单并且能快速上手,你无需拥有成对的图片,最终会得到一个通用的图片增强器。我还喜欢这篇论文的一点是它是弱监督的方法,非监督学习看起来很遥远,但是对CV领域的许多子类来说,弱监督似乎是一个更可靠的方向。
Efficient Interactive Annotation of Segmentation Datasets with Polygon-RNN++

深度网络之所以能有巨大帮助,正是得益于大型的经过标注的数据集。但是对很多机器视觉任务来说,想获得这样的数据会很耗费时间并且成本高昂。特别是分割的数据需要对图片中的每个像素进行分类标注。所以对大型数据集来说,标注是永远都标不完的。
有了Polygon-RNN++,你可以在图中每个目标物体的周围大致圈出多边形形状,网络会自动生成分割的注释!论文中表明,这一方法的表现非常不错,并且能在分割任务中快速生成建议的标注。
Creating Capsule Wardrobes from Fashion Images

每天早上你是否都会面临“不知道穿什么衣服”的难题,现在“胶囊衣柜(Capsule Wardrobes)”来帮你了!在这篇论文中,作者设计了一款模型,给定线程的服装和首饰,模型能对各件单品进行组合,提供所有可能的混合搭配方案。事实上它是使用目标函数进行训练,这些目标函数只在捕捉视觉兼容性、多功能性和用户偏好等关键要素。有了胶囊衣柜,妈妈再也不用担心我穿错衣服啦!
SuperSloMo: High Quality Estimation of Multiple Interediate Frames for Video Interpolation

这篇论文论智君曾专门报道过:《CVPR 2018:英伟达用深度学习实现任意视频的完美慢镜头回放》。这篇英伟达的论文讲述了用CNN估计视频中间帧,可以将标准的30fps视频转化成240fps的慢动作回放视频!模型估计了帧与帧之间的光流,并将它插入视频帧中间,让慢动作看起来更清晰流畅。
Who Let The Dogs Out? Modeling Dog Behavior From Visual Data

这个题目可能是最酷的了吧!这篇文章的研究方向是尝试对狗狗的思想和活动建模。作者在狗狗的四肢上安装了传感器,收集其运动时的数据;他们还在狗狗头上安装了摄像机,从而获得“狗狗视角下的画面”。为了从视频帧中提取图片特征,研究人员用到了CNN特征提取器,之后和传感器数据一起被传输到LSTM中,预测狗狗的行为。这一充满创造性的应用和任务搭建方法让这篇论文非常有可读性!希望这样的数据收集方法和深度学习技术的应用能激励未来的研究。
Learning to Segment Every Thing

Facebook人工智能研究专家何恺明的团队在过去几年做了太多CV方面的研究了,他们的论文一向以创新性和简洁性著称。ResNet和Mask R-CNN都算不上是最疯狂、最复杂的点子,虽然他们简洁易用,但在实际中非常高效。但这次却有所不同。
Learning to Segment Every Thing是Mask R-CNN的扩展,他可以让网络分割在训练时从未见过的目标物体!这对于快速获取数据集中的标签非常有帮助,同时成本也较低。它可以对从未见过的目标种类获取强大的基本分类,这对于实际应用这类分割网络是非常重要的,因为在这样的环境中可能有很多陌生种类。总的来说,这是大多数深度网络模型应该考虑的正确方向。
Soccer on Your Tabletop

正好在世界杯期间发表这篇论文,时机刚刚好。简单地说,论文作者训练了一个模型,给定足球比赛的视频后,模型可以输出一个动态3D重建比赛,也就是说你可以用AR技术随时随地查看比赛。
最巧妙的是,作者将不同种类的信息结合了起来。网络使用视频数据训练的,数据可以用3D网格提取。在测试时,运动员的边界框、姿势和轨迹都被提取出来,以进行分割。这些3D分割可以轻松投射到任意平面上。在我看来这也是用合成数据进行训练的好方法。
LayoutNet: Reconstruction the 3D Room Layout from a Single RGB Image

这种CV应用我们很多人可能都想到过:利用一个摄像机进行拍摄,然后用数字3D重建场景。这就是论文讨论的重点——3D重建房间。研究人员将全景图像当做输入,之后精确输出3D重建的图像。模型可以生成不同形状、含有不同家具的房间。
Learning Transferable Architectures for Scalable Image Recognition

最后是我认为未来深度学习发展方向的论文:神经架构搜索(NAS)。NAS背后的原理是,不手动设计网络结构,而是用另一个网络“搜寻”最佳模型结构。搜索会基于一个奖励函数,在验证集上函数会根据模型表现进行奖励。作者表示这种架构比手动设计的精确度更高,并且灵活性更好。
结语

希望以上论文能给你带来灵感,甚至尝试pick一些新思路应用到自己的项目中吧!如果觉得不错,请分享给更多人哦!

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
发表于 2021-3-30 21:47 | 显示全部楼层
最后一张图来自哪篇论文?
发表于 2021-3-30 21:48 | 显示全部楼层
mark
发表于 2021-3-30 21:53 | 显示全部楼层
最后一张图感觉很厉害
发表于 2021-3-30 21:58 | 显示全部楼层
最后一张应该是来自predicting deeper into the future of semantic segmentation 最近刚好看到
发表于 2021-3-30 22:06 | 显示全部楼层
源码哪里找
懒得打字嘛,点击右侧快捷回复 【右侧内容,后台自定义】
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Unity开发者联盟 ( 粤ICP备20003399号 )

GMT+8, 2024-11-22 18:49 , Processed in 0.103022 second(s), 26 queries .

Powered by Discuz! X3.5 Licensed

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表