当前，在图像处理领域，哪个方向比较火？或者比较好做？

Mecanim · 发表于 2021-10-26 15:53

图像处理相对其他来说是一门很有意思的学科，相信全世界肯定有相当多的人在研究它，是不是代表要想在图像处理中有所作为就更加难一点呢？

pc8888888 · 发表于 2021-10-26 16:02

看了一些高票答案，我提出一些不成熟的小看法：回答问题还是要针对问题本身。先看题主想问了什么，再对应答什么。
题主问的：在“图像处理”领域，哪个方向比较火？
然而很多高票回答的领域，其实都跑到计算机视觉的领域去了，还有什么虚拟现实去了。
首先题主你应该搞清楚，什么是图像处理？他和另外一个领域-计算机视觉的区别和关系。
尽管这两者的界限其实很模糊，而且学术界和工业界经常有不同的划分方法。
广义的图像处理会认为计算机视觉是他的一个subset（参见wikipedia对digital image processing(DIP)的定义：Digital image processing，里面就包含了几乎所有的计算机视觉，作为DIP的子领域）；
而广义的计算机视觉，就包含了图像处理，作为low-level vision（参见每年的cvpr的call for paper：http://cvpr2018.thecvf.com/files/CFP_CVPR2018.pdf。像我这种做图像但要投CV会的人，paper每次都被当做Low的那一类来处理...）。

稍微折中一下，我个人比较喜欢把图像处理（DIP）领域局限在所谓的Low-Level Vision这一块儿，包括所有的计算成像（Computational Imaging）。
为了保证排他性，我这里把计算机视领域（CV）觉局限在一般所谓High-Level Vision那一块儿。
除此以外，还有一些介于这两者之间的应用和问题，一般被分为Mid-Level Vision。根据具体的情况，可以分别和DIP或者CV放在一起讨论。
如果按照这样的定义来分类的话，一句话总结就是：

展开来讲，可以这样认为：
图像处理（DIP）：
Input: 图像，或者非图像域的观测值
Output: 图像，可能不一定在同一个维度和空间（比如图像压缩，成像等）。一般不需要一些场景，或者语义信息（sematic information）
一些常见的具体任务：降噪，超分辨，去模糊，去马赛克，去雾去雨去栅栏去云等等的去X系列，再对焦，图像补全，压缩感知，计算成像（MRI, CT, Light field, ...），等等，外加一些图像增强的任务，比如锐化之类的。

计算机视觉（CV）：
Input: 图像
Output: 场景信息，标识，对象理解 (recognize objects, people, activity happening)
一些常见的具体任务：各种识别（人脸，猫，狗，交通灯，疾病，异常，造假....），图像转文字（image captioning，etc），图像转语音，转特征值，目标定位，追踪，等等

Mid-level的视觉和两者都相关：
Input: 图像
Output: 图像大小的，针对每个像素点的理解
常见任务：图像分割，前后景分离，saliency map或者attention map，等等

然后回到题主的问题：这里面那个应用比较火。
在学术上一般每个具体问题，有不同的研究方法和途径。但工业应用上其实这里面很多问题都是有机地结合在一起的。
比如，你要对一张卫星图像做分析，判断照片是照的陆地还是海面。
拿到现实数据往往不像你跑ImageNet那样理想和高质量，那你要不要先实际测量数据做一些预处理，比如超分辨，降噪，去云，去雾之类的？这就涉及到DIP。
然后一副大的遥感图像往往涉及到各种不同的区域和目标，他们都有不同的本质和特性。那你要不要先做一个分割，划分一下区域？这就是Mid-Level的视觉问题。
然后等你把数据clean得差不多了，就该跑个识别或者定位之类的算法了，这就是CV的领域的。
所以你看，实际落地的系统，往往这些问题你都涉及到。这些不同的问题看似领域不同，但最终在应用的时候，是相辅相成的。
其实在如今这个年代，我觉得火得其实不是某种应用，而是方法。比如很多人提到的deep learning的方法，最近是冲击了所有这些领域的使用传统方法的流派。
不管哪一个应用，只要有一个流弊的方法，能够给做到冲击性的效果提升，一定都可以火。。。

综上，我的综合意见是：最好先搞清楚要问的是什么，再来讨论答案。

fwalker · 发表于 2021-10-26 16:11

图像处理确实是很有意思的学科，特别是最近几年和深度学习、机器视觉这些方向交流碰撞之后。火的方向有很多，还是要看自己兴趣，我列几个我个人觉得比较有前景的，新兴的领域。

1. 和深度学习的结合。这方面的进展在人脸识别、图像分类、image captioning, scene understanding等等已经突飞猛进。之前的业界标准很多是依赖SIFT, HOG等这些需要利用图像特有性质的方法。如今深度神经网络，已经大规模超越了这些传统方法 (但不代表传统方法失去用武之地)。深度网络基本是采取暴力方法训练，不考虑图像特有性质，而且目前缺少严格的数学理论支撑，所以这方面未来还有较大的空间提高。

2. 视觉显着性模型 (visual attention and saliency model)。这个很有意思，目的是从一幅图像或视频里，找到人眼关注的区域。在自动追踪，图像压缩，机器人，增强现实等上面有广泛应用前景。

3. 计算影像技术 (computational photography), 比如光场相机(参见Lytro)，高动态等。光场是当今学术界和工业界研究的热点之一，主要有两大类。一类是光场信号的摄取，如Lytro, Raytrix这些。另一类是光场的呈现，更有挑战，一个著名的例子就是Magic Leap。

4. 医学图像。这一块和机器学习的结合也是值得关注的。

还有很多，不一一赘述了。希望有帮助。

ChuanXin · 发表于 2021-10-26 16:21

用深度学习玩图像的七重关卡

许铁-巡洋舰科技2 天前
第一个重境界：图像识别

如果你开始了解深度学习的图像处理，你接触的第一个任务一定是图像识别：
比如把你的爱猫输入到一个普通的CNN网络里，看看它是喵咪还是狗狗。

一个最普通的CNN，比如像这样几层的CNN鼻祖Lenet，如果你有不错的数据集（比如kaggle猫狗大战）都可以给出一个还差强人意的分类结果(80%多准确率)，虽然不是太高。

当然，如果你再加上对特定问题的一些知识，也可以顺便识别个人脸啥的，开个startup叫face 减减什么：

会玩的，也可以顺别识别个猪脸什么哒（我觉得长得都一样哦），这样搞出来每个猪的身份，对于高质量猪肉的销售，真是大有裨益的。

或者看看植物都有个什么病害什么的，像这样不同的病斑，人都懒得看的，它可以给你看出来。植物保护的人可以拿着手机下田了。

Ronneberger, Olaf, Philipp Fischer, and Thomas Brox. &#34;U-net: Convolutional networks for biomedical image segmentation.&#34; International Conference on Medical Image Computing and Computer-Assisted Intervention. Springer, Cham, 2015.

虽然植物保护真的很好用，分类问做就了还真是挺无聊的。
我们进化的方向，也就是用更高级的网络结构取得更好的准确率，比如像下图这样的残差网络（已经可以在猫狗数据集上达到99.5%以上准确率）。分类做好了你会有一种成为深度学习大师，拿着一把斧子眼镜里都是钉子的幻觉。分类问题之所以简单，一要归功于大量标记的图像，二是分类是一个边界非常分明的问题，即使机器不知道什么是猫什么是狗，看出点区别还是挺容易的，如果你给机器几千几万类区分，机器的能力通过就下降了（再复杂的网络，在imagenet那样分1000个类的问题里，都很难搞到超过80%的准确率）。

He, Kaiming, et al. &#34;Identity mappings in deep residual networks.&#34; European Conference on Computer Vision. Springer International Publishing, 2016.

第二重境界：物体检测

很快你发现，分类的技能在大部分的现实生活里并没有鸟用。因为现实中的任务啊，往往是这样的：

或者这样的：

那么多东西在一起，你拿猫狗大头照训练的分类网络一下子就乱了阵脚。即使是你一个图片里有一个猫还有一个狗，甚至给猫加点噪声，都可以使你的分类网络分寸大乱。
现实中，哪有那么多图片，一个图里就是一个猫或者美女的大图，更多的时候，一张图片里的东西，那是多多的，乱乱的，没有什么章法可言的，你需要自己做一个框，把你所需要看的目标给框出来，然后，看看这些东西是什么。
于是你来到机器视觉的下一层挑战 - 目标检测（从大图中框出目标物体并识别），随之而来的是一个新的网络架构，又被称为R - CNN，图片检测网络，这个网络不仅可以告诉你分类，还可以告诉你目标物体的坐标，即使图片里有很多目标物体，也一一给你找出来。

Ren, Shaoqing, et al. &#34;Faster R-CNN: Towards real-time object detection with region proposal networks.&#34; Advances in neural information processing systems. 2015.

万军斩你首级那是杠杠的，在众多路人甲中识别嫌疑犯，也是轻而易举，安防的人听着要按捺不住了。
今年出现的YOLO算法更是实现了快速实时的物体检测，你一路走过就告诉你视线里都有什么在哪里，要知道这在无人驾驶里是何等的利器。

YOLO快速检测法Redmon, Joseph, et al. &#34;You only look once: Unified, real-time object detection.&#34; Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016.

当然，到这里你依然最终会觉得无聊，即使网络可以已经很复杂，不过是一个CNN网络（推荐区域），在加上一层CNN网络做分类和回归。能不能干点别的？

第三重境界：图像切割
啊哈，这就来到了第三个关卡，你不仅需要把图片中边边角角的物体给检测出来，你还要做这么一个猛料的工作，就是把它从图片中扣出来。要知道，刚出生的婴儿分不清物体的边界，比如桌上有苹果这种事，什么是桌子，什么是苹果，为什么苹果不是占在桌子上的？所以，网络能不能把物体从一个图里抠出来，事关它是否真的像人一样把握了视觉的本质。这也算是对它的某种“图灵测试” 。而把这个问题简化，我们无非是在原先图片上生成出一个原图的“mask”，面具，有点像phtoshop里的蒙版的东西。

所谓抠图

Drozdzal, Michal, et al. &#34;The importance of skip connections in biomedical image segmentation.&#34; International Workshop on Large-Scale Annotation of Biomedical Data and Expert Label Synthesis. Springer International Publishing, 2016.

注意，这个任务里，我们是要从一个图片里得到另一个图片哦！生成的面具是另一个图片，这时候，所谓的U型网络粉墨登场，注意这是我们的第一个生成式的模型。它的组成单元依然是卷积，但是却加入了maxpooling的反过程升维采样。

这个Segmentation任务，作用不可小瞧哦，尤其对于科研口的你，比如现在私人卫星和无人机普及了，要不要去看看自己小区周围的地貌，看是不是隐藏了个金库？清清输入，卫星图片一栏无余。哪里有树，哪里有水，哪里有军事基地，不需要人，全都给你抠出来。

如果你要数个细胞啥的，都是挺容易的，给它变成这样的轮廓不就你得了。

第四重境界：
我们开始fashion起来，如果你是淘宝服装小店的老板，想让客户输入一张服装的图片，然后得到一组推荐的服装，来个以图搜图的功能怎么搞呢？注意啊，我可以从网络上爬一大堆图出来，但是这些数据是没有标注的。怎么办？铁哥告你还是有的搞，这个搞法，就是聚类。
铁哥教你最简单的一招聚类哦，那就是，把图片统统放进卷积网络，但是我们不提取分类，而只是提取一些网络中间层的特征，这些特征有点像每个图片的视觉二维码，然后我们对这些二维码做一个k-means聚类，也会得到意想不到的效果。为什么要深度？因为深度提取的特征，那是与众不同的。
然后以图搜图呢？不过是找到同一聚类里的其它图片啊。

在聚类的基础上，就可以做个搜索！

第五层境界：
我们开始晋升为仰望星空的人，之前那些分类赚钱的应用太无聊了。机器视觉搞科学怎么港？作为一群仰望星空后观察细胞的人，我们最常发现的是我们得到的天文或者细胞图片的噪声实在太大了，这简直没法忍啊，然后，深度学习给了你一套降噪和恢复图像的方法。一个叫auto-encoder的工具，起到了很大的作用，刷的一下，图像就清楚了。

这还不是最酷炫的，那个应用了博弈理论的对抗学习，也可以帮你谋杀噪点！如果你会对抗所谓GAN，也是一种图像生成的工具，让网络去掉噪声的图片，与没有噪声的自然图片，连卷积网络都判别不出来，对，就是这样！

Schawinski, Kevin, et al. &#34;Generative adversarial networks recover features in astrophysical images of galaxies beyond the deconvolution limit.&#34; Monthly Notices of the Royal Astronomical Society: Letters 467.1 (2017): L110-L114.

第六重境界：

在工业界赚够了钱，科学也太nerd了，我们来玩艺术思考哲学，第一招，图像风格迁移，请见铁哥之前的文章：

然而真正能玩好这一事项的，还是那个刚刚提过的对抗学习GAN，比如大名鼎鼎的CycleGAN，几乎可以实现一种你自定义的“图像翻译” 功能，而且你不用做标注哦，拿出冬天和夏天的两组图片，它会自动的在两组图片中找出对应来。

Zhu, Jun-Yan, et al. &#34;Unpaired image-to-image translation using cycle-consistent adversarial networks.&#34; arXiv preprint arXiv:1703.10593 (2017).

第七重境界：

图像翻译也懒的玩了，你神经网络不是号称能够理解图像，看你来个无中生有，在噪声里生成图片来？

对，依然是GAN，而且是最基础的卷积GAN (DCGAN)就可以给你干出来。
看看GAN所幻想的宾馆情景，你能想到是计算机做的图吗？哈哈哈！

Goodfellow, Ian, et al. &#34;Generative adversarial nets.&#34; Advances in neural information processing systems. 2014.

写到这里，我自己都觉得GAN是非常有前途的，有前途的，有前途的，以前我还以为只是好玩呢。
这里展示的七级浮屠，也不过深度学习被人类discover的冰山一角，醉卧沙场君莫笑，古来征战几人回。

给你一个稍微清晰一些的大纲：

如果对基础理论部分有不熟悉，请返回文章你不能不知道的CNN，当然它只是冰山一角，了解更多并挨个实战请关注：巡洋舰的深度学习实战课程，手把手带你进行深度学习实战，课程涵盖机器学习，深度学习，深度视觉，深度自然语言处理，以及极具特色的深度强化学习，看你能不能学完在你的领域跨学科的应用深度学习惊艳你的小伙伴，成为身边人眼中的大牛。刚刚讲的方法都将在课程里详细展开。

目前课程线下版本已经基本报名完毕（特殊申请可加一到两个名额），为了缓解众多异地学员的需求，我们提出一个线上加线下的课程简版，课程包括全部课程视频， notebook作业，和一个课程模块的来京线下实践机会，名额限5名，预报从速，详情请联系陈欣（cx13951038115）。

Doris232 · 发表于 2021-10-26 16:24

最被学术界和企业界看好的毫无疑问是医疗图像还有自动驾驶。

但是个人认为，很多工业界不太容易被人广泛发现的问题，比如，标签检测里的图像处理，还有我们做半导体生产线上，检测半导体缺陷的图像处理；这都是很大的问题，但是根本没有人做。这种就好比，现在已经是欧洲人开始殖民南美和北美的时代了。美洲大陆逐渐被占领，但是加勒比海上那些富裕的小海岛无人问津。其实这种东西往往技术也不是特别难。

说得更具体一些，我发现，就是在工业上，尤其是流水线，技术含量有非常高，同时对品控要求很高的行业，典型案例是半导体；许多加工和测试方法，以前用人工的，其实一定是可以用CV去替代的。用更多的计算机和更少的人，自然可以控制成本，也能借此提高员工的待遇。

LiteralliJeff · 发表于 2021-10-26 16:27

火的挺多，好做的不好说，这个明显跟背景相关，不同的人觉得好做的点不一样啊。

通用算法竞争的人多，需要对问题有比较深入的了解。

从我个人的经历上看，如果有一些具体的比较了解的方向，做有针对性的图像处理会比较容易一点。

比如数学出身的，可以从概率、数据分布的角度做图像去噪，就是充分利用自己的优势。以前有一个同学，学材料的，专门做金属腐蚀图像分析，来预测和检验金属性能的，也不错。在python、C++、优化方面有实力的，辅以适当的建模能力，做深度学习就很爽。我个人是电子信息工程加检测技术与自动化装置，原先又是做机器视觉方向的，就觉得做视觉系统比较好玩。但也有师姐完全就是做图像处理的线提取，那真是图像处理中最最基础的算法，也很成功。

方向千千万，要结合自身的背景、资源来选择。打个比方，就是带着镣铐跳舞。例如我现在虽然对深度学习和优化方面的应用很感兴趣，但马上要毕业还要完成手头的一篇论文，就只能先把特征工程的活干完。其他稍后再谈。

super1 · 发表于 2021-10-26 16:33

推荐图像合成 (image composition), 关注度不高，但有一定的实用价值，可做的空间比较大，也比较有意思。
code & dataset: bcmi/Awesome-Image-Composition
survey: https://arxiv.org/pdf/2106.14490.pdf

johnsoncodehk · 发表于 2021-10-26 16:40

图像处理领域分为应用公司、国内公司、工业相机、智能相机、镜头厂商、光源厂商、采集卡、视觉软件、系统集成、辅助配件等。具体，比如应用公司有SenseTimeCogtu 知图科技、码隆科技、 Linkface、Face++、格灵深瞳、旷世科技、大华、海康威视、华为、美图秀秀、百度识图、百度魔图、深圳大疆等。只要看看他们研究什么，不就明白什么火

zt3ff3n · 发表于 2021-10-26 16:48

图像处理领域，或者说视觉领域，实在太宽广了。。。哪个方向好做的话，自然是2d视觉的语义理解部分，如物体检测，分割，跟踪等等，但只是说好上手，因为开源代码多，数学公式少，但绝不意味着创新容易。最火的自然也是2d高级语义理解的几个方向了。至于三维视觉，底层图像处理，都没有那么火，也没有那么好做了。

DungDaj · 发表于 2021-10-26 16:57

什么是图像识别？
图像识别是识别图像中感兴趣的对象并识别它们属于哪个类别的任务。照片识别和图片识别是可以互换使用的术语。
当我们在视觉上看到一个对象或场景时，我们会自动将对象识别为不同的实例并将它们与单独的定义相关联。然而，视觉识别对于机器来说是一项非常复杂的任务。
使用人工智能进行图像识别是计算机视觉领域长期存在的研究问题。虽然不同的方法随着时间的推移而演变，但图像识别的共同目标是将检测到的对象分类为不同的类别。
在过去的几年里，机器学习，特别是深度学习技术，在许多计算机视觉和图像理解任务中取得了巨大的成功。
图像识别的含义和定义

在计算机视觉领域，分割、分类、识别和检测等术语经常互换使用，不同的任务重叠。虽然这基本上没有问题，但如果您的工作流程要求您专门执行特定任务，事情就会变得混乱。
图像识别与计算机视觉

术语图像识别和计算机视觉通常可以互换使用，但实际上是不同的。事实上，图像识别是计算机视觉的一种应用，它包括一组任务，包括对象检测和图像分类。
图像识别与对象定位

对象定位是计算机视觉的另一个子集，经常与图像识别混淆。对象定位是指识别图像中一个或多个对象的位置并围绕其周边绘制边界框。但是，对象定位不包括检测到的对象的分类。
图像识别与图像检测

术语图像识别和图像检测经常相互代替。但是，存在重要的技术差异。
图像检测是将图像作为输入并在其中查找各种对象的任务。当我们严格处理检测时，我们并不关心检测到的对象是否有任何意义。图像检测的目标只是将一个对象与另一个对象区分开来，以确定图片中存在多少不同的实体。因此，围绕每个单独的对象绘制边界框。
另一方面，图像识别是识别图像中感兴趣的对象并识别它们属于哪个类别或类别的任务。
图像识别如何工作？

使用传统的计算机视觉

图像识别的传统计算机视觉方法是图像过滤、分割、特征提取和基于规则的分类的序列。
然而，传统的计算机视觉方法需要高水平的专业知识、大量的工程时间并包含许多需要手动确定的参数，而对其他任务的可移植性非常有限。
使用机器学习和深度学习

另一方面，机器学习的图像识别使用算法从好的和坏的样本数据集中学习隐藏的知识（监督学习）。最流行的机器学习方法是深度学习，其中在一个模型中使用多个隐藏层。
与传统的计算机视觉方法相比，深度学习只需要机器学习工具的工程知识，不需要特定机器视觉领域的专业知识。此外，深度学习的特殊实现只需要几十个学习样本。
然而，深度学习需要手动标记数据来注释好坏样本（图像注释）。例如，这需要耗时的人工工作来注释自动驾驶中的标准交通情况。

图像识别系统的过程

有几个步骤是图像识别系统如何工作的核心。

带有训练数据

数据集

神经网络训练

模型测试

机器学习图像识别

在 GPU（图形处理单元）变得足够强大以支持神经网络的大规模并行计算任务之前，传统的机器学习算法一直是图像识别的黄金标准。
用于图像识别的机器学习模型

让我们来看看三种最流行的图像识别机器学习模型。

支持向量机

特征模型

Viola-Jones 算法 Viola-Jones 算法是

用于图像识别的深度学习模型

在图像识别中，卷积神经网络（CNN）的使用也被称为深度图像识别。CNN 是传统机器学习方法无法比拟的。CNN 不仅速度更快，而且它们还可以从图像中检测一个对象的多个实例，即使图像稍微扭曲、拉伸或以其他某种形式改变。
在深度图像识别中，卷积神经网络在将物体分类为细粒度类别（例如特定品种的狗或鸟类）等任务中甚至优于人类。
YOLO、SSD 和 RCNN等最流行的深度学习模型使用卷积层来解析图像或照片。在训练期间，每一层卷积都像一个过滤器，在将图像传递给下一层之前，它会学习识别图像的某些方面。
一层处理颜色，另一层处理形状，等等。最后，在确定是否找到匹配时，将共同考虑所有这些层的合成结果。

流行的图像识别算法

对于图像识别或照片识别，一些算法优于其他算法。虽然所有这些都是深度学习算法，但它们识别不同类别对象的基本方法各不相同。让我们来看看现在流行的一些。
更快的基于区域的 CNN (Faster RCNN)

Faster RCNN（Region-based Convolutional Neural Network）是R-CNN系列图像识别算法中性能最好的，包括R-CNN和Fast R-CNN。
它使用区域提议网络 (RPN) 进行特征检测，并使用 Fast RCNN 进行图像识别，这使其比其前身（注：Fast RCNN 与Faster RCNN）有了重大升级。Faster RCNN 可以在 200 毫秒内处理一张图像，而 Fast RCNN 需要 2 秒或更长时间。
单次检测器 (SSD)

RCNN 围绕图像上的一组建议点绘制边界框，其中一些点可能重叠。Single Shot Detectors 通过将图像划分为不同纵横比的网格形式的默认边界框来离散化这一概念。
然后结合以不同纵横比处理图像获得的特征图，以自然地处理不同大小的对象。这使得 SSD 非常灵活、准确且易于训练。SSD 的实现可以在 125 毫秒内处理图像。
你只看一次（YOLO）

YOLO代表你只看一次，正如它的名字一样，该算法使用固定的网格大小只处理一次帧，然后确定网格框是否包含图像。
为此，该算法在每个网格框内使用置信度度量和多个边界框。然而，它没有涉及多个纵横比或特征图的复杂性，因此，虽然这可以更快地产生结果，但它们的准确性可能不如 SSD。
YOLO 最时尚的变体 Tiny YOLO 可以以高达 244 fps 的速度处理视频或以 4 ms 的速度处理 1 张图像。

使用 Python 进行图像识别

Python 是大多数计算机视觉工程师的首选编程语言。它支持大量专为 AI 工作流程设计的库，包括图像识别。

Keras

图像识别有什么用？

在所有行业中，图像识别技术变得越来越重要，从医疗保健、农业到零售。

医学图像分析：

动物监测：

物体和图案检测：

食物图像识别：

参考资料：Image Recognition in 2021: A Comprehensive Guide | viso.ai

		自动登录	找回密码
密码			立即注册

当前，在图像处理领域，哪个方向比较火？或者比较好做？

本帖子中包含更多资源

本帖子中包含更多资源

浏览过的版块