acecase 发表于 2021-12-16 13:40

图像数据增强中的图形学理论 | 图像增强常用方法

Theoretical basis of computer graphics for image data augmentation
接下来几篇博客,将简单介绍图像数据增强中的图形学理论
本篇是第一篇, 介绍图像数据增强常用方法
(具体细节找个时间填坑)1. 前言

深度学习方法在各领域落地应用的前提是大量训练样本组成的数据集,计算机视觉(Computer Vision, CV)领域更是如此,无论是目标检测、分类、OCR、分割,都需要大量的训练数据。虽然迁移学习的研究成果表明,在小样本数据上已取得一些效果,但是效果有限、场景有限。数据增强(Data augmentation),或称为数据集扩充,在过去很长时间,以及将来一段时间,对深度学习都有非常重要的意义,是提高深度学习模型泛化能力(generalization ability)的一项必不可少的技术。
文献的工作中,使用自动标注的数据增强同时解决了小样本和人工标注的问题。本文以将系统性介绍其图像数据增强中(几何变换)的原理和实现方法。
针对图像的几何变换,实际就是根据数学模型生成图像,属于计算机图形学(Computer Graphics, CG)的基础研究范畴。但是随着深度学习的应用,CV与CG之间的界限越来越模糊。本文的内容也主要围绕图形学方法在图像数据增强中的应用展开,介绍常见图像数据增强方法和各方法的原理,最后会介绍一种保留标注的方法,这种方法对于检测、分割等需要标注目标位置的任务非常重要。
虽然本文标题中展示的是图形学理论,但读者应了解,最基础的理论是线性代数。
2. 图像增强常用方法

图像增强常用的方法主要分为两类:

[*]像素处理(颜色变换color transformation)
[*]几何变换
2.1 像素处理方法

2.1.1 噪声


[*]高斯白噪声
[*]椒盐噪声
2.1.2 模糊

2.1.3 污损

2.1.4 柔性


2.2 常用的几何变换方法

2.2.1 缩放

2.1.2 翻转flip

2.2.3 裁剪crop

2.2.4 平移


2.3 OpenCV Python接口


参考

刘欢;基于深度学习的发票图像文本检测与识别;华中科技大学;2019年
https://sites.cs.ucsb.edu/~lingqi/teaching/resources/GAMES101_Lecture_03.pdf
https://sites.cs.ucsb.edu/~lingqi/teaching/resources/GAMES101_Lecture_04.pdf
Fundamentals of Computer Graphics, Fourth Edition
M. Paschali, W. Simson, A. G. Roy, M. F. Naeem, R. Gbl, C. Wachinger, and N. Navab. Data augmentation with manifold exploring geometric transformations for increased performance and robustness. arXiv preprint arXiv:1901.04420, 2019.
本文使用 Zhihu On VSCode 创作并发布
页: [1]
查看完整版本: 图像数据增强中的图形学理论 | 图像增强常用方法