找回密码
 立即注册
查看: 210|回复: 1

卷积神经网络(CNN)简单原理与简单代码实现!

[复制链接]
发表于 2023-2-6 19:03 | 显示全部楼层 |阅读模式
深度学习新手入门福利,本文将给你带来最简单的卷积神经网络理解与代码实现!


CNN(卷积神经网络)是一种用于图像识别和计算机视觉任务的深度学习算法。它基于卷积和池化操作,通过使用卷积核对图像进行扫描并进行特征提取,然后使用池化层降低图像的维度。这样的特征提取方式可以捕捉图像中的位置和形状信息。随后,这些特征会被平铺到全连接层,然后通过一系列的全连接层进行分类或回归。
CNN基本原理

卷积核(Convolutional Kernels)是一种矩阵,它在图像上进行卷积操作,从而提取出图像的特征。具体来说,卷积核沿着图像每一个部分进行扫描,将图像中对应的元素与卷积核中对应的元素相乘并相加。最后形成一个新的矩阵,这个矩阵中的每一个元素代表了原图像在对应区域内的特征值(见下图所示)



卷积操作的简单理解(就是对应位置相乘相加)

一次扫描中,无论图像本身有几个通道(例如RGB三通道/RGBA四通道),卷积核会扫描全部通道之后,将扫描结果加和为一张feature map(特征图),此时需要的卷积核数 = 通道数。in_channels是输入卷积层的图像的通道数或上一层传入特征图的数量,out_channels是指这一层输出的特征图的数量,这需要在模型架构中进行设定。然而,单次扫描对图像特征的提取时不够全面的,因此,需要多次扫描,多张特征图(out_channels)来实现对图像的全面表述。因此,在一个卷积层中,卷积核数量 = in_channels x 扫描次数out_channels。通过这种方式,我们就可以使用多个不同的卷积核来提取图像的不同特征。
自然地我们会想到,需要控制特征图的尺寸,而高效降低特征图尺寸的方法被称为池化,最常见的有三种:最大池化(Max Pooling)、平均池化(Average Pooling)、加和池化(Sum Pooling),见下图所示。



三种池化的简单理解

由于CNN可以在处理高维数据时自动学习特征,因此它特别适用于图像分类和识别任务。它在诸如图像分类、目标检测、语音识别等方面有着卓越的表现。
代码实现

下面是通过Pytorch构造一个简单的CNN,用于手写数字识别。虽然网络架构很简单,但是最终测试准确率可以达到98.5%左右(9868/10000),足够新手同学学习与使用!
import torch
import torch.nn as nn
import torch.optim as optim
from torch.utils.data import DataLoader
from torchvision import datasets, transforms

# 加载MNIST数据集,将数据归一化到[0,1]区间内
transform = transforms.Compose([
    transforms.ToTensor(),
    transforms.Normalize((0.5,), (0.5,))
])
#导入训练集和测试集
trainset = datasets.MNIST(root='./data', train=True,
                          transform=transform, download=True)
trainloader = DataLoader(trainset, batch_size=64, shuffle=True)
testset = datasets.MNIST(root='./data', train=False,
                         transform=transform, download=True)
testloader = DataLoader(testset, batch_size=64, shuffle=False)

# 定义卷积神经网络模型
# 需要在Conv2d处定义in_channels、out_channels、卷积核尺寸
# 在经过卷积处理以及两次池化之后,特征图尺寸变为4*4,因此全连接网络的输入神经元数量是4*4*20 = 320
class ConvNet(nn.Module):
    def __init__(self):
        super().__init__()
        self.conv1 = nn.Conv2d(1, 10, 5)
        self.pool = nn.MaxPool2d(2, 2)
        self.conv2 = nn.Conv2d(10, 20, 5)
        self.fc = nn.Linear(320, 10)
    def forward(self, x):
        x = self.pool(torch.relu(self.conv1(x)))
        x = self.pool(torch.relu(self.conv2(x)))
        x = x.view(-1, 320)
        x = self.fc(x)
        return x

# 初始化模型,损失函数和优化器
model = ConvNet()
criterion = nn.CrossEntropyLoss()
optimizer = optim.SGD(model.parameters(), lr=0.01, momentum=0.5)

# 训练模型
for epoch in range(10):
    running_loss = 0.0
    for i, data in enumerate(trainloader):
        inputs, labels = data
        optimizer.zero_grad()
        outputs = model(inputs)
        loss = criterion(outputs, labels)
        loss.backward()
        optimizer.step()
        running_loss += loss.item()
    print(f"Epoch: {epoch + 1}/10, Loss: {running_loss / len(trainloader)}")

# 测试模型
correct = 0
total = 0
with torch.no_grad():
    for data in testloader:
        images, labels = data
        outputs = model(images)
        _, predicted = torch.max(outputs.data, 1)
        total += labels.size(0)
        correct += (predicted == labels).sum().item()
print('\nTest set: Accuracy: {}/{} ({:.0f}%)\n'.format(
    correct, len(testloader.dataset),
    100. * correct / len(testloader.dataset)))结果也是非常的奈斯,测试集准确率高达98.68%(9868/10000),如下所示



模型结果

同学们快来跟着尝试一下吧。
码字不易,欢迎三连,关于代码若有问题请在评论区交流。
欢迎了解收藏我的机器学习专栏!点赞关注不迷路哦!

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
发表于 2023-2-6 19:07 | 显示全部楼层
感谢!!
懒得打字嘛,点击右侧快捷回复 【右侧内容,后台自定义】
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Unity开发者联盟 ( 粤ICP备20003399号 )

GMT+8, 2024-11-24 08:49 , Processed in 0.065304 second(s), 23 queries .

Powered by Discuz! X3.5 Licensed

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表