PyTorch 訓練分類器

2022-11-16 09:37 更新

原文:?https://pytorch.org/tutorials/beginner/blitz/cifar10_tutorial.html
譯者:bat67
校驗者:FontTian,yearing017

目前為止,我們已經(jīng)看到了如何定義網(wǎng)絡,計算損失,并更新網(wǎng)絡的權(quán)重。所以你現(xiàn)在可能會想,

數(shù)據(jù)應該怎么辦呢?

通常來說,當必須處理圖像、文本、音頻或視頻數(shù)據(jù)時,可以使用python標準庫將數(shù)據(jù)加載到numpy數(shù)組里。然后將這個數(shù)組轉(zhuǎn)化成torch.*Tensor。

  • 對于圖片,有 Pillow,OpenCV 等包可以使用

  • 對于音頻,有 scipy 和 librosa 等包可以使用

  • 對于文本,不管是原生 python 的或者是基于 Cython 的文本,可以使用 NLTK 和SpaCy

特別對于視覺方面,我們創(chuàng)建了一個包,名字叫torchvision,其中包含了針對Imagenet、CIFAR10、MNIST 等常用數(shù)據(jù)集的數(shù)據(jù)加載器 (data loaders),還有對圖像數(shù)據(jù)轉(zhuǎn)換的操作,即torchvision.datasetstorch.utils.data.DataLoader。

這提供了極大的便利,可以避免編寫樣板代碼。

在這個教程中,我們將使用CIFAR10數(shù)據(jù)集,它有如下的分類:“飛機”,“汽車”,“鳥”,“貓”,“鹿”,“狗”,“青蛙”,“馬”,“船”,“卡車”等。在CIFAR-10里面的圖片數(shù)據(jù)大小是3x32x32,即:三通道彩色圖像,圖像大小是32x32像素。

訓練一個圖片分類器

我們將按順序做以下步驟:

  1. 通過torchvision加載CIFAR10里面的訓練和測試數(shù)據(jù)集,并對數(shù)據(jù)進行標準化
  2. 定義卷積神經(jīng)網(wǎng)絡
  3. 定義損失函數(shù)
  4. 利用訓練數(shù)據(jù)訓練網(wǎng)絡
  5. 利用測試數(shù)據(jù)測試網(wǎng)絡

1.加載并標準化CIFAR10

使用torchvision加載 CIFAR10 超級簡單。

import torch
import torchvision
import torchvision.transforms as transforms

torchvision 數(shù)據(jù)集加載完后的輸出是范圍在 [ 0, 1 ] 之間的 PILImage。我們將其標準化為范圍在 [ -1, 1 ] 之間的張量。

transform = transforms.Compose(
    [transforms.ToTensor(),
     transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))])


trainset = torchvision.datasets.CIFAR10(root='./data', train=True, download=True, transform=transform)
trainloader = torch.utils.data.DataLoader(trainset, batch_size=4, shuffle=True, num_workers=2)


testset = torchvision.datasets.CIFAR10(root='./data', train=False, download=True, transform=transform)
testloader = torch.utils.data.DataLoader(testset, batch_size=4, shuffle=False, num_workers=2)


classes = ('plane', 'car', 'bird', 'cat',
           'deer', 'dog', 'frog', 'horse', 'ship', 'truck')

輸出:

Downloading https://www.cs.toronto.edu/~kriz/cifar-10-python.tar.gz to ./data/cifar-10-python.tar.gz
Files already downloaded and verified

樂趣所致,現(xiàn)在讓我們可視化部分訓練數(shù)據(jù)。

import matplotlib.pyplot as plt
import numpy as np


## 輸出圖像的函數(shù)
def imshow(img):
    img = img / 2 + 0.5     # unnormalize
    npimg = img.numpy()
    plt.imshow(np.transpose(npimg, (1, 2, 0)))
    plt.show()




## 隨機獲取訓練圖片
dataiter = iter(trainloader)
images, labels = dataiter.next()


## 顯示圖片
imshow(torchvision.utils.make_grid(images))
## 打印圖片標簽
print(' '.join('%5s' % classes[labels[j]] for j in range(4)))

輸出:

horse horse horse   car

2.定義一個卷積神經(jīng)網(wǎng)絡

將之前神經(jīng)網(wǎng)絡章節(jié)定義的神經(jīng)網(wǎng)絡拿過來,并將其修改成輸入為3通道圖像(替代原來定義的單通道圖像)。

import torch.nn as nn
import torch.nn.functional as F




class Net(nn.Module):
    def __init__(self):
        super(Net, self).__init__()
        self.conv1 = nn.Conv2d(3, 6, 5)
        self.pool = nn.MaxPool2d(2, 2)
        self.conv2 = nn.Conv2d(6, 16, 5)
        self.fc1 = nn.Linear(16 * 5 * 5, 120)
        self.fc2 = nn.Linear(120, 84)
        self.fc3 = nn.Linear(84, 10)


    def forward(self, x):
        x = self.pool(F.relu(self.conv1(x)))
        x = self.pool(F.relu(self.conv2(x)))
        x = x.view(-1, 16 * 5 * 5)
        x = F.relu(self.fc1(x))
        x = F.relu(self.fc2(x))
        x = self.fc3(x)
        return x




net = Net()

3.定義損失函數(shù)和優(yōu)化器

我們使用多分類的交叉熵損失函數(shù)和隨機梯度下降優(yōu)化器(使用 momentum )。

import torch.optim as optim


criterion = nn.CrossEntropyLoss()
optimizer = optim.SGD(net.parameters(), lr=0.001, momentum=0.9)

4.訓練網(wǎng)絡

事情開始變得有趣了。我們只需要遍歷我們的數(shù)據(jù)迭代器,并將輸入“喂”給網(wǎng)絡和優(yōu)化函數(shù)。

for epoch in range(2):  # loop over the dataset multiple times


    running_loss = 0.0
    for i, data in enumerate(trainloader, 0):
        # get the inputs
        inputs, labels = data


        # zero the parameter gradients
        optimizer.zero_grad()


        # forward + backward + optimize
        outputs = net(inputs)
        loss = criterion(outputs, labels)
        loss.backward()
        optimizer.step()


        # print statistics
        running_loss += loss.item()
        if i % 2000 == 1999:    # print every 2000 mini-batches
            print('[%d, %5d] loss: %.3f' % (epoch + 1, i + 1, running_loss / 2000))
            running_loss = 0.0


print('Finished Training')

輸出:

[1,  2000] loss: 2.182
[1,  4000] loss: 1.819
[1,  6000] loss: 1.648
[1,  8000] loss: 1.569
[1, 10000] loss: 1.511
[1, 12000] loss: 1.473
[2,  2000] loss: 1.414
[2,  4000] loss: 1.365
[2,  6000] loss: 1.358
[2,  8000] loss: 1.322
[2, 10000] loss: 1.298
[2, 12000] loss: 1.282
Finished Training

讓我們趕緊保存已訓練得到的模型:

PATH = './cifar_net.pth'
torch.save(net.state_dict(), PATH)

這里熟悉更多PyTorch保存模型的細節(jié)

5.使用測試數(shù)據(jù)測試網(wǎng)絡

我們已經(jīng)在訓練集上訓練了2遍網(wǎng)絡。但是我們需要檢查網(wǎng)絡是否學到了一些東西。

我們將通過預測神經(jīng)網(wǎng)絡輸出的標簽來檢查這個問題,并和正確樣本進行 ( ground-truth)對比。如果預測是正確的,我們將樣本添加到正確預測的列表中。

ok,第一步。讓我們展示測試集中的圖像來熟悉一下。

dataiter = iter(testloader)
images, labels = dataiter.next()


## 輸出圖片
imshow(torchvision.utils.make_grid(images))
print('GroundTruth: ', ' '.join('%5s' % classes[labels[j]] for j in range(4)))

GroundTruth:    cat  ship  ship plane

下一步,讓我們加載保存的模型(注意:在這里保存和加載模型不是必要的,我們只是為了解釋如何去做這件事)

net = Net()
net.load_state_dict(torch.load(PATH))

ok,現(xiàn)在讓我們看看神經(jīng)網(wǎng)絡認為上面的例子是:

outputs = net(images)

輸出是10個類別的量值。一個類的值越高,網(wǎng)絡就越認為這個圖像屬于這個特定的類。讓我們得到最高量值的下標/索引;

_, predicted = torch.max(outputs, 1)


print('Predicted: ', ' '.join('%5s' % classes[predicted[j]] for j in range(4)))

輸出:

Predicted:    dog  ship  ship plane

結(jié)果還不錯。

讓我們看看網(wǎng)絡在整個數(shù)據(jù)集上表現(xiàn)的怎么樣。

correct = 0
total = 0
with torch.no_grad():
    for data in testloader:
        images, labels = data
        outputs = net(images)
        _, predicted = torch.max(outputs.data, 1)
        total += labels.size(0)
        correct += (predicted == labels).sum().item()


print('Accuracy of the network on the 10000 test images: %d %%' % (
    100 * correct / total))

輸出:

Accuracy of the network on the 10000 test images: 55 %

這比隨機選取(即從10個類中隨機選擇一個類,正確率是10%)要好很多??磥砭W(wǎng)絡確實學到了一些東西。

那么哪些是表現(xiàn)好的類呢?哪些是表現(xiàn)的差的類呢?

class_correct = list(0. for i in range(10))
class_total = list(0. for i in range(10))
with torch.no_grad():
    for data in testloader:
        images, labels = data
        outputs = net(images)
        _, predicted = torch.max(outputs, 1)
        c = (predicted == labels).squeeze()
        for i in range(4):
            label = labels[i]
            class_correct[label] += c[i].item()
            class_total[label] += 1




for i in range(10):
    print('Accuracy of %5s : %2d %%' % (
        classes[i], 100 * class_correct[i] / class_total[i]))

輸出:

Accuracy of plane : 70 %
Accuracy of   car : 70 %
Accuracy of  bird : 28 %
Accuracy of   cat : 25 %
Accuracy of  deer : 37 %
Accuracy of   dog : 60 %
Accuracy of  frog : 66 %
Accuracy of horse : 62 %
Accuracy of  ship : 69 %
Accuracy of truck : 61 %

ok,接下來呢?

怎么在 GPU 上運行神經(jīng)網(wǎng)絡呢?

在GPU上訓練

與將一個張量傳遞給 GPU 一樣,可以這樣將神經(jīng)網(wǎng)絡轉(zhuǎn)移到 GPU 上。

如果我們有 cuda 可用的話,讓我們首先定義第一個設備為可見 cuda 設備:

device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")


## Assuming that we are on a CUDA machine, this should print a CUDA device:


print(device)

輸出:

cuda:0

本節(jié)的其余部分假設device是CUDA。

然后這些方法將遞歸遍歷所有模塊,并將它們的參數(shù)和緩沖區(qū)轉(zhuǎn)換為CUDA張量:

net.to(device)

請記住,我們不得不將輸入和目標在每一步都送入GPU:

inputs, labels = inputs.to(device), labels.to(device)

為什么我們感受不到與CPU相比的巨大加速?因為我們的網(wǎng)絡實在是太小了。

嘗試一下:加寬你的網(wǎng)絡(注意第一個nn.Conv2d的第二個參數(shù)和第二個nn.Conv2d的第一個參數(shù)要相同),看看能獲得多少加速。

已實現(xiàn)的目標:

  • 在更高層次上理解 PyTorch 的 Tensor 庫和神經(jīng)網(wǎng)絡
  • 訓練一個小的神經(jīng)網(wǎng)絡做圖片分類

在多GPU上訓練

如果希望使用您所有GPU獲得更大的加速,請查看Optional: Data Parallelism。

接下來要做什么?

以上內(nèi)容是否對您有幫助:
在線筆記
App下載
App下載

掃描二維碼

下載編程獅App

公眾號
微信公眾號

編程獅公眾號