跳转至

加载数据集

数据集

包括DataSet以及DataLoader两部分,用于加载的数据集包括数据和索引两部分,而DataLoader是用于引入数据集的Mini-Batch

Mini-Batch

均衡于算法的时间复杂度(加载全部数据训练更快)以及算法的准确度(加载单个数据训练更准)

在外层循环中,每一层是一个epoch(训练周期),在内层循环中,每一次是一个Mini-Batch(Batch的迭代)

常用术语

Epoch:所有的样本都进行了一次前馈计算和反向传播即为一次epoch

Batch-Size:每次训练的时候所使用的样本数量

Iterations:batch分的次数

DataLoader

batch_size,shuffle(洗牌,用于打乱顺序)

通过获得DataSet的索引以及数据集大小,来自动得生成小批量训练集

DataLoader先对数据集进行洗牌,再将数据集按照Batch_Size的长度划分为小的Batch,并按照Iterations进行加载,以方便通过循环对每个Batch进行操作。

image-20210302214313822

在构造数据集时,两种对数据加载到内存中的处理方式如下:

  1. 加载所有数据到dataset,每次使用时读索引,适用于数据量小的情况
  2. 只对dataset进行初始化,仅存文件名到列表,每次使用时再通过索引到内存中去读取

```python import torch import numpy as np from torch.utils.data import Dataset from torch.utils.data import DataLoader

class DiabetesDataset(Dataset): def init(self,filepath): xy = np.loadtxt(filepath, delimiter=',', dtype=np.float32) #获得数据集长度 self.len=xy.shape[0] t_data = torch.from_numpy(xy) self.x_data = t_data[:, :-1] self.y_data = t_data[:, [-1]] #获得索引方法 def getitem(self, index): return self.x_data[index], self.y_data[index] #获得数据集长度 def len(self): return self.len

dataset = DiabetesDataset('diabetes.csv')

num_workers表示多线程的读取

train_loader = DataLoader(dataset=dataset,batch_size=32,shuffle=True,num_workers=2)

class Model(torch.nn.Module): def init(self): super(Model, self).init() self.linear1 = torch.nn.Linear(8, 6) self.linear2 = torch.nn.Linear(6, 4) self.linear3 = torch.nn.Linear(4, 1) self.sigmoid = torch.nn.Sigmoid()

def forward(self, x):
    x = self.sigmoid(self.linear1(x))
    x = self.sigmoid(self.linear2(x))
    x = self.sigmoid(self.linear3(x))
    return x

model = Model()

criterion = torch.nn.BCELoss(reduction='mean')

optimizer = torch.optim.SGD(model.parameters(), lr=0.1)

if name =='main': for epoch in range(1000): #enumerate:可获得当前迭代的次数 for i,data in enumerate(train_loader,0): #准备数据dataloader会将按batch_size返回的数据整合成矩阵加载 inputs, labels = data #前馈 y_pred = model(inputs) loss = criterion(y_pred, labels) if epoch % 50 == 0: print(epoch, i, loss.item()) #反向传播 optimizer.zero_grad() loss.backward() #更新 optimizer.step() # 保存模型参数 torch.save(model.state_dict(),'model_param.pkl') print('保存完毕')

#预测
model.load_state_dict(torch.load('model_param.pkl'))
model.eval()
print("预测 = ", model(dataset[-1][0]).item())
print("实际 = ", dataset[-1][1].item())

```

微信截图_20220927095044

本文参考自B站《PyTorch深度学习实践》P8