random_split 之后如何更改数据集中的目标？

发布于 2025-01-18 16:31:24 字数 694 浏览 4 评论 0原文

我有一个用于训练和测试的数据集，如下所示，

dataset['train'], dataset['test'] = torch.utils.data.random_split(dataset_all, [num_train,num_test],
                                                             generator=torch.Generator().manual_seed(random_seed))

有什么好的方法可以通过提供索引来更改目标并检索某些数据集吗？现在，我使用列表这种方式只是为了获取标签==0的数据集，

dataloader['train'] = torch.utils.data.DataLoader(dataset['train'], batch_size=len(dataset['train']), num_workers=4)
inputs, labels = next(iter(dataloader['train']))
x_train = inputs[np.where(labels==0)]
y_train = labels[np.where(labels==0)]
data_train = My_Dataset(x_train, y_train, transform=None)

当数据集大小太大时，这种方式会花费大量时间和内存。

原文

I have a dataset for train and test as follows,

dataset['train'], dataset['test'] = torch.utils.data.random_split(dataset_all, [num_train,num_test],
                                                             generator=torch.Generator().manual_seed(random_seed))

Is there any good way to change targets and retrieve certain dataset by providing index?
Right now, I am using list this way only to get dataset for labels==0

dataloader['train'] = torch.utils.data.DataLoader(dataset['train'], batch_size=len(dataset['train']), num_workers=4)
inputs, labels = next(iter(dataloader['train']))
x_train = inputs[np.where(labels==0)]
y_train = labels[np.where(labels==0)]
data_train = My_Dataset(x_train, y_train, transform=None)

This way takes lots of time and memory when the size of dataset is too large.

分享到QQ

分享到微博