mindspore中cifar100的数据集读取和处理

【代码】mindspore中cifar100的数据集读取和处理。

恋上钢琴的虫

366人浏览 · 2024-06-29 16:28:59

恋上钢琴的虫 · 2024-06-29 16:28:59 发布

import pickle
import numpy as np
from mindspore.dataset import GeneratorDataset
def setup():
    def load(fileName: str):
        with open(file=fileName, mode="rb") as handler:
            data = pickle.load(file=handler, encoding="latin1")
        return data
    trains = load("D:/dataset/cifar-100-python/train")
    tests = load("D:/dataset/cifar-100-python/test")
    metas = load("D:/dataset/cifar-100-python/meta")
    return trains, tests, metas

def train():
    trains, tests, metas = setup()
    print(trains["data"][0],trains["coarse_labels"][0],trains["fine_labels"][0] )
    print(len(trains["coarse_labels"]))
    for key in trains.keys():
        print(f"key = {key}, len(trains[key]) = {len(trains[key])}")
    print("--------------------------------------------------")
    for key in tests.keys():
        print(f"key = {key}, len(tests[key]) = {len(tests[key])}")
    print("--------------------------------------------------")
    for key in metas.keys():
        print(f"key = {key}, len(metas[key]) = {len(metas[key])}")

#
class LoadCifar100Dataset():
    def __init__(self,type):
        self.type = type
        self.trains, self.tests = self.setup()
    def __len__(self):
        if self.type == "train":
            return len(self.trains["coarse_labels"])
        else:
            return len(self.tests["coarse_labels"])
    def __getitem__(self, idx):
        if self.type=="train":
            # return {
            #     "data":np.reshape(self.trains["data"][idx].astype(np.float32), (3,32,32)),
            #     "coarse_labels":self.trains["coarse_labels"][idx],
            #     "fine_labels":self.trains["fine_labels"][idx]
            # }
            #返回的是元组
            return (np.reshape(self.trains["data"][idx].astype(np.float32), (3,32,32)), self.trains["coarse_labels"][idx], self.trains["fine_labels"][idx])
        else:
            return (np.reshape(self.tests["data"][idx].astype(np.float32), (3,32,32)), self.tests["coarse_labels"][idx], self.tests["fine_labels"][idx])

    def setup(self):
        def load(fileName: str):
            with open(file=fileName, mode="rb") as handler:
                data = pickle.load(file=handler, encoding="latin1")
            return data

        trains = load("D:/dataset/cifar-100-python/train")
        tests = load("D:/dataset/cifar-100-python/test")
        return trains, tests

if __name__ == '__main__':
    # train()
    cifar100_train_dataset = LoadCifar100Dataset("train")
    cifar100_test_dataset = LoadCifar100Dataset("test")
    train_generator = GeneratorDataset(cifar100_train_dataset,column_names=["image","coarse_labels","fine_labels"])
    train_generator = train_generator.batch(10)
    size = train_generator.get_dataset_size()
    print(size)
    for i, (imgs, coarse_labels, fine_labels) in enumerate(train_generator.create_tuple_iterator()):
        print(imgs.shape)

数据集下载：

浏览器打开：https://www.cs.toronto.edu/~kriz/cifar-100-python.tar.gz 进行下载至本地。

昇腾开源生态专区

昇腾计算产业是基于昇腾系列（HUAWEI Ascend）处理器和基础软件构建的全栈 AI计算基础设施、行业应用及服务，https://devpress.csdn.net/organization/setting/general/146749包括昇腾系列处理器、系列硬件、CANN、AI计算框架、应用使能、开发工具链、管理运维工具、行业应用及服务等全产业链

更多推荐

DeepSeek 崩了 13 小时，不是故障，是 V4 在换引擎

昇腾开源生态专区

体系结构论文（107）：AscendOptimizer: Episodic Agent for Ascend NPU Operator Optimization

摘要：本文提出AscendOptimizer系统，针对华为Ascend NPU的AscendC算子优化难题，通过双阶段交替优化方法实现性能提升。系统将算子拆分为host侧tiling program和device侧kernel program：Stage I采用进化搜索优化tiling策略，利用硬件反馈探索可行解空间；Stage II通过"优化回退"机制从优质kernel反向构

昇腾开源生态专区

AtomGit模型托管与实验管理全指南

AtomGit模型托管指南：AI开发者的版本控制利器摘要：本文介绍AtomGit平台针对AI开发者推出的模型托管与实验管理功能，解决传统Git无法有效管理大模型文件、实验参数分散等问题。AtomGit通过Git LFS大文件存储、模型卡片元数据记录、代码与模型版本关联等创新功能，实现AI项目的一体化管理。文章详细演示了如何创建模型仓库、配置Git LFS管理大文件、编写结构化模型卡片，并特别介绍