我们推出了一个新的系列,对PytorchConference2023 的博客进行中文编译,会陆续在公众号发表。建议PC端阅读本文。或者访问作者博客链接:https://www.aispacewalk.cn/docs/ai/framework/pytorch/pytorch-guides大纲dataloading概述dataloading任务行业趋势影响当前dataloading生态dataloading难点合作展望详细要点1. dataloading概述将数据提供给训练循环从存储fetch数据,transform为张量2. dataloading任务fetch数据:从存储系统fetch样例transform数据:预处理样例为张量3. 行业趋势影响数据集和模型规模增长训练硬件和数据类型多样化引起存储、计算资源需求变化4. 当前dataloading生态PyTorch提供基础API用户选项和方式多样化分散性难以解决问题5. dataloading难点异质性:训练场景复杂多样性能瓶颈:吞吐量难满足要求系统设计难兼容各种情景6. 合作展望共同讨论改进方案打造通用高性能dataloading系统面临挑战
………………………………