不要让存储成为模型训练的关键瓶颈

据说,科技公司要么正在争夺 GPU,要么正在寻求获得 GPU。 4月份,特斯拉CEO埃隆·马斯克采购了1万块GPU,并表示公司将继续从NVIDIA购买大量GPU。在企业方面,IT人员也在努力确保GPU的持续利用,以实现投资回报最大化。然而,一些公司可能会发现,随着GPU数量的增加,GPU闲置现象变得更加严重。

如果说历史教会了我们有关高性能计算 (HPC) 的任何事情,那就是不应以过度关注计算为代价而牺牲存储和网络。如果存储无法有效地将数据传输到计算单元,即使您拥有世界上最多的 GPU,也无法实现最佳效率。

Small World Big Data 分析师 Mike Matchett 表示,较小的模型可以在内存 (RAM) 中执行,从而可以更加专注于计算。然而,像ChatGPT这样拥有数十亿节点的大型模型由于成本高昂而无法存储在内存中。

“内存中无法容纳数十亿个节点,因此存储变得更加重要,”Matchett 说。不幸的是,在规划过程中数据存储经常被忽视。

一般来说,无论哪种用例,模型训练过程都有四个共同点:

1. 模型训练
2. 推理应用
3. 数据存储
4. 加速计算

在创建和部署模型时,大多数需求优先考虑快速概念验证 (POC) 或测试环境来启动模型训练,而没有优先考虑数据存储需求。

然而,挑战在于训练或推理部署可能持续数月甚至数年。许多公司在此期间迅速扩大模型规模,基础设施必须扩展以适应不断增长的模型和数据集。

Google 对数百万个 ML 训练工作负载的研究表明,平均 30% 的训练时间花费在输入数据管道上。虽然过去的研究重点是优化 GPU 以加速训练,但优化数据管道的各个部分仍然存在许多挑战。当您拥有强大的计算能力时,真正的瓶颈就变成了将数据输入计算以获得结果的速度。

具体来说,数据存储和管理方面的挑战需要对数据增长进行规划,使您能够在不断进步的过程中不断提取数据的价值,特别是当您涉足深度学习和神经网络等更高级的用例时,这对数据提出了更高的要求。存储在容量、性能和可扩展性方面。

尤其:

可扩展性
机器学习需要处理大量数据,随着数据量的增加,模型的准确性也会提高。这意味着企业每天必须收集和存储更多数据。当存储无法扩展时,数据密集型工作负载会产生瓶颈,限制性能并导致代价高昂的 GPU 空闲时间。

灵活性
需要灵活支持多种协议(包括NFS、SMB、HTTP、FTP、HDFS和S3),以满足不同系统的需求,而不是局限于单一类型的环境。

延迟
由于数据会被多次读取和重新读取,因此 I/O 延迟对于构建和使用模型至关重要。减少 I/O 延迟可以将模型的训练时间缩短数天或数月。更快的模型开发直接转化为更大的业务优势。

吞吐量
存储系统的吞吐量对于高效的模型训练至关重要。训练过程涉及大量数据,通常为每小时 TB 级。

并行访问
为了实现高吞吐量,训练模型将活动拆分为多个并行任务。这通常意味着机器学习算法同时从多个进程(可能在多个物理服务器上)访问相同的文件。存储系统必须在不影响性能的情况下处理并发需求。

凭借其在低延迟、高吞吐量和大规模并行 I/O 方面的出色功能,Dell PowerScale 是 GPU 加速计算的理想存储补充。 PowerScale 有效减少了训练和测试多 TB 数据集的分析模型所需的时间。在PowerScale全闪存存储中,带宽增加了18倍,消除了I/O瓶颈,并且可以添加到现有的Isilon集群中,以加速和释放大量非结构化数据的价值。

此外,PowerScale 的多协议访问功能为运行工作负载提供了无限的灵活性,允许使用一种协议存储数据并使用另一种协议访问数据。具体来说,PowerScale 平台的强大特性、灵活性、可扩展性和企业级功能有助于解决以下挑战:

- 创新加速高达2.7倍,缩短模型训练周期。

- 通过利用企业级功能、高性能、并发性和可扩展性,消除 I/O 瓶颈并提供更快的模型训练和验证、提高模型准确性、增强数据科学生产力以及最大化计算投资回报。利用单个集群中高达 119 PB 的有效存储容量,通过更深入、更高分辨率的数据集来提高模型准确性。

- 通过从小规模和独立扩展计算和存储开始,实现大规模部署,提供强大的数据保护和安全选项。

- 通过就地分析和预先验证的解决方案提高数据科学生产力,实现更快、低风险的部署。

- 利用基于最佳技术的经过验证的设计,包括 NVIDIA GPU 加速和带有 NVIDIA DGX 系统的参考架构。 PowerScale的高性能和并发性满足机器学习从数据采集和准备到模型训练和推理的每个阶段的存储性能要求。配合OneFS操作系统,所有节点可以在同一个OneFS驱动的集群内无缝运行,具备性能管理、数据管理、安全、数据保护等企业级功能,能够更快地完成企业的模型训练和验证。


发布时间:2023年7月3日