[中国,深圳,2023年7月14日]今日,华为发布面向大规模模型时代的全新AI存储解决方案,为基础模型训练、行业模型训练、细分场景推理等提供最优存储解决方案,释放新的人工智能能力。
在大规模模型应用的开发和实施中,企业面临四大挑战:
首先,数据准备时间长,数据来源分散,聚合速度慢,数百TB数据预处理需要10天左右。其次,对于具有海量文本和图像数据集的多模态大型模型,目前海量小文件的加载速度低于100MB/s,导致训练集加载效率较低。第三,大型模型参数调整频繁,训练平台不稳定,导致训练大约每两天就会中断一次,需要Checkpoint机制恢复训练,恢复需要一天多的时间。最后,大型模型的实现门槛较高,系统设置复杂,资源调度困难,GPU资源利用率往往低于40%。
华为顺应大规模模型时代人工智能发展趋势,针对不同行业、场景提供定制化解决方案。介绍了OceanStor A310深度学习数据湖存储和FusionCube A3000训练/推理超融合一体机。 OceanStor A310深度学习数据湖存储面向基础级和行业级大模型数据湖场景,实现从数据聚合、预处理到模型训练、推理应用的全面AI数据管理。 OceanStor A310在单个5U机架中,支持业界领先的400GB/s带宽和高达1200万的IOPS,线性扩展至4096个节点,实现无缝的跨协议通信。全局文件系统(GFS)促进跨区域的智能数据编织,简化数据聚合流程。近存储计算实现近数据预处理,减少数据移动,预处理效率提升30%。
FusionCube A3000训练/推理超融合一体机,专为工业级大模型训练/推理场景而设计,满足数十亿参数模型的应用。它集成了OceanStor A300高性能存储节点、训练/推理节点、交换设备、AI平台软件、管理运营软件,为大型模型合作伙伴提供即插即用的一站式部署部署体验。即用型,2小时内即可部署。训练/推理和存储节点都可以独立水平扩展,以满足各种模型规模需求。同时,FusionCube A3000利用高性能容器,实现多个模型训练和推理任务共享GPU,资源利用率从40%提升到70%以上。 FusionCube A3000支持两种灵活的商业模式:华为升腾一站式解决方案和第三方合作伙伴提供开放计算、网络和AI平台软件的一站式解决方案。
华为数据存储产品线总裁周跃峰表示:“大规模模型时代,数据决定AI智能的高度。数据存储作为数据的载体,成为人工智能大规模模型的关键基础设施。华为数据存储将持续创新,为AI大模型时代提供多元化的解决方案和产品,与合作伙伴共同推动AI赋能各行各业。”
发布时间:2023年8月1日