在人工智能(AI)应用蓬勃发展的当下,其采用率在全球范围内持续增长,相应的信息技术解决方案也在不断演进,创新成果如雨后春笋般涌现。目前,处理器因对 AI 的贡献受到重点关注,但AI的成功不仅依赖计算和高速性能,数据存储同样重要,它为 AI 提供原始数据、支持设置检查点以建立对AI工作流的信任以及存储推理和结果,任何成功的 AI 实践都需计算和数据存储资源协同作用。
大型数据中心不断扩展 AI 功能,AI 应用不仅依赖算力,计算集群包括高性能处理器、HBM、DRAM和本地固态硬盘等形成强大训练引擎,计算集群组件通常彼此相邻,避免因为距离而导致延迟和性能问题;AI 应用还依赖存储集群,包括高容量网络硬盘和网络固态硬盘,存储集群联网且不太担心存储性能速度,数据最终流向以大容量硬盘为主的存储集群进行长期保留,本文探讨了计算和存储在 AI 工作流多个阶段的协同方式。
AI的性能与可扩展性
图片
在AI工作流程中,各类技术各有所长。设备内置内存性能卓越,通常由连接至处理器(如GPU、CPU或DPU)的HBM或DRAM构成,部分架构中,DPU作为卸载功能引擎,连接到 CPU,辅助处理特定任务,内存高吞吐量有助于AI的数据摄取和模型训练。
图片
AI应用离不开存储集群,包括本地固态硬盘和网络固态硬盘,后者的容量更具优势。存储集群呈网络化分布,对存储性能速度的敏感度相对较低,组件距离对其总延迟影响较小,而数据最终会流入以大容量硬盘为主的存储集群进行长期保存。
AI的无限循环
AI工作流在使用和创建的无限循环中运行,不仅需要支持计算的处理器和内存,还需要存储组件。工作流的相互关联的步骤包括搜寻数据、训练模型、创建内容、存储内容、保留数据和重用数据。我们来看看计算和存储在这些阶段中的作用。
图片
步骤1:搜寻数据
此阶段专注于为AI分析定义、探寻并准备数据。
计算:GPU通过高速数据预处理和转换发挥基础性作用,它与CPU协同并行处理重复性计算。
存储:网络固态硬盘和网络机械硬盘用于存储大量创建新内容所需的数据,网络固态硬盘作为即时可访问的数据层,性能更优;网络机械硬盘则提供充足、可扩展的容量,保障原始数据长期保存和数据安全。
步骤2:训练模型
深度学习模型训练涉及多方面技术要点。模型从存储数据中学习,训练是一个反复试验的过程,在这个过程中,模型收敛并通过检查点进行保护。训练需要高速数据访问。
计算:GPU 在模型训练阶段至关重要,其并行处理功能可处理深度学习中涉及的大量计算负载。AI 训练涉及数千个矩阵乘法,而 GPU 可以同时处理这些运算,由此加速这一过程,并可以使用数十亿个参数来训练复杂模型。CPU 与 GPU 协同工作,协调内存和计算资源之间的数据流。CPU 管理批处理准备和队列管理等任务,以便将正确的数据在正确的时间输入到 GPU。它们还处理模型超参数的优化,执行可能不需要 GPU 的并行处理能力的计算。
在模型训练中,HBM 和 DRAM 对于快速数据访问至关重要,并将活动数据集保存在处理器附近。HBM 通常集成到 GPU 中,通过让 GPU 在训练期间访问最常用的数据来显著提高数据处理速度。
本地固态硬盘用作此阶段中所用数据集的快速访问存储。它们存储中间训练结果并允许快速检索大型数据集。它们对于需要快速访问大量数据的训练模型特别有用,例如涉及数百万张图像的图像识别模型。
存储:硬盘以经济实惠的方式存储训练 AI 模型所需的大量数据。除了提供所需的可扩展容量,硬盘还可以帮助保持数据的完整性,存储和保护已创建内容的复制版本。硬盘与其他存储选项相比更经济高效,可提供可靠的长期存储以及高效保存和管理大型数据集。
网络硬盘和网络固态硬盘会存储检查点以保护和优化模型训练。检查点是模型状态在训练、优化和调整过程的特定时刻保存的快照。稍后可能会调用这些快照以证明知识产权或显示算法如何得出其结论。在检查点中使用固态硬盘时,由于固态硬盘的低延迟访问,将以较短的时间间隔(即每分钟)写入检查点。但由于相对于硬盘来说容量较小,所以数据通常会在短时间(即五分钟)后被覆盖。相比之下,已保存硬盘检查点通常以较慢的间隔(即每五分钟)写入一次,但由于硬盘具有可扩展容量,因此几乎可以永久保存。
步骤3:创建内容
计算:内容创建时GPU 执行 AI推理任务,将训练模型应用于新数据输入,其并行性同时执行多个推理,是实时应用(如视频与对话 AI 系统)的关键。此过程 GPU 主导计算,CPU 对于管理控制逻辑并执行串行运算及其重要,涵盖了脚本生成、处理用户输入及运行无需 GPU 高吞吐量低优先级的后台任务。
创建期间,本地固态硬盘提供实时处理所需快速读写速度,AI 生成图像、视频或文本时,固态硬盘可无瓶颈处理高频高速 I/O 操作以确保内容快速产出。
存储:内容创建主要依赖 HBM、DRAM 与本地固态硬盘。
步骤4:存储内容
计算:虽然不直接参与长期存储,但GPU和CPU可在准备数据进行存储时协助压缩或加密数据。它们快速处理大量数据的能力意味着内容可毫无延迟地进行存档。在将数据移动到长期存储之前,内存用作临时缓存。DRAM加快写入操作速度,快速高效地保存人工智能生成的内容。这在实时人工智能应用中尤为重要,因为在这些应用中,存储数据发生延迟可能会导致瓶颈。
存储:内容存储阶段依赖于网络固态硬盘和网络机械硬盘来保存数据以用于持续优化、质量保证和合规性。网络固态硬盘提供速度匹配的数据层,并用于人工智能生成内容的短期、高速存储。与硬盘相比,固态硬盘的容量较低,所以通常用于存储经常访问的内容或必须立即供编辑和提炼的内容。
迭代过程会产生新的经过验证的数据并需要存储。保存这些数据是为了持续改进、保证质量以及符合法规。硬盘用于存储和保护所创建内容的复制版本,并提供关键容量,用于存储人工智能处理过程中生成的内容。硬盘特别适合这一用途,因为与其他存储选项相比,它们以相对低的成本提供较大存储容量。
步骤5:保存数据
复制数据集将跨区域和环境留存,主要用于存储资源。存储数据是可信AI的支柱,使数据科学家确保模型按预期运行。网络固态硬盘作为性能媒介,连接机械硬盘和本地固态硬盘层,促进数据流转。机械硬盘是实现长期存储和数据保护的关键,维持AI内容创建成果,确保数据安全存储和随时访问,提供处理数据量增长所需的可扩展性。
步骤6:重用数据
数据重用环节,源数据、训练数据及推理数据应用于工作流的下次迭代。
计算:GPU 于存档数据集重新运行模型开展新推理或额外训练,助力AI 数据循环重启,凭借大型数据集并行计算能力,降低时间成本提升模型准确性。CPU 负责查询与检索存储数据以供重复使用,可高效过滤处理历史数据并反馈至训练模型。大规模AI系统中,CPU还同时管理存储与计算集群交互。
检索历史数据供AI模型分析迭代重复使用时,内存可实现大型数据集快速访问。HBM能快速将数据集加载到GPU内存,随即用于重新训练或实时推理。
存储:内容输出反馈至模型,可提升其准确性并催生新模型。网络硬盘与固态硬盘支持异地AI数据创建,原始数据及结果构成新工作流源头。固态硬盘加速旧数据检索,低延迟访问让数据快速重回AI工作流,减少等待、提升系统效率。机械硬盘满足AI数据重用的大容量存储需求,以合理的成本来推动模型后续迭代。
存储是AI的支柱
综上所述,AI工作流程离不开高性能处理器和数据存储解决方案。设备内置内存和固态硬盘凭借高速性能助力快速推理,而机械硬盘则是AI的坚实支柱。鉴于其经济的可扩展性,这在众多AI工作流程中至关重要。
希捷硬盘采用 Mozaic 3+™(魔彩盒 3+) 技术,其磁密度、效率和空间优化优势使其成为 AI 应用的强大选择。魔彩盒平台硬盘提供前所未有的每盘片 3TB+ 的磁密度,目前可提供 30TB 起的容量并向超大规模客户批量出货。Seagate希捷已经在测试 Mozaic (魔彩盒) 平台实现每盘片 4TB+ 和 5TB+ 的容量。与当前这一代垂直磁记录 (PMR) 硬盘相比,Mozaic 3+ (魔彩盒 3+) 硬盘的运行功耗只有 PMR 的四分之一,每 TB 隐含碳排放为十分之一。
图片
在AI工作负载中,计算和存储协同工作。计算相关组件固然重要,但可扩展大容量数据存储同样不可或缺,希捷的机械硬盘产品在这方面处于领先地位,为AI发展提供可靠存储支撑
酷狼 | ST2000VN004 | 酷狼PRO | ST4000NE001 |
ST3000VN007 | ST6000NE000 | ||
ST4000VN008 | ST8000NE001 | ||
ST4000VN006 (新型号) | ST10000NE000 | ||
ST6000VN001 | ST1 0000NE0008 | ||
ST8000VN004 | ST12000NE0008 | ||
ST1 0000VN000 (新型号) | ST1 400NE0008 | ||
ST10000VN0008 | ST1 6000NE000 | ||
ST12000VN0008 | ST1 8000NE000 | ||
ST1 6000VN001 | ST20000NE000 | ||
银河 | ST1000NM0008 | ST10000NM001G | |
ST1000NM000A | ST10000NM002G | ||
ST1000NM001A | ST12000NM001G | ||
ST2000NM0008 | ST12000NM002G | ||
ST2000NM000A | ST14000NM001G | ||
ST2000NM003A | ST14000NM002G | ||
ST4000NM000A OEM | ST16000NM001G | ||
S T4000NM000A | ST16000NM002G | ||
ST4000NM003A | ST18000NM000J | ||
S T6000NM021A OEM | ST18000NM004J | ||
ST600NM021A | ST2000NT001 | ||
ST6000NM029A | ST4000NT001 | ||
ST8000NM017B OEM | ST4000NT001 | ||
ST8000NM000A | ST6000NT001 | ||
ST8000NM001A | ST8000NT001 | ||
ST18000NT001 | ST10000NT001 | ||
ST20000NT001 | ST10000VN000 | ||
ST22000NT001 | ST12000NT001 | ||
ST2000VN003 | ST14000NT001 | ||
ST3000VN006 | ST16000NT001 | ||
ST14000VN0008 | |||
ST16000VN001 |
。