全球AI算力新纪元:Project Rainier重新定义未来智能引擎
7月14日,据亚马逊AWS于6月24日发布的一篇文章显示,其名为ProjectRainier的大型分布式集群项目有望成为全球最强大的AI模型训练计算机。
ProjectRainier部署在美国多个数据中心,基于AWS旗下AnnapurnaLabs芯片部门研发的AI芯片Trainium2构建。每台服务器配置16颗Trainium2芯片,每4台服务器组成一个UltraServer,数以万计的UltraServer相互连接,形成了ProjectRainier这一庞大的UltraCluster超级集群。 从技术角度看,这种架构设计体现了AWS在AI算力基础设施上的深度布局。通过高度集成与并行计算能力的提升,ProjectRainier不仅能够支持大规模深度学习训练,也为未来更复杂的AI应用提供了坚实的基础。同时,这种分布式的部署方式也有助于提高系统的稳定性和容灾能力,进一步巩固了AWS在全球AI领域的领先地位。
在互联方面,蓝色电缆的NeuronLinks负责Tn2UltraServer内部的高速连接,而单一数据中心内部以及跨数据中心的互联则由黄色电缆的ElasticFabricAdapter(EFA)技术来实现。
Anthropic将借助ProjectRainier来构建和部署其旗舰模型Claude的后续版本,AnnapurnaLabs的产品与客户工程总监Gadi Hutt表示,ProjectRainier提供的算力是Anthropic目前最大训练集群的五倍。