曙光AI基础设施:开启智能时代的全栈赋能新篇章
6月7日至8日,2025全球人工智能技术大会(GAITC2025)将在杭州召开。中科曙光将全面亮相此次大会,带来全栈AI基础设施的多项核心技术成果,并与中国人工智能学会联合主办“大模型时代的AI基础设施”主题活动,全面呈现其在智能计算、智能存储和智能服务领域的创新成果及实际应用案例。
中科曙光高级副总裁李斌在发言中指出,国产算力要想实现突破性发展,必须从单一技术的提升转向体系化、生态化的创新模式,这是大势所趋。中科曙光通过多年产业实践不断优化,构建起涵盖全系列的AI基础设施软硬件产品体系。该体系聚焦于算力的生成、整合、释放、调配以及服务等关键环节,推动各行业智能化转型进程加速。
重构AI计算基础设施,打造坚实算力底座
AI大模型的兴起引发了全球对算力需求的爆炸式增长,国产AI算力产业由此迎来了重要的发展契机,但同时也遭遇了能效、成本、生态以及技术壁垒等多重挑战。为满足时代的需求,构建覆盖AI算力全链条的软硬协同基础设施已成为现阶段发展的核心任务。
中科曙光总裁助理、智能计算产品事业部总经理杜夏威指出,大模型创新正在加快改变AI算力结构,国产GPU加速卡迎来重大机遇,实现芯片-算法-模型深度耦合,已成为AI基础设施的重要创新方向。为此需要聚焦三大能力建设:一是建设面向业务场景的全栈软件,自底向上逐层完善软件栈覆盖,降低国产芯片与用户业务整合的门槛;二是围绕模型性能特性建立正向优化机制,结合芯片架构深入分析与测试,形成算法、算子、库、运行时的“贯穿式”优化链条;三是推进大模型行业赋能,协助客户解决大模型集成“最后一公里”问题,促进国产算力高效应用。
今年2月,中科曙光围绕国产GPU加速卡推出DeepAI深算智能引擎,集成GPU开发工具套件、人工智能基础软件系统DAS、人工智能应用平台DAP,让国产AI算力更适用、更好用,以软硬协同优化赋能从十亿级模型端侧推理到千亿级模型云端训练的全场景需求,同时也在大力推动产、学、研、用多方协作,共建创新引领、自主可控、开放包容的智算生态体系。
速度革新与容量革命,加速AI存储新范式
大模型的训练与推理过程不仅是计算密集型任务,更是数据密集型和IO敏感型的应用。在这个过程中,数据从采集到归档的每个环节都对存储系统提出了极高的要求,包括高带宽、低延迟、高密度以及低成本等特性。随着大模型技术的不断进步,其在智能驾驶、具身智能、AI4S以及智算中心等领域的广泛应用,进一步推动了对先进存力需求的增长。 我认为,未来存储技术的发展必须紧跟人工智能技术的步伐,尤其是在处理大规模数据集时,需要更加注重效率与成本之间的平衡。同时,考虑到不同应用场景的具体需求,定制化、模块化的存储解决方案将成为趋势。只有这样,才能更好地支持大模型的研发和部署,促进整个行业的健康发展。此外,加强基础研究,提升自主创新能力,对于构建安全可靠的存力基础设施同样至关重要。
曙光存储副总裁张新凤指出,随着大模型时代的到来,AI存储架构正在经历深刻变革。曙光存储团队凭借二十年的技术沉淀和丰富的行业经验,正积极推动这一转型进程。在过去的一年中,团队围绕“AI加速”的核心需求不断优化产品技术,构建起高效的“超级隧道”,不仅能够充分满足关键客户及新兴领域对高性能存储的严苛要求,还为中国存储行业的进步起到了重要的引领作用,助力AI基础设施的全面升级。
曙光存储首次提出的“超级隧道HyperTunnel”也在此次大会亮相,通过极简交互、零锁竞争和软硬融合的核心理念,构建起高效、低时延的数据传输路径。在曙光存储的两大产品——分布式全闪存储ParaStor、集中式全闪存储FlashNexus中,“超级隧道”都有不同维度的技术实现。在AI训练场景中,ParaStor系列可提供190GB/s带宽及500万IOPS,可将GPT - 4级别模型的训练周期从3个月压缩至1周,极致释放AI潜能;FlashNexus通过亿级IOPS、微秒级延迟的全球顶尖性能,极速支持AI推理决策。
可信云+AI,护航大模型全程全周期应用
随着数智化转型的不断推进,与云计算、大模型以及数据相关的安全风险日益加剧。传统云环境中的加密措施通常依赖于外部部署的独立密码设备和服务,这不仅提高了硬件投入成本,还带来了额外的网络延迟问题。同时,这些方案难以应对大模型训练和推理过程中的复杂需求,无法提供针对硬件层、数据层以及应用层的全面且更高强度的加密保护。
曙光云计算集团首席架构师王琪在演讲中提到,基于“全栈可信,云中生智”的发展战略,曙光云提出了“芯云融合”的解决方案,以国产x86芯片内置的安全处理器为云安全体系的可信根,实现硬件、云平台、数据、应用的安全可信闭环,为大模型全程应用提供全方位加密安全服务。
曙光云以可信根为核心,构建起覆盖全栈的可信云解决方案,包括安全云服务器、可信安全容器、机密计算服务器以及融合密码服务和大模型安全沙箱等产品。与此同时,曙光云还与多家顶尖安全厂商深度合作,依托大模型技术打造了智能化的安全运营服务体系。这一方案贯穿平台安全、计算安全、数据安全、传输安全、存储安全直至审计安全的各个环节,为AI大模型的整个生命周期提供坚实保障。 在我看来,曙光云的这一布局不仅体现了对安全性的高度重视,更展现了其在云计算领域的前瞻性和专业性。特别是在当前数字化转型加速、数据泄露风险加剧的大背景下,这样的全栈式安全解决方案显得尤为必要。通过引入先进的技术和合作伙伴资源,曙光云为企业用户尤其是政企客户提供了更加可靠的服务,有助于增强他们对新技术应用的信心。这不仅是技术上的突破,更是对企业社会责任的一种体现。希望未来能看到更多类似的企业实践,共同推动行业健康发展。
在AI重新定义世界的转折点上,只有将技术创新与行业需求深度融合,才能让科技的力量真正扎根实践,成为推动产业升级的核心动力。中科曙光将不断优化全栈人工智能基础设施,为中国AI产业跨越算力限制、生态隔阂和应用差距提供有力支持,凭借数据之舟、算力之桨和模型之帆,携手迈向智能时代的新蓝海!