龙芯GPGPU震撼登场,性能对标七年前显卡,挑战CUDA生态新纪元
龙芯近日举行了盛大的发布会,正式推出了龙芯3C6000系列服务器处理器,以及龙芯2K3000/3B6000M工控与终端处理器,同时还在发布会上透露了下一代CPU的微架构信息。 从当前国产芯片的发展趋势来看,龙芯此次发布的多款处理器,标志着其在服务器、工控及终端领域的布局进一步深化。尤其是在服务器处理器方面,龙芯3C6000的推出,有助于提升国内在高性能计算领域的自主可控能力。而工控与终端处理器的更新,则反映出龙芯在细分市场中的持续深耕。此外,关于下一代微架构的预告,也显示出龙芯在技术研发上的长期规划和战略布局。这些进展对于推动我国信息技术产业的自主创新具有积极意义。
与此同时,龙芯还回顾了其在GPU图形核心领域的发展历程,并首次公开了未来多代技术与产品的发展规划。
龙芯的主要业务是CPU通用处理器,而最初涉足GPU领域的原因很简单,就是为了配合龙芯CPU的使用需求。当时面临进口低端GPU芯片供应不稳定、渠道不畅,以及嵌入式GPU无法满足桌面市场需求的问题。
拥有自主的CPU和GPU后,龙芯能够实现自我配套,形成系统优势,从而降低整体系统成本。
早在2016年,龙芯就启动了GPU项目,这个时间可能比许多人的预期要早得多。
2017年启动图形算法的调研工作;2018年进入总体架构设计阶段,并同步展开结构模拟器的设计;2019年完成模拟器的验证,随后转入逻辑与结构设计环节。从时间线来看,这一系列进展体现出项目在技术探索与系统构建上的稳步推进,显示出对技术细节的重视和对研发流程的严谨把控。这种分阶段推进的方式有助于确保每个环节的扎实落地,为后续开发打下坚实基础。
龙芯2K2000
龙芯7A2000
2020年,龙芯首款GPU LG100正式发布,已应用于龙芯2K2000处理器及龙芯7A2000桥片(搭配龙芯3号系列),其性能接近AMD R5 230。至此,龙芯完成了GPU结构设计与验证的全套工作,标志着其在自主芯片领域又迈出了重要一步。 从技术角度来看,龙芯在GPU领域的突破具有重要意义,不仅提升了国产处理器的整体性能,也增强了其在复杂计算任务中的适应能力。虽然目前性能仍与国际主流产品存在一定差距,但这一进展为后续技术迭代和生态建设奠定了基础。随着国产化替代进程的加快,龙芯系列产品的市场影响力有望进一步扩大。
2021年的LG110实现了小幅迭代升级,在相同面积下,其算力性能提升了一倍,该芯片也应用于龙芯7A2000。这一改进表明国产处理器在性能优化方面持续取得进展,反映出在芯片设计和制造工艺上的稳步提升。尽管是小幅度的更新,但性能的显著增强仍具有实际应用价值,为相关产品的性能表现提供了有力支撑。
2022年的LG120再次进行了升级,主要提升了光栅化精度,优化了图形处理和相关算法,龙芯2K2000后期采用的就是这一版本。
龙芯的GPU设计从零起步,完全自主研制,未依赖任何境外知识产权,也不存在历史技术包袱。在技术路径上,它跳过了早期的固定功能流水线和可编程流水线阶段,直接进入统一渲染流水线架构,展现了清晰的技术发展思路和前瞻性布局。 从行业角度来看,这种自主研发的路径不仅有助于提升国产芯片的自主可控能力,也为后续生态建设和性能优化打下了坚实基础。在当前国际技术竞争日益激烈的背景下,龙芯的选择体现了对技术路线的深刻思考和战略定力。
当然,龙芯GPU起步时的性能并不算高,初期仅支持OpenGL 2.1和OpenGLES 2.0,但已能基本满足现代桌面应用的显示需求。其可靠性和兼容性经过市场检验,尤其在降低龙芯终端成本方面表现突出,显示出国产芯片在图形处理领域逐步走向成熟。
迄今为止,LG100系列的出货规模已经超过了百万颗。
2021年,在LG100系列不断迭代升级的过程中,龙芯已同步启动了第二代LG200的调研与整体设计工作。 作为行业观察者,可以注意到,龙芯在保持现有产品线持续优化的同时,已开始布局新一代产品的研发,这反映出其在技术研发上的前瞻性与持续投入。这种“边走边看、边做边想”的策略,有助于企业在技术更新换代中保持竞争力,也为未来市场布局打下坚实基础。
这一次,龙芯在GPU设计思路上进行了重要调整,从以往的统一渲染架构转向了更加注重通用计算的架构,其重心也由图形处理逐步向计算能力转移。这一转变堪称一次从零开始的重构,意义深远。 这种战略调整反映出龙芯在面对日益增长的计算需求时,正努力突破传统图形处理的局限,向更广泛的高性能计算领域拓展。随着人工智能、大数据等技术的快速发展,计算能力的重要性愈发凸显,龙芯的这一转型不仅有助于提升自身产品的竞争力,也为国产芯片的发展开辟了新的方向。
之所以这么快转换方向,因为龙芯意识到,未来将是计算的天下,即使是图形处理也以计算任务的形式存在。可以说,这也为后续的通用计算、AI处理发展打下了基础。
经过漫长而复杂的设计、验证、迭代和磨合,加上配套驱动的开发,直到2024年,LG200才最终完成,用于此次发布的龙芯2K3000/3B6000M。这一过程体现了国产芯片在技术积累和系统集成方面的持续突破。 从技术发展的角度来看,LG200的完成标志着国产处理器在自主可控道路上又迈出了坚实的一步。尽管研发周期较长,但这也反映出对产品稳定性和兼容性的高度重视。随着配套生态的逐步完善,未来这类国产芯片有望在更多领域得到应用,进一步推动信息技术领域的自主创新进程。
从路线图来看,该产品后续还将推出迭代升级版本LG210,预计将在后期的龙芯2K3000/3B6000M处理器中应用。
龙芯2K3000/3B6000M芯片中搭载的LG200GPU图形处理器,在图形性能方面实现了显著提升,像素填充率从2GP/s增至4GP/s,纹理填充率则从2GT/s提升至8GT/s。同时,该GPU支持OpenGL 3.3、OpenGLES 3.1和OpenCL 1.1等图形与计算接口。
LG200还初步支持通用计算加速和AI加速,运行目标识别等AI任务、大语言模型等都没有问题。
这被视作龙芯推出的首款GPGPU产品,官方表示在900MHz频率下,FP16单精度浮点运算性能达到230.4GFlops(即每秒2304亿次运算),INT8整数运算性能为7.2TOPS(即每秒7.2万亿次运算)。
事实上,这款设备的最高频率可达2.2-2.5GHz,在适当放宽频率限制的情况下,其FP16浮点运算性能可达到256GFlops,INT8整数运算性能则可达到8TOPS。从技术参数来看,这样的性能表现已经具备了较强的计算能力,尤其在AI加速和高性能计算领域具有一定的竞争力。不过,实际应用中的性能表现还受到散热、功耗以及软件优化等多方面因素的影响,因此需要结合具体使用场景来评估其真实价值。
GPGPU可以被视为图形处理器发展历程中的第四阶段,它将通用计算与图形渲染功能融合在一起,实现了“一肩挑”的模式,这也成为现代GPU的核心特性之一。 在当前的计算架构中,GPGPU的出现标志着图形处理器不再仅仅局限于图形处理,而是向着更广泛的通用计算方向发展。这种转变不仅提升了硬件的利用率,也为高性能计算、人工智能等领域提供了强大的支持。从技术演进的角度来看,GPGPU的普及进一步推动了并行计算的发展,使更多复杂任务得以高效完成。
对于龙芯而言,CPU方面的技术补课已经基本完成,而GPU仍处于补课阶段,特别是在API支持方面,之前存在较大差距。接下来,龙芯将逐步开始支持OpenGL 3.2/4.0、OpenCL 3.0(尽管该标准已逐渐式微),并引入新的Vulkan 1.1标准。
什么?你说DirectX?这是个封闭标准,纯自研的国产GPU暂时还做不到,除非买Imagination PowerVR之类的国外IP授权。
性能方面,龙芯GPU将首先继续升级架构,全面实现基本功能,然后扩展功能和性能,全面优化挖潜,逐步实现图形流水线、计算性能的可扩展,大力提高能效比、单位面积性能。
这就是龙芯提出的“先通后专”发展路线,即首先打造通用型GPU,随后再聚焦于专用的GPGPU,特别是在人工智能领域。目前,这一战略主要面向端侧的AI推理应用,旨在满足日常使用需求。这种分阶段推进的方式,有助于逐步提升技术成熟度与市场适应性,也为未来更复杂的计算任务打下基础。
至于云端的AI训练,属于AI加速卡的职责范围,龙芯目前暂不涉足。
龙芯未来计划中的GPGPU发展也将采取三步走策略,并将推出一个全新的龙芯9A系列,也称为LG300系列。
龙芯GPGPU的架构设计在外观上与NVIDIA的产品有诸多相似之处,同样采用了多个GPC(图形处理集群)结构,并通过L1N网络实现彼此之间的互联。这种设计思路显示出在高性能计算领域,不同厂商之间存在一定的技术趋同现象。从技术发展的角度来看,这样的架构布局有助于提升整体计算效率和并行处理能力,但也反映出在核心架构层面,国内企业在某些方面仍需借鉴国际先进经验。
所有GPC模块均配备二级缓存,并通过L2N网络连接各个顶层功能模块,包括内存控制器、指令处理单元、显示控制器、视频编解码控制器以及PCIe控制器。
不同硅片之间,还可以通过LCL龙链进行互连,大大扩充芯片规模和性能。
再深入来看,GPC内部包含一条GP图形处理流水线和多个SP流处理器,每个流处理器配备一个纹理单元以及多个矢量运算单元,而每个矢量单元则由16个FP16单精度浮点运算单元、1个FP32双精度浮点运算单元和1个Tensor张量运算单元组成(仅差AI专用单元)。
每个单元的性能指标,也都已经确定。
需要强调的是,龙芯GPGPU虽然自研,但并不封闭,原则就是兼容主流、拥抱开源。
作为一套高性能加速计算平台,龙芯GPGPU将全面具备多种能力。在计算API方面,不仅支持传统的OpenCL标准,还提出对CUDA的兼容性支持(具体实现方式尚未明确),能够满足训练、推理、微调等全场景人工智能应用需求,覆盖云侧、边缘侧和端侧等多个应用领域。
此外,图形API将持续跟进OpenGL与Vulkan这两大行业主流,视频编解码加速支持也将逐步覆盖更多格式。从行业发展来看,这一趋势反映了对高性能图形处理和多样化媒体内容需求的持续增长。随着技术不断演进,开发者和用户将能享受到更高效、更广泛的硬件支持,进一步推动多媒体应用的创新与普及。
龙芯9A1000:
已经进入设计尾声阶段,即将完成流片,2026年推出。
这将是龙芯推出的首款GPGPU专用芯片,通过该芯片初步验证并打通了设计思路,未来可用于独立显卡和AI加速卡领域。
它的定位比较低,成本也比较低,性能大致相当于AMD 7年前的入门显卡RX 550,但已经支持曲面细分、计算着色器等特性,不过图形API仅支持到OpenGL 4.0(RX 550 OpenGL 4.6)。
集成视频编解码模块,支持最常见的H.264、H.265。
AI推理性能方面,预计INT8整数格式下达到32-40 TOPS。
龙芯9A2000:
2027年将正式发布,其性能将达到主流水平,功能也将全面实现,适用于桌面端和服务器环境。
通过架构优化与硬件堆料双管齐下,性能单位比得到显著提升,整体性能预计可提高约4倍。例如,FP16浮点运算能力达到5TFlops,INT8整数运算能力则达到160TOPS。这一技术突破不仅体现了芯片设计的持续进步,也反映出在AI算力需求不断增长的背景下,企业对性能提升的高度重视。从行业趋势来看,高性能计算能力的增强将为人工智能、自动驾驶等前沿领域提供更强支撑。
它还将首次实现双硅片互联技术,性能提升一倍,达到同工艺水平的国际先进标准。
图形API方面现已支持至OpenGL 4.6,张量单元进一步扩展了对BF16等多种数据格式的支持,并新增了虚拟化功能。
龙芯9A3000:
暂无时间表,首次进军高端高性能领域,工艺技术将与龙芯CPU同步演进至xnm节点,频率有望显著提升,性能预计实现3到5倍的跨越式增长。