通义万象再进化,六大模型引领AI生态新纪元
9月24日,在2025云栖大会上,阿里集团董事兼CEO吴泳铭表示,正在加快推动3800亿元的AI基础设施建设,并计划进一步加大投资力度。此次大会上,阿里发布了6款新模型以及一个全新的品牌。
Qwen MAX:万亿参数大模型,Coding 与工具调用能力登顶国际榜单;
Qwen3-Omni:新一代原生全模态大模型,真正实现“全模态不降智”;
Qwen3-VL:Agent 和 Coding 能力全面提升,真正“看懂、理解并响应世界”;
Qwen-Image:再升级!真正实现“改字不崩脸、换装不走样”;
Qwen3-Coder:256K 上下文修复项目,TerminalBench 分数大幅提升;
Wan2.5-Preview:音画同步视频生成,图像支持科学图表与艺术字;
通义百聆:企业级语音基础大模型,突破企业应用语音模型的“最后一公里”难题;
其中,通义千问 Qwen-MAX、Qwen3-Omni、 Qwen-Image-Edit-2509 此前已有报道。
Qwen3-VL是一款真正实现“看懂世界、理解事件、做出行动”的视觉理解模型,其功能覆盖范围更广,支持对长达2小时的视频进行精确定位,例如“第15分钟穿红衣者做了什么”这样的细节都能准确捕捉。在OCR语言支持方面,从原有的19种扩展到了32种,对于生僻字、古籍以及倾斜文本的识别能力也有了明显提升。同时,该模型原生支持256K的上下文长度,可扩展至10万token,适用于超长视频和文档的分析处理。 这一系列技术升级不仅体现了AI在视觉与语言理解领域的持续突破,也为实际应用场景提供了更强的支持,尤其在信息处理效率和准确性方面具有重要意义。
本次发布重点强化以下能力:
视觉智能体:可操作电脑和手机界面,识别GUI元素、理解按钮功能、调用工具并执行任务,在OSWorld等评测中达到世界顶尖水平; 当前技术在人机交互领域取得了显著进展,能够精准识别图形用户界面中的各类元素,并准确理解其功能,进而完成复杂任务。在诸如OSWorld等权威评测中,相关系统已展现出世界级的性能表现,标志着人工智能在操作层面的能力正不断逼近甚至超越人类水平。这一突破不仅提升了自动化工作的效率,也为未来智能助手的发展奠定了坚实基础。
可视化编程:看到UI设计图或流程图后,可直接生成HTML/CSS/JS代码或Draw.io图表,有效提升产品与开发之间的协作效率;
空间感知与3D定位:能够识别物体的位置、视角变化以及遮挡关系,为具身智能、机器人导航、增强现实/虚拟现实等应用提供基础支撑;
超长视频理解与行为分析:不仅能理解 2 小时视频内容,还能精准回答“第 15 分钟穿红衣者做了什么”“球从哪个方向飞入画面”等时序与行为问题;
在MathVista、MathVision、CharXiv等评测中达到最先进水平,Thinking版本在STEM推理方面得到强化,能够准确解析科学图表、公式及文献图像;
视觉感知全面升级:优化预训练数据,支持“万物识别”—— 从名人、动漫角色、商品、地标到动植物,覆盖生活与专业场景;
多语言OCR功能已扩展至支持32种语言,对复杂光照条件、模糊图像以及倾斜文本的识别更加稳定,同时在生僻字、古籍文字和专业术语的识别准确率方面有了显著提升。
安防感知与风险预警系统在家庭、商场、街区、道路等实际场景中,对风险人员和事件的识别准确率处于行业领先水平。
长上下文原生支持:起步为256K,可扩展至100万token,能够实现整本教材、数小时会议录像的全程记忆与精确搜索。
Qwen-Image作为一款开源的图片编辑工具,近日迎来全新升级。新版本支持多图参考编辑,进一步提升了人脸、商品和文字ID的一致性,并原生集成了ControlNet,实现了“改字不崩脸、换装不走样”的工业级稳定性,能够更好地满足电商、设计、广告等对图像处理要求较高的应用场景。 此次升级不仅增强了工具的实用性与稳定性,也标志着开源图像编辑技术在专业领域的持续突破。随着AI技术的不断演进,这类工具在提升工作效率的同时,也为内容创作者提供了更多可能性。
本次升级核心亮点:
多图编辑支持:对于多图输入,Qwen-Image-Edit-2509 基于 Qwen-Image 基模,不仅能够处理各种单图编辑场景,而且全新支持了多种多图编辑场景,提供“人物 + 人物”,“人物 + 商品”,“人物 + 场景”等多种新玩法。
单图编辑一致性增强:对于单图编辑场景,Qwen-Image-Edit-2509 相比之前,显著提高了各个维度的一致性,主要体现在以下方面:
人物编辑一致性提升:强化人物ID的稳定性,支持多种风格的肖像表现及姿势变化;
商品编辑一致性增强:增强商品 ID 保持,支持各种商品海报编辑;
除了能够对文字内容进行修改外,还支持多种字体、颜色及材质的编辑功能;
原生支持ControlNet:可兼容深度图、边缘检测图、关键点识别图等多种引导信息。
Qwen3-Coder 上下文代码专家本次迎来能力升级,通过 Agentic Coding 联合训练优化,TerminalBench 分数大幅上涨,在 OpenRouter 平台一度成为全球第二流行的 Coder 模型(注:仅次于 Claude Sonnet 4)。支持 256K 上下文,可一次性理解并修复整个项目级代码库,推理速度更快、Token 消耗更少、安全性更高,被开发者誉为“可一键修复复杂项目的负责任 AI”。
本次升级核心亮点:
Agentic Coding 联合训练:与 Qwen Code 或 Claude Code 联合优化,在 CLI 应用场景效果显著提升;
项目级代码支持256K上下文,能够处理跨文件、多语言的复杂项目结构;
推理性能提升:相较于上一代模型,推理速度有所加快,能够在使用更少Token的情况下实现更优的效果。
代码安全性提升:强化漏洞检测与恶意代码过滤,迈向“负责任的 AI”;
多模态输入功能:结合QwenCode系统,支持通过上传截图并配合自然语言指令生成代码,技术处于全球领先地位。
通义万相Wan2.5-Preview音画同步创意引擎首次原生支持音画同步,全面升级视频生成、图像生成与图像编辑三大核心功能,满足广告、电商、影视等商业场景的内容创作需求。
视频生成 —— 会“配音”的 10 秒电影:
原生音画同步:视频内含人物原声(多人)、ASMR、音效及背景音乐,支持中文、英文及各类小语种和方言,画面与音频精准匹配,无缝衔接。
10秒长视频生成:时长增加1倍,最高支持1080P24fps,动态表现力和结构稳定性显著增强,叙事能力明显提升;
指令遵循提升:支持复杂连续变化指令、运镜控制、结构化提示词,精准还原用户意图;
图生视频技术在保持元素ID方面取得显著优化,人物、商品等视觉元素的一致性得到明显提升,使得该技术在商业广告和虚拟偶像场景中具备更高的适用性与表现力;这一进展为内容创作者提供了更稳定的视觉输出,有助于增强观众的沉浸感与品牌识别度。
通用音频驱动功能支持用户上传自定义音频作为参考,结合提示词或首帧图像生成视频,实现“用我的声音讲述你的故事”。
文生图 —— 能“写字”的设计大师:
美学表现力提升:真实光影效果更突出,细节与材质的表现更加细腻,能够精准还原多种艺术风格与设计质感。
支持中英文、小语种、艺术字体、长篇文本及复杂版式精准排版,可一次性生成海报和LOGO。
图表直接生成:可输出科学图表、流程图、数据图、架构图、文字内容表格等结构化图文;
指令遵循提升:复杂指令精细化理解,具备逻辑推理能力,可精准还原现实 IP 形象与场景细节。
图像编辑 —— “改字不崩脸”的工业级修图:
指令编辑:支持丰富编辑任务(换背景 / 改颜色 / 加元素 / 调风格),指令理解精准,无需专业 PS 技能;
一致性保持:支持单图 / 多图参考垫图,人脸、商品、风格等视觉元素 ID 强保持,编辑后“人还是那个人,包还是那个包”。
通义百聆是通义实验室推出的企业级语音基座大模型,作为全新品牌亮相,集成了先进的Fun-ASR语音识别技术与Fun-CosyVoice语音合成技术,旨在解决复杂环境下语音技术的实际应用问题,推动语音技术在更多场景中的落地与普及。 从行业发展角度看,通义百聆的推出标志着国内语音技术正朝着更加智能化、实用化的方向迈进。在当前人工智能技术不断突破的背景下,企业级语音解决方案的需求日益增长,而通义百聆通过整合两大核心技术,不仅提升了语音处理的准确性与稳定性,也为行业提供了更具竞争力的技术支持。这种技术整合与场景适配的能力,将有助于加速语音技术在更多垂直领域的应用落地,具有积极的行业意义。
Fun-ASR语音识别大模型专注于解决语音识别领域中的三大难题:「幻觉输出」、「串语种」和「热词失效」。借助其首创的Context增强架构(CTCLLMRAG),幻觉率显著下降,从78.5%降至10.7%,基本解决了串语种问题,提升了识别的准确性和稳定性。 从行业角度看,这一技术突破不仅体现了AI语音识别在算法优化上的进步,也反映出企业在实际应用中对用户体验的高度重视。数据的大幅改善说明技术已进入成熟阶段,未来有望在更多场景中得到广泛应用。
支持热词动态注入与跨语种语音克隆,行业术语能够实现100%准确召回。Fun-CosyVoice语音合成大模型通过创新的语音解耦训练方式,显著提升了音频合成质量,并具备跨语种语音克隆的能力。其核心功能展示出在语音技术领域的突破性进展。 从技术发展的角度来看,语音合成领域正朝着更精准、更自然的方向迈进。Fun-CosyVoice在跨语种支持和术语准确率上的表现,体现了人工智能在语言处理方面的持续进步。这种能力不仅有助于提升用户体验,也为多语言场景下的应用提供了更强的技术支撑。
幻觉率显著降低:采用Context增强架构,将CTC初步筛选结果作为LLM的上下文,使幻觉率从78.5%降至10.7%,输出更加稳定和可信;
彻底解决多语种混淆问题:CTC解码技术应用于LLM提示文本输入,显著缓解英文录音转译为中文等“自动翻译”现象;
具备强大的定制化能力:通过引入RAG机制,实现术语库的动态注入,支持人名、品牌及行业术语(如“ROI”“私域拉新”)的精准识别,配置过程仅需5分钟。
跨语言语音克隆技术:通过多阶段训练模式,一种声线可适用于多种语言,语音相似度达到行业领先水平;
基于数千万小时真实音频训练,该技术已实现对金融、教育、制造、互联网、畜牧等10个行业的全面覆盖,深入融入各产业一线,展现出强大的应用场景适应能力。 从行业发展的角度来看,这种技术的广泛应用不仅体现了人工智能在实际生产中的深度渗透,也反映出不同领域对智能化解决方案的迫切需求。覆盖多个行业的布局,有助于推动技术与产业的深度融合,提升整体效率和竞争力。同时,依托大量真实音频数据进行训练,也增强了系统的准确性和实用性,为各行业的数字化转型提供了有力支撑。