AI角色实时视频互动引爆全球,Character.AI重塑人机交互未来
7月5日,AI聊天机器人平台Character.AI发布了一篇研究论文和视频演示,介绍了名为TalkingMachines的自回归扩散模型,旨在使AI角色之间的互动更加真实自然。
该模型目前尚未在Character.AI平台上上线。根据研究论文和视频展示,用户只需提供一张图片和一段音频信号,该模型即可实现类似FaceTime的视觉互动通话。
该模型基于DiffusionTransformer(DiT)技术,本质上是一种能够从随机噪声中生成精细图像的“艺术家”,并持续优化图像直到达到最佳效果。Character.AI所做的工作是大幅加快这一过程,实现实时生成。
TalkingMachines 模型采用了流匹配扩散(Flow-Matched Diffusion)、音频驱动的交叉注意力(Audio-Driven Cross Attention)、稀疏因果注意力(Sparse Causal Attention)和不对称蒸馏(Asymmetric Distillation)等多种关键技术。
流匹配扩散技术通过训练丰富的动作数据,涵盖细微的面部表情和更加夸张的手势,使AI角色的动作表现更加自然流畅。而音频驱动的交叉注意力技术则让AI不仅能够识别语音内容,还能解析其中的节奏、停顿和语调,并据此生成精准的口型变化、点头动作以及眨眼等微表情。
稀疏因果注意力技术使Character.AI能够更高效地处理视频帧,而非对称蒸馏技术则实现了视频的实时生成,营造出类似FaceTime通话的体验。
Character.AI表示,此次研究突破不仅局限于面部动画,更是向实现实时互动的音频视觉AI角色迈出了重要一步。该模型支持真实感人类、动漫风格以及3D虚拟形象等多种表现形式。
附上参考地址
GitHub 项目页面
TalkingMachines: Real-Time Audio-Driven FaceTime-Style Video via Autoregressive Diffusion Models