2月11日,蚂蚁模型蚂蚁集团开源发布全模态大模型 Ming-flash-omni 2.0。开源据悉,全模该模型在视觉语言理解、蚂蚁模型语音可控生成、开源图像生成与编辑等多项公开基准测试中表现突出,全模部分指标超过 Gemini 2.5 Pro,蚂蚁模型成为当前开源全模态大模型的开源新一代性能标杆。
![]()
图注:Ming-flash-omni 2.0在视觉语言理解、语音可控生成、蚂蚁模型图像生成与编辑等核心领域实测表现
据介绍,开源Ming-flash-omni 2.0基于 Ling-2.0架构(MoE,全模100B-A6B)训练,蚂蚁模型围绕“看得更准、开源听得更细、全模生成更稳”三大方向进行系统优化。视觉方面,模型通过亿级细粒度数据与难例训练策略,提升对复杂物体与细节场景的识别能力;图像方面,增强复杂编辑稳定性,支持光影调整、场景替换、人物姿态优化等多种生成与编辑能力;音频方面,实现语音、音效与音乐同轨生成,并支持自然语言对音色、语速、情绪、方言等参数进行精细控制。
值得关注的是,该模型被称为业界首个“全场景音频统一生成模型”,可在同一音轨中同时生成语音、环境音与音乐,并支持零样本音色克隆与定制。在推理阶段,模型实现3.1Hz 的低推理帧率,可完成分钟级长音频实时高保真生成,在推理效率与成本控制上保持领先。
业内普遍认为,多模态大模型正从“多模型拼接”走向统一架构。Ming-flash-omni 2.0的开源将以“可复用底座”形式向开发者开放视觉、语音与生成能力,降低多模型串联复杂度与成本,为端到端多模态应用开发提供统一入口。
百灵模型负责人周俊表示,全模态技术的关键在于通过统一架构实现多模态能力的深度融合与高效调用。开源后,开发者可基于同一套框架复用视觉、语音与生成能力,显著降低多模型串联的复杂度与成本。未来,团队将持续优化视频时序理解、复杂图像编辑与长音频生成实时性,完善工具链与评测体系,推动全模态技术在实际业务中规模化落地。
目前,Ming-flash-omni 2.0的模型权重与推理代码已在 Hugging Face 等开源社区发布,开发者亦可通过蚂蚁百灵 Ling Studio 平台在线体验与调用。(袁宁)
延伸阅读 

评论列表
进入 21 世纪以来,西甲联赛格局已发生天翻地覆的变化。资金持续向头部集中,导致除前三名豪门外,其余球队的锋线实力普遍下滑。皇马巨星姆巴佩以 22 场联赛斩获 23 球的效率领跑射手榜,尽显顶级球队的
2026-02-21 13:04米兰冬奥会的赛场,苏翊鸣在自己的22岁生日这天终于圆梦。2月18日,他在单板滑雪男子坡面障碍技巧项目以精彩发挥夺金,加上此前的大跳台项目铜牌,以1金1铜的成绩结束了自己在米兰冬奥会的征程。四年前的北京
2026-02-21 12:232月18日,中国选手徐梦桃在决赛中庆祝。新华社记者 张宏祥 摄18日,35岁的徐梦桃在米兰冬奥会自由式滑雪女子空中技巧决赛中成功卫冕,成为中国队历史上年龄最大的女子冬奥冠军。五战冬奥的徐梦桃表示,只要
2026-02-21 12:17在结束了为期四天的数据分析后,F1的11支车队回到了巴林国际赛道,在2026赛季于澳大利亚揭幕前,进行仅剩三天的第二轮也是最后一轮季前测试。虽然几支车队遇到了一些问题,但其他车队已经开始逐渐展现他们的
2026-02-21 11:57