主页 > 豌豆AI > 正文

蚂蚁集团开源全模态大模型Ming-Flash-Omni 2.0 性能对标Gemini 2.5 Pro

2026-02-11 11:28:44来源:Techweb编辑:李川峰

扫一扫

分享文章到微信

扫一扫

关注豌豆财经网微信公众号

  2月11日消息,蚂蚁集团开源发布全模态大模型 Ming-Flash-Omni 2.0。在多项公开基准测试中,该模型在视觉语言理解、语音可控生成、图像生成与编辑等关键能力表现突出。

  据介绍,Ming-Flash-Omni 2.0是业界首个全场景音频统一生成模型,可在同一条音轨中同时生成语音、环境音效与音乐。用户只需用自然语言下指令,即可对音色、语速、语调、音量、情绪与方言等进行精细控制。模型在推理阶段实现了 3.1Hz 的极低推理帧率,实现了分钟级长音频的实时高保真生成,在推理效率与成本控制上保持业界领先。

  业内普遍认为,多模态大模型最终会走向更统一的架构,让不同模态与任务实现更深层协同。但现实是,“全模态”模型往往很难同时做到通用与专精:在特定单项能力上,开源模型往往不及专用模型。蚂蚁集团在全模态方向已持续投入多年,Ming-Omni系列正是在这一背景下持续演进:早期版本构建统一多模态能力底座,中期版本验证规模增长带来的能力提升,而最新2.0版本通过更大规模数据与系统性训练优化,将全模态理解与生成能力推至开源领先水平,并在部分领域超越顶级专用模型。

  此次将 Ming-Flash-Omni 2.0 开源,意味着其核心能力以“可复用底座”的形式对外释放,为端到端多模态应用开发提供统一能力入口。

  Ming-Flash-Omni 2.0 基于 Ling-2.0 架构(MoE,100B-A6B)训练,围绕“看得更准、听得更细、生成更稳”三大目标全面优化。视觉方面,融合亿级细粒度数据与难例训练策略,显著提升对近缘动植物、工艺细节和稀有文物等复杂对象的识别能力;音频方面,实现语音、音效、音乐同轨生成,支持自然语言精细控制音色、语速、情绪等参数,并具备零样本音色克隆与定制能力;图像方面,增强复杂编辑的稳定性,支持光影调整、场景替换、人物姿态优化及一键修图等功能,在动态场景中仍保持画面连贯与细节真实。

  百灵模型负责人周俊表示,全模态技术的关键在于通过统一架构实现多模态能力的深度融合与高效调用。开源后,开发者可基于同一套框架复用视觉、语音与生成能力,显著降低多模型串联的复杂度与成本。未来,团队将持续优化视频时序理解、复杂图像编辑与长音频生成实时性,完善工具链与评测体系,推动全模态技术在实际业务中规模化落地。

  目前,Ming-Flash-Omni 2.0的模型权重、推理代码已在 Hugging Face等开源社区发布。用户也可通过蚂蚁百灵官方平台Ling Studio在线体验与调用。(周小白)

     投稿邮箱:lukejiwang@163.com   详情访问豌豆财经网:http://www.wdyxw.com.cn

相关推荐
蚂蚁阿福成为央视CCTV健康生活合作伙伴 蚂蚁阿福成为央视CCTV健康生活合作伙伴

2月10日消息,健康AI应用“蚂蚁阿福”成为央视CCTV健康生活合作伙伴。 作为专

豌豆AI2026-02-10

消息称蚂蚁数科将成立“大模型技术创新部” 消息称蚂蚁数科将成立“大模型技术创新部”

2月4日消息,据新浪科技消息,蚂蚁数科CEO赵闻飙日前发布全员信,宣布蚂蚁数

豌豆AI2026-02-04

国产模型开源震撼老外,谷歌Genie 3紧急跟进?海 国产模型开源震撼老外,谷歌Genie 3紧急跟进?海

最近AI圈的一大看点,莫过于蚂蚁灵波和谷歌的“开源接力”。 先是蚂蚁灵波密

豌豆AI2026-02-02

百度开源全新OCR模型 PaddleOCR-VL-1.5,性能超越De 百度开源全新OCR模型 PaddleOCR-VL-1.5,性能超越De

1月30日消息,百度在OCR领域再发力。 29日,百度正式发布并开源新一代文档解析

豌豆AI2026-01-30

对标Genie 3 蚂蚁灵波开源世界模型LingBot-World 对标Genie 3 蚂蚁灵波开源世界模型LingBot-World

1月29日消息,蚂蚁集团旗下灵波科技今日宣布全面开源世界模型 LingBot-World。此

豌豆AI2026-01-29

AI眼镜能付停车费了:小米眼镜联合蚂蚁GPASS上线 AI眼镜能付停车费了:小米眼镜联合蚂蚁GPASS上线

1月28日消息,近日,小米与蚂蚁集团合作,基于蚂蚁自研的全球首个智能终端可

豌豆AI2026-01-28

DeepSeek-OCR 2大模型开源,重塑文档AI的认知逻辑 DeepSeek-OCR 2大模型开源,重塑文档AI的认知逻辑

1月27日消息,深度求索(DeepSeek)团队发布了论文《DeepSeek-OCR 2: Visual Causal Flo

豌豆AI2026-01-27

蚂蚁灵波开源LingBot-Depth模型 让机器人精准抓取透 蚂蚁灵波开源LingBot-Depth模型 让机器人精准抓取透

1月27日消息,蚂蚁集团旗下具身智能公司灵波科技宣布开源高精度空间感知模型

豌豆AI2026-01-27

百川智能宣布开源全球最强医疗大模型Baichuan-M 百川智能宣布开源全球最强医疗大模型Baichuan-M

1月13日消息,百川智能宣布开源新一代医疗大模型 Baichuan-M3,该模型具有强推理

豌豆AI2026-01-13

马斯克宣布下周开源X最新推荐算法,承诺每四周 马斯克宣布下周开源X最新推荐算法,承诺每四周

1 月 11 日消息,马斯克今日宣布,将在一周内正式开源

豌豆AI2026-01-11