主页 > 豌豆AI > 正文

DeepSeek开年发布新论文:提出全新mHC架构,梁文锋现身作者名单

2026-01-01 17:27:36来源:Techweb编辑:李川峰

扫一扫

分享文章到微信

扫一扫

关注豌豆财经网微信公众号

  IT之家 1 月 1 日消息,北京时间今天下午,DeepSeek 公布了一篇新论文,提出名为 mHC (流形约束超连接)的新架构。根据介绍,该研究旨在解决传统超连接在大规模模型训练中的不稳定性问题,同时保持其显著的性能增益。

  这篇论文的第一作者有三位:Zhenda Xie(解振达)、Yixuan Wei(韦毅轩)、Huanqi Cao。值得一提的是,DeepSeek 创始人兼 CEO 梁文锋也在作者名单之列。

  IT之家附摘要部分大意如下:

  最近,以超连接(HC)为例的研究通过扩展残差流宽度和多样化连接模式,扩展了过去十年建立的无处不在的残差连接范式。虽然产生了显著的性能提升,但这种多样化从根本上损害了残差连接固有的恒等映射属性,从而导致严重的训练不稳定性和受限的可扩展性,并且还会产生显著的内存访问开销。

  为了应对这些挑战,我们提出了流形约束超连接(mHC),这是一个通用框架,可将 HC 的残差连接空间投影到特定的流形上,以恢复恒等映射属性,同时结合严格的基础设施优化以确保效率。

  经验实验表明,mHC 对于大规模训练是有效的,可提供切实的性能改进和卓越的可扩展性。我们预计,mHC 作为 HC 的灵活且实用的扩展,将有助于更深入地理解拓扑架构设计,并为基础模型的演进提出有希望的方向。

     投稿邮箱:lukejiwang@163.com   详情访问豌豆财经网:http://www.wdyxw.com.cn

相关推荐
彩讯股份携手稳准智能发布垂直行业数据大模型 彩讯股份携手稳准智能发布垂直行业数据大模型

2月2日消息,日前,彩讯科技股份有限公司(简称:彩讯股份)与稳准智能(雄

豌豆AI2026-02-02

华为云发布“行业AI梦工厂”智慧医疗专区 加速 华为云发布“行业AI梦工厂”智慧医疗专区 加速

2月1日消息,今日,医疗人工智能协同创新论坛暨医疗人工智能联盟(筹)202

豌豆AI2026-02-01

百度开源全新OCR模型 PaddleOCR-VL-1.5,性能超越De 百度开源全新OCR模型 PaddleOCR-VL-1.5,性能超越De

1月30日消息,百度在OCR领域再发力。 29日,百度正式发布并开源新一代文档解析

豌豆AI2026-01-30

斑陌易行发布首款智能配送机器人,以开放协同 斑陌易行发布首款智能配送机器人,以开放协同

1月29日,斑陌易行在iRIC智能制造与机器人国际联创中心(上海总部)举行品牌

豌豆AI2026-01-29

文远知行发布通用仿真模型WeRide GENESIS 文远知行发布通用仿真模型WeRide GENESIS

1月28日,自动驾驶公司文远知行(WeRide)正式发布自研通用仿真模型WeRide GENE

豌豆AI2026-01-28

DeepSeek-OCR 2大模型开源,重塑文档AI的认知逻辑 DeepSeek-OCR 2大模型开源,重塑文档AI的认知逻辑

1月27日消息,深度求索(DeepSeek)团队发布了论文《DeepSeek-OCR 2: Visual Causal Flo

豌豆AI2026-01-27

微软发布新定制AI芯片Maia 200:台积电3nm工艺,性 微软发布新定制AI芯片Maia 200:台积电3nm工艺,性

1 月 27 日消息,微软刚刚在官方博客正式发布了其定制 AI 加速芯片 Maia 200,旨

豌豆AI2026-01-27

TechWeb微晚报:DeepSeek新模型MODEL1曝光,央视曝光 TechWeb微晚报:DeepSeek新模型MODEL1曝光,央视曝光

今日要闻一览: 三星电子有望下半年开始为特斯拉代工AI5芯片 消息称关键设备

豌豆AI2026-01-21

京东发布JoyInside软硬一体化方案,为玩具行业装 京东发布JoyInside软硬一体化方案,为玩具行业装

1月21日消息,京东在江苏宿迁举办AI玩具大会,发布专为智能硬件终端打造的

豌豆AI2026-01-21

小度就“超能小度新音色”发布致歉信:已第一 小度就“超能小度新音色”发布致歉信:已第一

1月21日消息,今日,百度旗下人工智能品牌“小度”在其官方微博发表致歉信,

豌豆AI2026-01-21