主页 > 豌豆AI > 正文

DeepSeek开年发布新论文:提出全新mHC架构,梁文锋现身作者名单

2026-01-01 17:27:36来源:Techweb编辑:李川峰

扫一扫

分享文章到微信

扫一扫

关注豌豆财经网微信公众号

  IT之家 1 月 1 日消息,北京时间今天下午,DeepSeek 公布了一篇新论文,提出名为 mHC (流形约束超连接)的新架构。根据介绍,该研究旨在解决传统超连接在大规模模型训练中的不稳定性问题,同时保持其显著的性能增益。

  这篇论文的第一作者有三位:Zhenda Xie(解振达)、Yixuan Wei(韦毅轩)、Huanqi Cao。值得一提的是,DeepSeek 创始人兼 CEO 梁文锋也在作者名单之列。

  IT之家附摘要部分大意如下:

  最近,以超连接(HC)为例的研究通过扩展残差流宽度和多样化连接模式,扩展了过去十年建立的无处不在的残差连接范式。虽然产生了显著的性能提升,但这种多样化从根本上损害了残差连接固有的恒等映射属性,从而导致严重的训练不稳定性和受限的可扩展性,并且还会产生显著的内存访问开销。

  为了应对这些挑战,我们提出了流形约束超连接(mHC),这是一个通用框架,可将 HC 的残差连接空间投影到特定的流形上,以恢复恒等映射属性,同时结合严格的基础设施优化以确保效率。

  经验实验表明,mHC 对于大规模训练是有效的,可提供切实的性能改进和卓越的可扩展性。我们预计,mHC 作为 HC 的灵活且实用的扩展,将有助于更深入地理解拓扑架构设计,并为基础模型的演进提出有希望的方向。

     投稿邮箱:lukejiwang@163.com   详情访问豌豆财经网:http://www.wdyxw.com.cn

相关推荐
乐享科技发布具身智能品牌Zeroth元点智能 乐享科技发布具身智能品牌Zeroth元点智能

12月31日消息,2025年的最后一天,苏州乐享智能科技有限公司正式发布具身智能

豌豆AI2025-12-31

闪极科技发布全新AI眼镜loomos L1和 S1,提供个性化 闪极科技发布全新AI眼镜loomos L1和 S1,提供个性化

12月30日消息,闪极科技(SHARGE)推出中国航母联名系列充电产品、全新AI眼镜及

豌豆AI2025-12-30

首个L4级企业管理智能体发布 融和科技廖继全: 首个L4级企业管理智能体发布 融和科技廖继全:

12月26日消息,今日,融和科技正式发布首个L4级企业管理智能体RonAgent,助力广

豌豆AI2025-12-26

知乎发布年度视频 联合14家媒体追问AI时代的“真 知乎发布年度视频 联合14家媒体追问AI时代的“真

12月26日消息,知乎年度视频《2025,到底什么是真的?》 正式上线,视频通过对

豌豆AI2025-12-26

知乎发布年度AI产品榜单:豆包、DeepSeek、Gemini用 知乎发布年度AI产品榜单:豆包、DeepSeek、Gemini用

12月23日消息,近日,知乎发布“年度AI产品榜单”。DeepSeek、Gemini、豆包、Nan

豌豆AI2025-12-23

DeepSeek给出了对寒武纪、摩尔线程、沐曦的投资建 DeepSeek给出了对寒武纪、摩尔线程、沐曦的投资建

一个有趣的问题是:如果AI 有泡沫,为什么不卖出288倍PE的寒武纪,卖出亏损的

豌豆AI2025-12-23

最强编程模型!OpenAI发布GPT-5.2-Codex 最强编程模型!OpenAI发布GPT-5.2-Codex

12月19日消息,OpenAI今天正式推出GPT-5.2-Codex,官方直言这是迄今最先进的智能体

豌豆AI2025-12-19

谷歌“深夜反击”OpenAI:Gemini 3 Flash模型发布,部 谷歌“深夜反击”OpenAI:Gemini 3 Flash模型发布,部

12 月 18 日消息,距离 Gemini 3 Pro 发布不到一个月后的北京时间今天凌晨,谷歌宣

豌豆AI2025-12-18

虎鲸文娱发布tudoo Tbox AI主机 标准版定价1499元 虎鲸文娱发布tudoo Tbox AI主机 标准版定价1499元

12月15日消息,今日,虎鲸文娱集团推出家庭娱乐AI硬件新品牌“tudoo”,并发布

豌豆AI2025-12-15

脉脉发布2025年度人才报告,1-10月新发AI岗位量同 脉脉发布2025年度人才报告,1-10月新发AI岗位量同

12月12日消息,脉脉高聘发布《2025年度人才迁徙报告》(以下简称《报告》)。

豌豆AI2025-12-12