科技 > 人工智能 > 正文

DeepSeek开年发布新论文：提出全新mHC架构，梁文锋现身作者名单

IT之家

下载客户端
独家抢先看

2026年01月01日 17:08:44 来自山东

IT之家 1 月 1 日消息，北京时间今天下午，DeepSeek 公布了一篇新论文，提出名为 mHC （流形约束超连接）的新架构。根据介绍，该研究旨在解决传统超连接在大规模模型训练中的不稳定性问题，同时保持其显著的性能增益。

这篇论文的第一作者有三位：Zhenda Xie（解振达）、Yixuan Wei（韦毅轩）、Huanqi Cao。值得一提的是，DeepSeek 创始人兼 CEO 梁文锋也在作者名单之列。

IT之家附摘要部分大意如下：

最近，以超连接（HC）为例的研究通过扩展残差流宽度和多样化连接模式，扩展了过去十年建立的无处不在的残差连接范式。虽然产生了显著的性能提升，但这种多样化从根本上损害了残差连接固有的恒等映射属性，从而导致严重的训练不稳定性和受限的可扩展性，并且还会产生显著的内存访问开销。

为了应对这些挑战，我们提出了流形约束超连接（mHC），这是一个通用框架，可将 HC 的残差连接空间投影到特定的流形上，以恢复恒等映射属性，同时结合严格的基础设施优化以确保效率。

经验实验表明，mHC 对于大规模训练是有效的，可提供切实的性能改进和卓越的可扩展性。我们预计，mHC 作为 HC 的灵活且实用的扩展，将有助于更深入地理解拓扑架构设计，并为基础模型的演进提出有希望的方向。

论文链接

Hugging Face：https://huggingface.co/papers/2512.24880

Arxiv：https://arxiv.org/abs/2512.24880

“特别声明：以上作品内容(包括在内的视频、图片或音频)为凤凰网旗下自媒体平台“大风号”用户上传并发布，本平台仅提供信息存储空间服务。

Notice: The content above (including the videos, pictures and audios if any) is uploaded and posted by the user of Dafeng Hao, which is a social media platform and merely provides information storage space services.”

DeepSeek开年发布新论文：提出全新mHC架构，梁文锋现身作者名单

亲爱的凤凰网用户:

第三方浏览器推荐: