IT之家 1 月 21 日消息,新模型曝新架The 光M构最Information 月初爆料称,DeepSeek 将在今年 2 月中旬农历新年期间推出新一代旗舰 AI 模型 ——DeepSeek V4,代码将具备更强的预示写代码能力。
1 月 20 日,望月正值 DeepSeek-R1 发布一周年之际,发布有开发者发现 DeepSeek 在 GitHub 中更新了一系列 FlashMLA 代码,新模型曝新架横跨 114 个文件中有 28 处都提到了未知的光M构最“MODEL1”大模型标识符。
![]()
该标识符与已知的现有模型“V32”(即 DeepSeek-V3.2)被并列或区别提及。根据代码上下文分析,预示“MODEL1”很可能代表一个不同于现有架构的望月新模型。
开发者分析认为,发布“MODEL1”与“V32”在关键技术上存在区别,新模型曝新架主要体现在键值(KV)缓存的光M构最布局、稀疏性处理方式以及对 FP8 数据格式的代码解码支持等方面。这些差异表明新架构可能在内存优化和计算效率上进行了针对性设计。
此前,DeepSeek 研究团队还陆续发布了两篇技术论文,分别介绍了名为“优化残差连接(mHC)”的新训练方法,以及一种受生物学启发的“AI 记忆模块(Engram)”。这一举动不禁引起用户猜测,DeepSeek 正在开发中的新模型有可能会整合这些最新的研究成果。敬请期待。
版权声明:除非特别标注,否则均为本站原创文章,转载时请以链接形式注明文章出处。


评论列表
20岁时那种“经得起折腾”的活力,曾是许多人习以为常的资本。那时候,无论是通宵加班还是彻夜狂欢,身体总能迅速“回血”,第二天照样生龙活虎。然而人过40,这种轻盈感往往消失殆尽,取而代之的是挥之不去的疲
2026-02-21 11:03机器人,站到了舞台中央!在美国拉斯维加斯的2026年国际消费电子展会CES)上,英伟达NVIDIA)的CEO黄仁勋再度站上全球科技行业的舞台中央。他用一场长达90分钟的演讲,向外界宣告人工智能正式迈入
2026-02-21 10:32有时候,原著只是提供了一个好创意和基本的剧情和人物框架,能看得出文本的价值,明白是否适合影视化,该如何影视化,是影视工作者的功力所在■兔美前不久某部小说改编影视剧播出,拍摄、制作都显高级,服化道也极尽
2026-02-21 09:19作者:田可新9月5日晚,保利山东省会大剧院座无虚席,舞蹈诗剧《只此青绿》迎来第800场演出。自2021年8月在国家大剧院首演,《只此青绿》一路“圈粉”,不仅在国内70余座城市热演,还走出国门,登上国际
2026-02-21 09:09