欢迎访问深圳市中小企业公共服务平台电子信息窗口

DeepSeek新架构“MODEL1”代码曝光,最快2月发布

2026-01-21 来源:电子工程专辑
63

关键词: DeepSeek MODEL1架构

近日, DeepSeek在GitHub上的代码库更新中,意外曝光了名为“MODEL1”的全新模型架构标识,这被广泛认为是其下一代旗舰模型DeepSeek V4的技术基础。多方信息显示,该模型最快有望于2026年2月中旬,即农历新年期间正式发布。

代码泄露玄机,架构彻底重构

此次曝光源于DeepSeek对其开源推理加速库FlashMLA的更新。在横跨114个文件的代码变动中,出现了28处“MODEL1”标识符,其技术路径与现有的V32(即DeepSeek-V3.2)架构存在显著差异,暗示这是一个经过彻底重构的新设计。

根据泄露的代码信息,新架构的核心革新聚焦于底层性能优化。具体调整涉及键值(KV)缓存布局、稀疏性处理方式以及对FP8数据格式解码的支持等关键技术环节。这些改进旨在针对性解决大模型运行中高内存占用与计算效率的瓶颈,为模型在同等硬件资源下实现更强的性能奠定基础。

发布时间指向春节

关于新模型的发布时间,市场传闻与此次代码更新相互印证。本月初,外媒The Information爆料称,DeepSeek计划在2月中旬农历新年期间推出新一代旗舰AI模型——DeepSeek V4。随后,国内多家媒体也引述知情人士消息确认了这一发布窗口。

有报道称,内部初步测试表明,DeepSeek V4在代码生成与理解能力上已超过市场上的其他顶级模型。此前,DeepSeek于2025年1月发布的推理模型R1已在数学和代码推理上树立了标杆,而V4有望在此基础上实现新的跃升。

国产AI能否再次引领突破?

DeepSeek此番动向引发了国内外科技社区的密切关注。

如果DeepSeek V4能如期发布并兑现其性能承诺,这可能标志着国产大模型首次在编程等核心能力上实现对国际头部模型的全面超越。有海外博主评论称:“如果我们能再迎来像DeepSeek那样的突破性时刻,那将是具有里程碑意义的。”

此外,新架构的优化也顺应了行业降低推理成本的大趋势。英伟达此前已通过其Blackwell架构与TensorRT-LLM的协同优化,将DeepSeek-R1的单Token推理成本大幅降低。DeepSeek自身在模型架构效率上的革新,将进一步推动大语言模型的应用普及。

目前,深度求索公司尚未对“MODEL1”代码曝光及新模型的发布传闻作出任何官方回应。业界正屏息以待,看DeepSeek是否会在2026年新春为世界带来又一次惊喜。