马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要 登录 才可以下载或查看,没有账号?立即注册
×
2026年4月发布的五款(LLM)架构
团体来看,各大模子在向更大的参数规模迈进的同时,正在通过极其激进的肴杂专家(MoE)奇怪化、留意力机制创新以及超长上下文支持来低沉推理本钱并提拔服从。
以下是对图中五款模子架构的详细解读:
1. Gemma 4 (31B)
作为一款310亿参数的稠密(Dense)模子,Gemma 4 在布局上举行了精致的留意力机制优化。
- 根本规格:词表巨细 262k,支持 256k tokens 的上下文长度,共 60 层(Layers)。
- 核心创新:采取了 5:1 的局部(Local)与全局(Global)留意力比例。局部留意力包罗32个留意力头,全局留意力包罗32个留意力头及4个键值头(Key & Value heads)。
- 其他细节:嵌入维度(Embedding dim)为 5,376,前馈网络(FFN)中心层维度为 21,504,并利用了 QK-Norm 和 RoPE(旋转位置编码)。
2. Qwen3.6 (35B-A3B)
这是一款总参数目350亿,但推理时激活参数仅为30亿(3B)的高效 MoE 模子。
- 根本规格:词表巨细 248k,支持 262k 上下文长度(可扩展至 1M tokens),共 40 层。
- 核心创新:肴杂留意力架构。它将“门控 DeltaNet”(线性留意力)与“门控留意力”(全留意力)按照 3:1 的比例肴杂利用(比方前三层为线性留意力+MoE,第四层为全留意力+MoE),以此在长文本处置惩罚服从和全局明确本领之间取得均衡。
- MoE 布局:拥有高达 256 个专家(Experts)。
3. GLM-5.1 (744B)
智谱的这款千亿级模子展示了早期层与深层架构的区别化筹划。
- 根本规格:总参数目 7440亿,推理时激活参数仅 400亿(40B)。词表巨细 155k,支持 202k 上下文,共 78 层。
- 核心创新:前3个模块采取稠密前馈网络(Dense FFN),隐蔽层巨细为 12,288;之后的层才利用 MoE 架构。
- MoE 布局:采取 8 个平凡专家 + 1 个共享专家的模式(Shared Expert)。
4. Kimi K2.6 (1T)
月之暗面(Moonshot)推出的万亿参数模子,将奇怪性推向了极致。
- 根本规格:总参数目达 1万亿(1T),但每次推理仅激活 320亿(32B)参数。词表巨细 160k,支持 256k 上下文,共 61 层。
- 核心创新:与 GLM 雷同,它的第1层利用了稠密 FFN(隐蔽层巨细 18,432),后续层利用 MoE。
- MoE 布局:同样采取 8 个平凡专家 + 1 个共享专家。
5. DeepSeek V4-Pro (1.6T)
图中占据最大篇幅的旗舰模子,总参数目高达 1.6 万亿,架构最为复杂前卫。
- 根本规格:每次推理激活 490亿(49B)参数。词表巨细 129k,支持高达 1M tokens 的超长上下文,共 61 层,128个留意力头。
- 核心创新:
- mhC(流形束缚超毗连 / manifold-constrained hyper-connections):更换了平凡的残差毗连($x + F(x)$),采取具有4条并行残差流的多流肴杂布局。
- 基于哈希的 MoE(Hash-based MoE):前3层没有利用传统的 Learned Top-k 路由,而是利用了哈希路由技能。
- MoE 布局:采取 6 个平凡专家 + 1 个共享专家。
架构演进趋势总结
- 极致的 MoE 奇怪化:万亿级模子(如 Kimi K2.6、DeepSeek V4-Pro)已成为常态,但它们的“激活参数率”极低(通常在 3% 左右)。1.6T 模子只需激活 49B,这意味着只需较小的算力即可运行万亿级知识库。
- 异构层筹划(Heterogeneous Layers):不再是全部层都如出一辙。GLM、Kimi 和 DeepSeek 都在模子的最前几层放弃了标准 MoE,改为利用 Dense FFN 或 Hash-based MoE,以捕捉更根本的浅层特性。
- 留意力机制的“混搭”:Qwen 3.6 的“线性+全留意力” 3:1 肴杂,以及 Gemma 的“局部+全局” 5:1 肴杂,阐明学术界和工业界正在想尽办法突破标准 Transformer 中 $O(N^2)$ 的盘算瓶颈。
- “共享专家(Shared Expert)”成为标配:GLM、Kimi、DeepSeek 均采取了 N个平凡专家 + 1个共享专家 的 MoE 路由计谋,这有助于生存通用知识,防止专家坍塌。
|