国内主流大模型架构全景：Transformer 一统天下，非 Transformer 架构悄然崛起

国内大模型主要采用Transformer架构，但其高计算复杂度和内存占用问题催生了非Transformer路线的探索。岩芯数智的Yan架构通过MCSD和类脑激活机制实现高效训练和推理，性能优于同等参数Transformer模型，并已成功应用于机器人、医疗等领域。中科院的"瞬悉1.0"采用类脑脉冲神经网络，数据效率极高且适配国产算力。国际上的Mamba、RWKV等架构也为国内研究

冷小鱼

660人浏览 · 2026-03-10 15:20:34

冷小鱼 · 2026-03-10 15:20:34 发布

引言

自 2017 年 Google 提出 Transformer 架构以来，这一技术路线已成为大语言模型（LLM）的绝对主流。在国内，从百度的文心一言到阿里的通义千问，从腾讯的混元到华为的盘古，几乎所有头部厂商的大模型都基于 Transformer 构建。

然而，Transformer 的算力饥渴症也日益凸显——训练成本高昂、推理内存占用随序列长度线性增长。在这样的背景下，非 Transformer 架构的探索开始受到关注。本文将系统梳理国内主流大模型的架构现状，并重点介绍两条非 Transformer 技术路线的前沿进展。

一、Transformer 架构：国内大模型的绝对主流

1.1 主流模型概览

目前国内绝大多数商用大模型均采用 Transformer 或其变体架构：

模型	厂商	架构特点	参数规模
文心一言 (ERNIE)	百度	千亿级 Transformer，融合知识图谱与逻辑推理	千亿级
通义千问 (Qwen)	阿里巴巴	Transformer + MoE（混合专家模型）	0.5B ~ 235B
混元大模型	腾讯	Transformer，针对社交与游戏场景优化	万亿级
盘古大模型	华为	纯国产昇腾芯片 + 昇思框架，Transformer 架构	千亿级
DeepSeek	DeepSeek	MoE 架构，开源高效	671B (MoE)
Kimi	月之暗面	Transformer，长文本处理能力突出	千亿级
豆包	字节跳动	Transformer 架构	千亿级

这些模型虽然在训练策略（如 RLHF）、模型结构细节（如是否使用 MoE）上有所差异，但底层都基于 Transformer 的自注意力机制（Self-Attention）。

1.2 Transformer 的困境

尽管 Transformer 取得了巨大成功，但其固有缺陷也日益明显：

计算复杂度高：自注意力机制的计算复杂度为 $O(n^2)$ ，随序列长度平方增长
内存占用大：推理时显存占用随序列长度线性增加
训练成本高昂：大模型训练需要海量算力资源
端侧部署困难：难以在低算力设备（如手机、IoT 设备）上运行

正是这些痛点，催生了非 Transformer 架构的探索。

二、非 Transformer 架构的破冰者

2.1 Yan 架构：国内首个通过备案的非 Transformer 大模型

岩芯数智（RockAI） 推出的 Yan 架构 是国内非 Transformer 路线最具代表性的成果。

核心技术创新

Yan 架构完全摒弃了 Transformer 的 Attention 机制，采用两大底层原理：

MCSD（Multi-Channel Slope and Decay，多通道斜率与衰减）
- 替换 Transformer 中的 Attention 模块
- 实现快速训练和推理，高效特征提取
- 解决推理时内存占用逐渐增加的问题
类脑激活机制
- 模拟大脑神经元的选择性激活模式
- 计算时只激活部分参数，减少算力冗余
- 大幅降低计算复杂度

性能表现

指标	Yan 架构	同等参数 Transformer
训练效率	7倍提升	基准
推理吞吐量	5倍提升	基准
记忆能力	3倍提升	基准
端侧部署	CPU 无损运行	依赖 GPU

实测数据：Yan 1.3（3B 参数）在多项基准测试中表现优于 Meta Llama 3（8B 参数），尤其在 WinoGrande（代词消解）和 HellaSwag（常识推理）任务上得分更高。

发展历程

2024年1月：发布 Yan 1.0，国内首个非 Attention 机制大模型
2024年7月：发布 Yan 1.2，国内首个非 Transformer 架构终端多模态大模型
2024年9月：发布 Yan 1.3，群体智能单元大模型，支持机器人、无人机、PC、手机等多终端
2024年12月：通过网信办备案，成为国内首个通过备案的非 Transformer 架构大模型
2025年：Yan 2.0 Preview 版本发布，完善多模态能力

落地应用

Yan 架构的核心优势在于端侧部署能力：

机器人领域：与乐聚机器人合作，在英特尔酷睿 i3/i7 平台上实现离线部署
PC 领域：搭载 Yan 1.3 的 PC 产品在 MWC Barcelona 2025 发布
医疗领域：生成式智慧病历系统已在医院上线
边缘设备：可在树莓派 5 代芯片上流畅运行，支持实时多模态交互

技术价值：Yan 架构证明了在算力受限环境下，非 Transformer 路线的可行性，为 AI 普惠化提供了新路径。

2.2 瞬悉 1.0：类脑脉冲神经网络的新路线

中国科学院自动化研究所 李国齐、徐波团队于 2025 年发布的 “瞬悉 1.0”（SpikingBrain-1.0），代表了另一条非 Transformer 技术路线。

架构特点

类脑脉冲神经网络（Spiking Neural Network, SNN）
借鉴大脑神经元内部工作机制，采用"内生复杂性"理论
神经元模型更接近生物神经元的动态特性

核心优势

数据效率极高：仅需主流模型 2% 的数据量即可达到媲美性能
无视"规模法则"：不必依赖增大模型规模来提升智能水平
超长序列处理：在法律/医学文档分析、DNA 序列分析等场景具有显著效率优势
国产算力适配：已在国产千卡 GPU 算力平台上完成全流程训练和推理

技术意义

"瞬悉 1.0"是我国首次提出大规模类脑线性基础模型架构，为新一代人工智能发展提供了非 Transformer 架构的新技术路线，并将启迪更低功耗的下一代神经形态计算理论和芯片设计。

三、国际非 Transformer 架构参考

虽然本文聚焦国内，但以下国际架构也为国内研究提供了重要参考：

架构	类型	核心特点	代表模型
Mamba	状态空间模型 (SSM)	选择性状态空间，线性复杂度 $O (n)$	Mamba-2, MiniMax-01
RWKV	RNN 变体	WKV 算子，训练推理双高效	RWKV-6
RetNet	Retention 机制	替代 Attention，并行/循环双模式	RetNet-1B

值得注意的是，岩芯数智 CEO 刘凡平曾表示，Yan 架构的实测数据比 Mamba 表现更好。

四、架构对比与选型建议

4.1 架构特性对比

维度	Transformer	Yan 架构	类脑脉冲 (瞬悉)
计算复杂度	$O(n^2)$	$O (n)$	$O (n)$
训练成本	高	低（1/7）	极低（数据量 2%）
推理效率	中等	高（5倍吞吐）	高
长文本处理	受限	优秀	极优秀
端侧部署	困难	极易（CPU 无损）	待验证
生态成熟度	极高	growing	早期
多模态支持	成熟	成熟	发展中