国内主流大模型架构全景:Transformer 一统天下,非 Transformer 架构悄然崛起
国内大模型主要采用Transformer架构,但其高计算复杂度和内存占用问题催生了非Transformer路线的探索。岩芯数智的Yan架构通过MCSD和类脑激活机制实现高效训练和推理,性能优于同等参数Transformer模型,并已成功应用于机器人、医疗等领域。中科院的"瞬悉1.0"采用类脑脉冲神经网络,数据效率极高且适配国产算力。国际上的Mamba、RWKV等架构也为国内研究
引言
自 2017 年 Google 提出 Transformer 架构以来,这一技术路线已成为大语言模型(LLM)的绝对主流。在国内,从百度的文心一言到阿里的通义千问,从腾讯的混元到华为的盘古,几乎所有头部厂商的大模型都基于 Transformer 构建。
然而,Transformer 的算力饥渴症也日益凸显——训练成本高昂、推理内存占用随序列长度线性增长。在这样的背景下,非 Transformer 架构的探索开始受到关注。本文将系统梳理国内主流大模型的架构现状,并重点介绍两条非 Transformer 技术路线的前沿进展。
一、Transformer 架构:国内大模型的绝对主流
1.1 主流模型概览
目前国内绝大多数商用大模型均采用 Transformer 或其变体架构:
| 模型 | 厂商 | 架构特点 | 参数规模 |
|---|---|---|---|
| 文心一言 (ERNIE) | 百度 | 千亿级 Transformer,融合知识图谱与逻辑推理 | 千亿级 |
| 通义千问 (Qwen) | 阿里巴巴 | Transformer + MoE(混合专家模型) | 0.5B ~ 235B |
| 混元大模型 | 腾讯 | Transformer,针对社交与游戏场景优化 | 万亿级 |
| 盘古大模型 | 华为 | 纯国产昇腾芯片 + 昇思框架,Transformer 架构 | 千亿级 |
| DeepSeek | DeepSeek | MoE 架构,开源高效 | 671B (MoE) |
| Kimi | 月之暗面 | Transformer,长文本处理能力突出 | 千亿级 |
| 豆包 | 字节跳动 | Transformer 架构 | 千亿级 |
这些模型虽然在训练策略(如 RLHF)、模型结构细节(如是否使用 MoE)上有所差异,但底层都基于 Transformer 的自注意力机制(Self-Attention)。
1.2 Transformer 的困境
尽管 Transformer 取得了巨大成功,但其固有缺陷也日益明显:
- 计算复杂度高:自注意力机制的计算复杂度为 O ( n 2 ) O(n^2) O(n2),随序列长度平方增长
- 内存占用大:推理时显存占用随序列长度线性增加
- 训练成本高昂:大模型训练需要海量算力资源
- 端侧部署困难:难以在低算力设备(如手机、IoT 设备)上运行
正是这些痛点,催生了非 Transformer 架构的探索。
二、非 Transformer 架构的破冰者
2.1 Yan 架构:国内首个通过备案的非 Transformer 大模型
岩芯数智(RockAI) 推出的 Yan 架构 是国内非 Transformer 路线最具代表性的成果。
核心技术创新
Yan 架构完全摒弃了 Transformer 的 Attention 机制,采用两大底层原理:
-
MCSD(Multi-Channel Slope and Decay,多通道斜率与衰减)
- 替换 Transformer 中的 Attention 模块
- 实现快速训练和推理,高效特征提取
- 解决推理时内存占用逐渐增加的问题
-
类脑激活机制
- 模拟大脑神经元的选择性激活模式
- 计算时只激活部分参数,减少算力冗余
- 大幅降低计算复杂度
性能表现
| 指标 | Yan 架构 | 同等参数 Transformer |
|---|---|---|
| 训练效率 | 7倍提升 | 基准 |
| 推理吞吐量 | 5倍提升 | 基准 |
| 记忆能力 | 3倍提升 | 基准 |
| 端侧部署 | CPU 无损运行 | 依赖 GPU |
实测数据:Yan 1.3(3B 参数)在多项基准测试中表现优于 Meta Llama 3(8B 参数),尤其在 WinoGrande(代词消解)和 HellaSwag(常识推理)任务上得分更高。
发展历程
- 2024年1月:发布 Yan 1.0,国内首个非 Attention 机制大模型
- 2024年7月:发布 Yan 1.2,国内首个非 Transformer 架构终端多模态大模型
- 2024年9月:发布 Yan 1.3,群体智能单元大模型,支持机器人、无人机、PC、手机等多终端
- 2024年12月:通过网信办备案,成为国内首个通过备案的非 Transformer 架构大模型
- 2025年:Yan 2.0 Preview 版本发布,完善多模态能力
落地应用
Yan 架构的核心优势在于端侧部署能力:
- 机器人领域:与乐聚机器人合作,在英特尔酷睿 i3/i7 平台上实现离线部署
- PC 领域:搭载 Yan 1.3 的 PC 产品在 MWC Barcelona 2025 发布
- 医疗领域:生成式智慧病历系统已在医院上线
- 边缘设备:可在树莓派 5 代芯片上流畅运行,支持实时多模态交互
技术价值:Yan 架构证明了在算力受限环境下,非 Transformer 路线的可行性,为 AI 普惠化提供了新路径。
2.2 瞬悉 1.0:类脑脉冲神经网络的新路线
中国科学院自动化研究所 李国齐、徐波团队于 2025 年发布的 “瞬悉 1.0”(SpikingBrain-1.0),代表了另一条非 Transformer 技术路线。
架构特点
- 类脑脉冲神经网络(Spiking Neural Network, SNN)
- 借鉴大脑神经元内部工作机制,采用"内生复杂性"理论
- 神经元模型更接近生物神经元的动态特性
核心优势
- 数据效率极高:仅需主流模型 2% 的数据量即可达到媲美性能
- 无视"规模法则":不必依赖增大模型规模来提升智能水平
- 超长序列处理:在法律/医学文档分析、DNA 序列分析等场景具有显著效率优势
- 国产算力适配:已在国产千卡 GPU 算力平台上完成全流程训练和推理
技术意义
"瞬悉 1.0"是我国首次提出大规模类脑线性基础模型架构,为新一代人工智能发展提供了非 Transformer 架构的新技术路线,并将启迪更低功耗的下一代神经形态计算理论和芯片设计。
三、国际非 Transformer 架构参考
虽然本文聚焦国内,但以下国际架构也为国内研究提供了重要参考:
| 架构 | 类型 | 核心特点 | 代表模型 |
|---|---|---|---|
| Mamba | 状态空间模型 (SSM) | 选择性状态空间,线性复杂度 O ( n ) O(n) O(n) | Mamba-2, MiniMax-01 |
| RWKV | RNN 变体 | WKV 算子,训练推理双高效 | RWKV-6 |
| RetNet | Retention 机制 | 替代 Attention,并行/循环双模式 | RetNet-1B |
值得注意的是,岩芯数智 CEO 刘凡平曾表示,Yan 架构的实测数据比 Mamba 表现更好。
四、架构对比与选型建议
4.1 架构特性对比
| 维度 | Transformer | Yan 架构 | 类脑脉冲 (瞬悉) |
|---|---|---|---|
| 计算复杂度 | O ( n 2 ) O(n^2) O(n2) | O ( n ) O(n) O(n) | O ( n ) O(n) O(n) |
| 训练成本 | 高 | 低(1/7) | 极低(数据量 2%) |
| 推理效率 | 中等 | 高(5倍吞吐) | 高 |
| 长文本处理 | 受限 | 优秀 | 极优秀 |
| 端侧部署 | 困难 | 极易(CPU 无损) | 待验证 |
| 生态成熟度 | 极高 | growing | 早期 |
| 多模态支持 | 成熟 | 成熟 | 发展中 |
4.2 选型建议
- 追求极致性能与生态:选择 Transformer(如 Qwen、DeepSeek)
- 端侧/边缘部署场景:优先考虑 Yan 架构
- 超长序列/低数据场景:关注类脑脉冲架构进展
- 混合架构:腾讯混元 T1 已采用 Transformer + Mamba 混合架构,可能是中期趋势
五、未来展望
5.1 短期趋势(1-2年)
- Transformer 仍占主导:头部厂商的核心模型将继续基于 Transformer
- 非 Transformer 商业化加速:Yan 架构等将在端侧、垂直领域快速落地
- 混合架构兴起:Transformer + SSM/RNN 的混合设计可能成为平衡性能与效率的最优解
5.2 中长期趋势(3-5年)
- 架构多元化:随着端侧 AI、具身智能、AI Agent 的发展,单一架构难以满足所有场景
- 类脑计算突破:脉冲神经网络等类脑架构可能在特定领域(如机器人控制、时序预测)实现超越
- 国产自主可控:非 Transformer 路线为国产 AI 芯片适配提供了新的优化空间
结语
国内大模型架构正呈现"一超多强"的格局:Transformer 仍是绝对主流,但 Yan 架构、类脑脉冲架构等非 Transformer 路线已开始破冰。
这种多元化探索具有重要意义:它不仅为降低 AI 应用门槛、实现端侧智能提供了技术可能,更为国产 AI 的自主可控发展开辟了新路径。对于技术从业者而言,关注这些新兴架构的发展,或许能在下一轮技术变革中占据先机。
参考链接:
本文技术细节基于公开资料整理,如有更新请以官方发布为准。
更多推荐
所有评论(0)