引言

自 2017 年 Google 提出 Transformer 架构以来,这一技术路线已成为大语言模型(LLM)的绝对主流。在国内,从百度的文心一言到阿里的通义千问,从腾讯的混元到华为的盘古,几乎所有头部厂商的大模型都基于 Transformer 构建。

然而,Transformer 的算力饥渴症也日益凸显——训练成本高昂、推理内存占用随序列长度线性增长。在这样的背景下,非 Transformer 架构的探索开始受到关注。本文将系统梳理国内主流大模型的架构现状,并重点介绍两条非 Transformer 技术路线的前沿进展。


一、Transformer 架构:国内大模型的绝对主流

1.1 主流模型概览

目前国内绝大多数商用大模型均采用 Transformer 或其变体架构:

模型 厂商 架构特点 参数规模
文心一言 (ERNIE) 百度 千亿级 Transformer,融合知识图谱与逻辑推理 千亿级
通义千问 (Qwen) 阿里巴巴 Transformer + MoE(混合专家模型) 0.5B ~ 235B
混元大模型 腾讯 Transformer,针对社交与游戏场景优化 万亿级
盘古大模型 华为 纯国产昇腾芯片 + 昇思框架,Transformer 架构 千亿级
DeepSeek DeepSeek MoE 架构,开源高效 671B (MoE)
Kimi 月之暗面 Transformer,长文本处理能力突出 千亿级
豆包 字节跳动 Transformer 架构 千亿级

这些模型虽然在训练策略(如 RLHF)、模型结构细节(如是否使用 MoE)上有所差异,但底层都基于 Transformer 的自注意力机制(Self-Attention)

1.2 Transformer 的困境

尽管 Transformer 取得了巨大成功,但其固有缺陷也日益明显:

  • 计算复杂度高:自注意力机制的计算复杂度为 O ( n 2 ) O(n^2) O(n2),随序列长度平方增长
  • 内存占用大:推理时显存占用随序列长度线性增加
  • 训练成本高昂:大模型训练需要海量算力资源
  • 端侧部署困难:难以在低算力设备(如手机、IoT 设备)上运行

正是这些痛点,催生了非 Transformer 架构的探索。


二、非 Transformer 架构的破冰者

2.1 Yan 架构:国内首个通过备案的非 Transformer 大模型

岩芯数智(RockAI) 推出的 Yan 架构 是国内非 Transformer 路线最具代表性的成果。

核心技术创新

Yan 架构完全摒弃了 Transformer 的 Attention 机制,采用两大底层原理:

  1. MCSD(Multi-Channel Slope and Decay,多通道斜率与衰减)

    • 替换 Transformer 中的 Attention 模块
    • 实现快速训练和推理,高效特征提取
    • 解决推理时内存占用逐渐增加的问题
  2. 类脑激活机制

    • 模拟大脑神经元的选择性激活模式
    • 计算时只激活部分参数,减少算力冗余
    • 大幅降低计算复杂度
性能表现
指标 Yan 架构 同等参数 Transformer
训练效率 7倍提升 基准
推理吞吐量 5倍提升 基准
记忆能力 3倍提升 基准
端侧部署 CPU 无损运行 依赖 GPU

实测数据:Yan 1.3(3B 参数)在多项基准测试中表现优于 Meta Llama 3(8B 参数),尤其在 WinoGrande(代词消解)和 HellaSwag(常识推理)任务上得分更高。

发展历程
  • 2024年1月:发布 Yan 1.0,国内首个非 Attention 机制大模型
  • 2024年7月:发布 Yan 1.2,国内首个非 Transformer 架构终端多模态大模型
  • 2024年9月:发布 Yan 1.3,群体智能单元大模型,支持机器人、无人机、PC、手机等多终端
  • 2024年12月:通过网信办备案,成为国内首个通过备案的非 Transformer 架构大模型
  • 2025年:Yan 2.0 Preview 版本发布,完善多模态能力
落地应用

Yan 架构的核心优势在于端侧部署能力

  • 机器人领域:与乐聚机器人合作,在英特尔酷睿 i3/i7 平台上实现离线部署
  • PC 领域:搭载 Yan 1.3 的 PC 产品在 MWC Barcelona 2025 发布
  • 医疗领域:生成式智慧病历系统已在医院上线
  • 边缘设备:可在树莓派 5 代芯片上流畅运行,支持实时多模态交互

技术价值:Yan 架构证明了在算力受限环境下,非 Transformer 路线的可行性,为 AI 普惠化提供了新路径。


2.2 瞬悉 1.0:类脑脉冲神经网络的新路线

中国科学院自动化研究所 李国齐、徐波团队于 2025 年发布的 “瞬悉 1.0”(SpikingBrain-1.0),代表了另一条非 Transformer 技术路线。

架构特点
  • 类脑脉冲神经网络(Spiking Neural Network, SNN)
  • 借鉴大脑神经元内部工作机制,采用"内生复杂性"理论
  • 神经元模型更接近生物神经元的动态特性
核心优势
  1. 数据效率极高:仅需主流模型 2% 的数据量即可达到媲美性能
  2. 无视"规模法则":不必依赖增大模型规模来提升智能水平
  3. 超长序列处理:在法律/医学文档分析、DNA 序列分析等场景具有显著效率优势
  4. 国产算力适配:已在国产千卡 GPU 算力平台上完成全流程训练和推理
技术意义

"瞬悉 1.0"是我国首次提出大规模类脑线性基础模型架构,为新一代人工智能发展提供了非 Transformer 架构的新技术路线,并将启迪更低功耗的下一代神经形态计算理论和芯片设计。


三、国际非 Transformer 架构参考

虽然本文聚焦国内,但以下国际架构也为国内研究提供了重要参考:

架构 类型 核心特点 代表模型
Mamba 状态空间模型 (SSM) 选择性状态空间,线性复杂度 O ( n ) O(n) O(n) Mamba-2, MiniMax-01
RWKV RNN 变体 WKV 算子,训练推理双高效 RWKV-6
RetNet Retention 机制 替代 Attention,并行/循环双模式 RetNet-1B

值得注意的是,岩芯数智 CEO 刘凡平曾表示,Yan 架构的实测数据比 Mamba 表现更好。


四、架构对比与选型建议

4.1 架构特性对比

维度 Transformer Yan 架构 类脑脉冲 (瞬悉)
计算复杂度 O ( n 2 ) O(n^2) O(n2) O ( n ) O(n) O(n) O ( n ) O(n) O(n)
训练成本 低(1/7) 极低(数据量 2%)
推理效率 中等 高(5倍吞吐)
长文本处理 受限 优秀 极优秀
端侧部署 困难 极易(CPU 无损) 待验证
生态成熟度 极高 growing 早期
多模态支持 成熟 成熟 发展中

4.2 选型建议

  • 追求极致性能与生态:选择 Transformer(如 Qwen、DeepSeek)
  • 端侧/边缘部署场景:优先考虑 Yan 架构
  • 超长序列/低数据场景:关注类脑脉冲架构进展
  • 混合架构:腾讯混元 T1 已采用 Transformer + Mamba 混合架构,可能是中期趋势

五、未来展望

5.1 短期趋势(1-2年)

  • Transformer 仍占主导:头部厂商的核心模型将继续基于 Transformer
  • 非 Transformer 商业化加速:Yan 架构等将在端侧、垂直领域快速落地
  • 混合架构兴起:Transformer + SSM/RNN 的混合设计可能成为平衡性能与效率的最优解

5.2 中长期趋势(3-5年)

  • 架构多元化:随着端侧 AI、具身智能、AI Agent 的发展,单一架构难以满足所有场景
  • 类脑计算突破:脉冲神经网络等类脑架构可能在特定领域(如机器人控制、时序预测)实现超越
  • 国产自主可控:非 Transformer 路线为国产 AI 芯片适配提供了新的优化空间

结语

国内大模型架构正呈现"一超多强"的格局:Transformer 仍是绝对主流,但 Yan 架构、类脑脉冲架构等非 Transformer 路线已开始破冰。

这种多元化探索具有重要意义:它不仅为降低 AI 应用门槛、实现端侧智能提供了技术可能,更为国产 AI 的自主可控发展开辟了新路径。对于技术从业者而言,关注这些新兴架构的发展,或许能在下一轮技术变革中占据先机。


参考链接:


本文技术细节基于公开资料整理,如有更新请以官方发布为准。

更多推荐