近期,硅谷Taalas将大模型「物理焊死」进芯片引发全球关注,而上海交大、辉羲智能与微软亚洲研究院团队更胜一筹,用ROM+SRAM架构使端侧LLM推理速度达20,000 tokens/s。

业界新动态

硅谷初创公司Taalas提出「模型即芯片」方案,芯片运行Llama 3.1 8B速度达17,000 tokens/秒,比英伟达GPU快近10倍。英伟达也将在GTC 2026发布的Feynman架构与Groq LPU技术融合。

ROMA架构创新

交大等团队的ROMA架构采用ROM+SRAM方案。引入只读存储降低访存功耗,用QLoRA机制保证灵活性,架构与物理设计协同优化,实现片上全模型存储,推理性能达20,000 tokens/s。

TOM架构升级

TOM架构在ROMA基础上,挖掘三值化大模型存储红利。捕捉BitNet硬件友好性,开启「以逻辑代存储」范式,深度合并复用存储逻辑,提升存储密度、削减芯片面积。

应用场景优势

在具身智能场景,ROMA提供高确定性实时反馈;在极端环境,ROM架构稳定抗辐射、能耗低;在智能终端,可保护用户隐私。

研究团队实力

团队由资深架构师、企业研究员与学术新生代构成,结合实战与理论创新,在大模型范式下实现架构协同突破。上交大CCC聚焦计算挑战,辉羲智能在具身智能领域成果显著。

编辑观点:ROMA与TOM架构为端侧大模型部署开辟新路径,未来有望在多领域广泛应用,推动AI硬件架构变革。

更多推荐