端侧大模型推理：新架构突破算力枷锁

近期，硅谷Taalas将大模型「物理焊死」进芯片引发全球关注，而上海交大、辉羲智能与微软亚洲研究院团队更胜一筹，用ROM+SRAM架构使端侧LLM推理速度达20,000 tokens/s。

IT界那些事儿 · 2026-03-02 18:36:11 发布

硅谷初创公司Taalas提出「模型即芯片」方案，芯片运行Llama 3.1 8B速度达17,000 tokens/秒，比英伟达GPU快近10倍。英伟达也将在GTC 2026发布的Feynman架构与Groq LPU技术融合。

交大等团队的ROMA架构采用ROM+SRAM方案。引入只读存储降低访存功耗，用QLoRA机制保证灵活性，架构与物理设计协同优化，实现片上全模型存储，推理性能达20,000 tokens/s。

TOM架构在ROMA基础上，挖掘三值化大模型存储红利。捕捉BitNet硬件友好性，开启「以逻辑代存储」范式，深度合并复用存储逻辑，提升存储密度、削减芯片面积。

在具身智能场景，ROMA提供高确定性实时反馈；在极端环境，ROM架构稳定抗辐射、能耗低；在智能终端，可保护用户隐私。

团队由资深架构师、企业研究员与学术新生代构成，结合实战与理论创新，在大模型范式下实现架构协同突破。上交大CCC聚焦计算挑战，辉羲智能在具身智能领域成果显著。

编辑观点：ROMA与TOM架构为端侧大模型部署开辟新路径，未来有望在多领域广泛应用，推动AI硬件架构变革。

更多推荐

vLLM-v0.17.1效果展示：vLLM在国产海光DCU平台上的ROCm兼容性验证

本文介绍了如何在星图GPU平台上自动化部署vLLM-v0.17.1镜像，实现高效的大语言模型推理服务。该镜像在海光DCU平台上展现出优异的ROCm兼容性，适用于构建高并发的AI问答系统，支持50+用户同时访问且响应时间低于500ms，显著提升服务效率。

VideoAgentTrek-ScreenFilter代码实例：Supervisor自启服务管理实战

本文介绍了如何在星图GPU平台上自动化部署VideoAgentTrek-ScreenFilter镜像，实现基于YOLO的视频/图片屏幕内容检测服务。通过配置Supervisor守护进程，该应用可升级为具备自动重启和状态监控能力的生产级服务，确保检测任务稳定运行。

DeepSeek-OCR-2效果展示：印章覆盖文字、朱砂批注干扰下的鲁棒性识别能力

本文介绍了如何在星图GPU平台自动化部署🖋️ 深求·墨鉴 (DeepSeek-OCR-2)镜像，实现复杂场景下的文字识别。该镜像特别适用于处理带有印章覆盖和朱砂批注干扰的文档数字化，如古籍保护、法律合同等场景，展现出色的鲁棒性和高精度识别能力。

查看更多评论

已为社区贡献15条内容