华为宣布将于8月12日在“2025金融AI推理应用落地与发展论坛”上发布一项AI推理领域的突破性技术成果。据多方消息证实,该成果有望降低中国AI推理对高带宽内存(HBM)技术的依赖,同时提升国内大模型推理性能,进一步完善国产AI推理生态。

这项技术突破的背景直指当前AI算力领域的关键瓶颈——内存带宽。在AI大模型推理任务中,传统DDR内存已无法满足指数级增长的数据传输需求,而HBM通过3D堆叠技术实现了带宽的飞跃。最新HBM3E带宽可达819GB/s,较DDR5提升超过5倍,但其成本在AI服务器中占比高达20%-30%,成为仅次于AI芯片的第二大支出项。华为此次技术突破,正是针对这一核心制约环节的创新。

从技术积累看,华为此次发布并非孤立事件。今年3月,北京大学与华为联合推出了DeepSeek全栈开源推理方案,该方案整合了昇腾算力平台、MindSpore框架及vLLM等组件,已实现在昇腾硬件上的高效推理。而新成果可能是在此基础上,通过对计算架构、内存调度或算法优化的深度创新,部分规避了对先进HBM的强依赖,同时维持甚至提升推理效率。

业界分析指出,若成果落地将带来双重价值:

  • 在技术自主性层面,降低对特定存储技术的依赖可增强供应链安全性;

  • 在应用生态层面,推理效率的提升将直接加速AI在金融等高实时性场景的落地进程。

金融领域因其对低延迟、高准确性的严苛要求,成为检验AI推理能力的试金石。华为选择在金融AI论坛进行发布,也暗示该技术可能已在金融风控、高频交易等场景通过验证。

值得关注的是,此次突破发生在全球AI算力竞争白热化的背景下——OpenAI刚刚发布GPT-5并推进商业部署,特斯拉转向专用推理芯片研发,而百度也预告将于月底推出新一代推理模型。在这一轮竞赛中,华为的进展标志着国产AI基础设施在性能与自主可控平衡上迈出关键一步,其实际技术路径与性能指标有待明日揭晓。

更多推荐