图片

中信建投证券发布的《DeepSeek R1深度解析及算力影响几何》报告聚焦国内模型深度推理发展状况与算力影响。

关注公众号:【互联互通社区】,回复【DEEP007】获取全部报告内容。

图片

DeepSeek的R1模型展现出强大深度推理能力,R1-Zero通过纯粹强化学习证明大语言模型仅靠强化学习也可行,R1在此基础上经多次微调与强化学习优化,在数学、编程等推理任务中成绩优异,还通过蒸馏提升小模型推理能力,且成本较低。

其他模型同样成果显著,Kimi 1.5通过长上下文扩展等创新,在多模态和推理能力上表现卓越,其推理框架和Long2short技术优化了算力;阿里的Qwen2.5系列模型,经高质量数据集构建、上下文训练改进、扩大监督微调数据范围和两阶段强化学习,性能大幅提升,在多个领域领先 。

这些模型实现低算力需求得益于多方面优化,如DeepSeek模型采用高度稀疏架构、FP8混合精度训练框架、流水线并行策略、跨节点无阻通信设计和多token预测技术,实现算法、框架和硬件协同。当前大模型行业从生成式向深度推理型转变,整体需求从预训练向后期训练和推理转移。

尽管部分模型现阶段能以较少算力实现高性能,但从长远看,随着模型发展,在深度推理阶段,对算力的需求仍将呈爆发式增长,因为算力对提升人工智能模型性能至关重要,是推动模型不断进步和拓展应用的关键因素。

精彩推荐

关注互联互通社区公众号,回复以下编号,可快速下载相关专题报告合辑。

DEEP001:Deepseek,国产AI应用的“诺曼底时刻”

DEEP002:DeepSeek,技术颠覆or创新共赢

DEEP003:DeepSeeK开启AI算法变革元年

DEEP004:Deepseek发布R1模型,OpenAI推出智能体“Operator”

DEEP005:DeepSeek:从入门到精通

DEEP006:DeepSeek 15天指导手册——从入门到精通

DEEP007:DeepSeek R1深度解析及算力影响几何

以下是报告部分内容

eac7fa45ea01e0ecef4770ce069e5080.jpeg

229216c45c4d3267ee3597aa620ef37f.jpeg

64efb631c35421bc6799adc2bdabac67.jpeg

9ae23927d095cedec72fa7bb5f18a3eb.jpeg

bd44a46d383f315bc174b109f38185ae.jpeg

c6b5dcc93f119a28122ce1b5a27023b8.jpeg

5a3230ad820d4538abc6ef9b10b10b85.jpeg

83baa5f9ab09b33dbd7173aaf9e229d4.jpeg

9ff4701825aaffa98dd2ba62b4639e87.jpeg

cd82f4e926bbd6d5691170c78c2d3c1b.jpeg

245d7a369104bcb7b8c2097566a0000f.jpeg

5321bd09a04ed2b7e5e0b17c3e353543.jpeg

a5f89a88a829542ff36a36ff027bfe26.jpeg

53e5a0e5ebb79ba8e2bece2a4e3fc13f.jpeg

50e4c85e1bc82f250dc333550cceea0a.jpeg

93bb8c84b7a318177ba380c5302e22e8.jpeg

15825f8b64d14c633a7fe9bc942649a6.jpeg

d627775af15ae789c908fe697e41f492.jpeg

36d96f1b89ccd1e2f090ad145ca59d79.jpeg

声明

来源:中信建投,互联互通社区推荐阅读,版权归作者所有。文章内容仅代表作者独立观点,不代表互联互通社区立场,转载目的在于传递更多信息。如涉及作品版权问题,请联系我们删除或做相关处理!

图片

关注公众号:【互联互通社区】,回复【DEEP007】获取全部报告内容。

图片

更多推荐