DeepSeek开源周合集
DeepSeek认知之旅》文档链接:https://kcnrgc2yrax7.feishu.cn/docx/AJo5dVRS7ortyEx1OW8cX9KBngd?DualPipe:新的双向管道并行算法,用于实现训练中的计算-通信重叠。核心代码仅约300行,在大多数矩阵尺寸下优于其它面向MOE优化的内核。EPLB:用于V3和R1的专家负载均衡器,层次负载均衡+全局负载均衡。周一:FlashMLA,
周一:FlashMLA,核心成就:GPU带宽利用接近理论极限,算力利用效率翻倍;
周二:DeepEP,一个高效的MOE架构专家并行通信库:
支持高效且优化后的全对全通信
使用NVlink和RDMA进行节点内和节点间通信
用于训练和推理填充的高吞吐量内核
用于推理解码的低延迟内核
原生支持FP8操作
实现灵活的GPU资源控制,实现计算与通信重叠
周三:DeepGEMM,一个通用的GEMM广义矩阵乘法库,支持FP8精度,V3和R1高效训练和推理的武器之一:
同时支持Dense密集架构和MOE稀疏架构
完全支持JIT(Just-In-Time)实时编译,无需预编译
专为NVIDIA Hopper Tensor Core设计,解决FP8累加精度不准问题
核心代码仅约300行,在大多数矩阵尺寸下优于其它面向MOE优化的内核
周四:一组性能优化相关的算法库及性能分析数据包
DualPipe:新的双向管道并行算法,用于实现训练中的计算-通信重叠
EPLB:用于V3和R1的专家负载均衡器,层次负载均衡+全局负载均衡
性能分析数据包。
周五:明日更新
亦可关注《DeepSeek认知之旅》的文档更新!
《DeepSeek认知之旅》文档链接:https://kcnrgc2yrax7.feishu.cn/docx/AJo5dVRS7ortyEx1OW8cX9KBngd?openbrd=1&doc_app_id=501&blockId=doxcncVubbqQeHtN9klREuWVgUQ&blockType=whiteboard&blockToken=KrGqwrZKDh2PkpbNR6hcWn2Rn7b#doxcncVubbqQeHtN9klREuWVgUQ
更多推荐
所有评论(0)