DeepSeek开源周合集

DeepSeek认知之旅》文档链接：https://kcnrgc2yrax7.feishu.cn/docx/AJo5dVRS7ortyEx1OW8cX9KBngd?DualPipe：新的双向管道并行算法，用于实现训练中的计算-通信重叠。核心代码仅约300行，在大多数矩阵尺寸下优于其它面向MOE优化的内核。EPLB：用于V3和R1的专家负载均衡器，层次负载均衡+全局负载均衡。周一：FlashMLA，

Vip.Gong

623人浏览 · 2025-02-27 13:23:13

Vip.Gong · 2025-02-27 13:23:13 发布

周一：FlashMLA，核心成就：GPU带宽利用接近理论极限，算力利用效率翻倍；

周二：DeepEP，一个高效的MOE架构专家并行通信库：

        支持高效且优化后的全对全通信
        使用NVlink和RDMA进行节点内和节点间通信
        用于训练和推理填充的高吞吐量内核
        用于推理解码的低延迟内核
        原生支持FP8操作
        实现灵活的GPU资源控制，实现计算与通信重叠

周三：DeepGEMM，一个通用的GEMM广义矩阵乘法库，支持FP8精度，V3和R1高效训练和推理的武器之一：

        同时支持Dense密集架构和MOE稀疏架构
        完全支持JIT(Just-In-Time)实时编译，无需预编译
        专为NVIDIA Hopper Tensor Core设计，解决FP8累加精度不准问题
        核心代码仅约300行，在大多数矩阵尺寸下优于其它面向MOE优化的内核

周四：一组性能优化相关的算法库及性能分析数据包
DualPipe：新的双向管道并行算法，用于实现训练中的计算-通信重叠
EPLB：用于V3和R1的专家负载均衡器，层次负载均衡+全局负载均衡
性能分析数据包。

周五：明日更新
亦可关注《DeepSeek认知之旅》的文档更新！
《DeepSeek认知之旅》文档链接：https://kcnrgc2yrax7.feishu.cn/docx/AJo5dVRS7ortyEx1OW8cX9KBngd?openbrd=1&doc_app_id=501&blockId=doxcncVubbqQeHtN9klREuWVgUQ&blockType=whiteboard&blockToken=KrGqwrZKDh2PkpbNR6hcWn2Rn7b#doxcncVubbqQeHtN9klREuWVgUQ

九章云极普惠算力

更多推荐

终极指南：如何将Instant Meshes无缝集成到现有3D管线中

Instant Meshes是一款强大的交互式场对齐网格生成器，能够快速将复杂3D模型转换为结构化四边形网格。本文将为您提供完整的集成指南，帮助您将这个高效工具融入现有的3D工作流程。🚀## 什么是Instant Meshes？Instant Meshes是一个开源的网格重拓扑工具，专门用于将任意三角形网格转换为高质量的四边形网格。它采用先进的场对齐算法，能够保持模型的几何特征，同时显著

九章云极普惠算力

混合精度训练革命：happy-llm如何用16位浮点数实现效率与精度双赢

在大语言模型训练领域，混合精度训练已经成为提升训练效率的关键技术。通过巧妙结合16位和32位浮点数，happy-llm项目展示了如何在保证模型精度的同时，显著降低显存占用并加速训练过程。## 什么是混合精度训练？混合精度训练是一种结合不同精度浮点数进行深度学习训练的技术。它主要使用16位浮点数（FP16或BF16）进行前向传播和反向传播，同时保留32位浮点数用于关键的权重更新操作。[!

九章云极普惠算力

BEAM数据结构和引用机制详解：构建高性能Erlang应用

想要构建高并发、高可用的分布式应用？Erlang的BEAM虚拟机正是为此而生！本文将深入解析BEAM的核心数据结构和引用机制，帮助您理解如何构建高性能的Erlang应用。BEAM虚拟机通过独特的内存管理策略和进程模型，为现代分布式系统提供了强大的基础架构支持。## BEAM内存架构概览BEAM虚拟机的内存系统采用了分层的设计理念，每个Erlang进程都拥有独立的堆栈结构。这种设计确保了进程