问题痛点

在对昆仑芯P800进行适配时,生产环境中部分节点的实际硬件拓扑与预设模型存在差异。这表明,静态统一的调度策略难以适应真实异构的集群环境。与此同时,调度可观测性也是长期存在的难点。当服务处Pending 状态时,难以及时判断是资源不足、卡类型不匹配还是调度策略未命中。而在日志数量较多且顺序混乱的情况下,排障成本会进一步上升。

睿思智联研发工程师 & HAMi Reviewer 欧阳陆伟 分享了 HAMi v2.7.0 在昆仑芯 P800 适配中的实现方式,涵盖拓扑感知调度、vXPU 动态切分以及调度可观测性等方面内容。

欧阳陆伟分享昆仑芯P800适配中的实现方式

解决方案和结果

欧阳陆伟重点分享了以下三个层面的实践经验:

  • 细粒度切分不是目的,稳定交付才是

在 P800 场景下实现 vXPU 动态切分后,我们发现“切得细”并不等同于“效率高”,真正的核心在于调度策略与资源约束的精准匹配。

  • 拓扑感知是异构调度绕不开的一环

在多 XPU、多节点的复杂环境中,如果忽略物理拓扑与通信关系,调度结果很容易出现“逻辑正确、性能崩溃”的局面。HAMi-Scheduler 的拓扑感知能力,在保障大规模任务稳定性方面起到了决定性作用。

  • 可观测性决定工程能否规模化

虚拟化叠加异构调度,会大幅增加问题定位的难度。睿思智联为此持续投入调度可观测性建设,通过日志与事件的可视化还原完整调度过程,让运维工作告别“凭猜测”,走向可追溯、可分析。

vXPU如何实现动态切分

欧阳陆伟的现场演示也验证了动态切分与合并的实时效果:任务创建时触发切分,任务删除时触发合并。用户仅需按需求申请显存或整卡资源,相关操作对用户侧保持透明。


上海密瓜智能科技有限公司专注于异构算力调度与统一管理,致力于为全球客户提供高效、灵活的算力解决方案。公司以“让异构算力因开源而好用”为使命,愿景是“构建全球领先的算力调度生态,赋能AI产业高效落地”。发起的CNCF 开源项目 HAMi,是唯一专注异构算力虚拟化的开源项目,通过灵活、可靠、按需、弹性的 GPU 虚拟化提升资源利用率,助力AI 时代算力效率提升。

官网:https://dynamia.ai

邮箱:info@dynamia.ai

更多推荐