作为第八届 CCF 开源创新大赛的常规赛的赛题之一,第八届 CCF 开源创新大赛专项赛题 ——「开源 GPU 创新生态赛(常规赛)」第一期报名火热进行中。本次竞赛聚焦 GPU 底层算力革新与开源生态建设,HyperAI超神经是本次活动的官方合作社区,诚邀全球开发者共同攻坚。

作为第八届 CCF 开源创新大赛的常规赛的赛题之一,第八届 CCF 开源创新大赛专项赛题 ——「开源 GPU 创新生态赛(常规赛)」第一期报名火热进行中。本届大赛由中国计算机学会(CCF)主办,开源发展技术委员会(ODTC)承办。该赛事聚焦 GPU 技术与开源生态的深度融合,旨在推动国产算力创新及人工智能普惠化发展,吸引全球开发者、高校团队及企业共同探索 GPU 底层优化、算法加速与生态共建。面对大模型推理的「三高」困境(高延迟、高显存、高生态依赖),本次竞赛聚焦 GPU 底层算力革新与开源生态建设,HyperAI超神经是本次活动的官方合作社区,诚邀全球开发者共同攻坚。

具体而言,子赛题三——GPU 算子优化挑战赛方向,聚焦 GPU 底层性能优化与算子生成技术,鼓励参赛团队从编译优化、算子调度、内核生成等角度探索突破,为国产 GPU 性能提升提供新思路。

在这一方向中,TileLang 凭借灵活的编译抽象、高效的张量算子生成能力以及对国产 GPU 的深度适配,成为本赛题的技术亮点之一。它以开源社区为依托,探索算子优化的新范式,为 GPU 软件生态的国产化发展注入了强劲动力。

为更直观展示 TileLang 在国产 GPU 算子优化方向的探索与成果,本文详细给大家介绍 TileLang 国产 GPU 开发项目文档。

一、项目背景

1

行业痛点

国产 GPU 生态的核心挑战

当前智算与通用计算领域中,GPU 内核开发面临双重困境:一方面,国际主流 GPU 开发语言学习成本高、代码量大,开发者需兼顾性能优化与生产力,门槛较高;另一方面,国产 GPU 虽在硬件性能上逐步追赶,但软件生态适配相对来说还有很大的进步空间,缺乏轻量化、高效的开发工具链,导致硬件算力难以充分释放,生态协同性不足。

2

解决方案

TileLang 的技术突破

TileLang 作为 TileLang 社区主导的 GPU 内核领域专用语言,以「高效开发+性能不妥协」为核心,针对性解决行业痛点:

* 开发效率革命:采用 Python 式简洁语法,实现 FlashAttention 算子仅需 80 行代码,并保持了与官方版本持平的性能。这种代码量的大幅减少不仅降低了开发门槛,也提高了维护性和可读性。

* 分层接口适配:提供 3 个层次编程接口,覆盖从初学者到专家的全阶段需求,降低国产 GPU 开发门槛。

* 多硬件兼容:已在 MACA 曦云 C500、英伟达 H100/A100、AMD MI250/MI300X 等多类 GPU 上验证适配,支持「cuda/hip/cpu」多目标编译,兼容性广泛。

3

生态协同

MACA 与开源社区的落地支持

为推动 TileLang 在国产 GPU 上的实际应用,MACA(国产高性能 GPU 代表厂商)与开源社区联合行动:

* 硬件适配:MACA AI 编译器团队和 TileLang 社区合作已提前参与该项目,探讨 MACA GPU 与 TileLang 的适配(开源仓库:mcTileLang),通过 MXMACA 软件栈实现深度协同,核心算子性能接近国际主流产品。

* 在线环境搭建:在模力方舟平台提供预配置的 TileLang 在线体验环境,开发者无需自行搭建硬件,直接基于曦云 C500(64GB 显存、Intel Xeon Gold 6530)来进行开发;

* 资源支持:提供专属算力券降低体验成本,同时开源完整适配代码与文档,助力生态共建。

4

项目意义

本项目通过「语言工具+国产硬件+在线平台」的组合,打破国产 GPU 生态「硬件强、软件弱」的僵局,为开发者提供「开箱即用」的国产 GPU 开发方案,推动中国算力产业从「单点突破」转向「生态共荣」,助力智算、通用计算领域的国产化替代与创新发展。

二、快速上手:

TileLang国产GPU开发实践项目背景

1

环境准备:获取 TileLang 在线开发资源

步骤 1:进入模力方舟算力市场

访问模力方舟相关网站,点击顶部导航栏「算力市场」,进入 MACA GPU 资源租用页面。

(https://ai.gitee.com/compute)

步骤 2:领取 TileLang 专属算力券

* 参与比赛活动,领取 TileLang 专属算力券;

* 算力券可直接兑换曦云 C 系列 GPU 容器资源,用于 TileLang 开发体验。

步骤 3:选择 TileLang 镜像与配置

* 硬件配置选择:默认选择「曦云C500」GPU,单卡配置为 64GB 显存、12 核 Intel Xeon Gold 6530 CPU

* 镜像选择:在「镜像」列表中勾选「基础镜像」下的「TileLang 0.1.5」

* 计费方式:支持按量收费、包日/包周/包月。

2

容器启动与 TileLang 验证

步骤 1:启动GPU容器

完成配置与算力券兑换后,点击「启动容器」,等待容器初始化(通常耗时 1-3 分钟,可在「工作台」查看进度)。

步骤 2:执行快速验证命令

容器启动后,通过终端输入以下命令,验证 TileLang 环境可用性:

# 进入TileLang示例目录cd /root/mcTileLang/# 运行快速启动示例python3 ./examples/quickstart.py

步骤 3:确认验证结果

若终端输出以下信息,说明环境正常:

* 张量输出

(如 tensor([[ -1.4619, -19.9844, ... ]], device='cuda:0', dtype=torch.float16));

* 匹配提示

(Kernel output matches PyTorch reference);

* 延迟数据

(如 Latency:0.11110399663448334 ms)。

可额外执行 mx-smi 命令,查看曦云 C500 GPU 状态(如温度、显存占用、功率等),确认硬件资源正常调用。

3

进阶体验

TileLang 算子开发

步骤 1:参考官方文档

访问 MACA 开源项目文档,获取算子开发教程与 API 说明。

步骤 2:尝试核心算子开发

基于示例代码修改,开发自定义 GPU 算子(如简化版 GEMM 算子)。

步骤 3:参与生态贡献

若开发的算子具备通用性,可通过 gitee 提交 PR 参与 TileLang 国产 GPU 生态共建。

(https://gitee.com/metax-maca/mcTileLang)

三、生态贡献指南:

邀您共建TileLang国产GPU生态

为持续完善 mcTileLang 仓库功能、降低开发门槛,诚邀所有开发者参与贡献,重点欢迎 Issue 反馈与 Docs/Example 类型 PR ,评分详见 Task 具体指南如下:

(Task 地址:

https://www.gitlink.org.cn/ccf-ai-infra/GPUKernelContest/tree/main/docs/Tilelang/Task.md)

1

积极反馈

提交 Issue 助力仓库优化

当您遇到以下场景时,欢迎通过仓库「Issues」模块提交反馈,帮助团队定位问题、明确方向:

* 功能需求需要新增算子示例(如卷积、稀疏注意力)、补充特定硬件适配文档;

* Bug 反馈:运行示例代码报错、性能不符合预期、编译过程异常(需附报错日志与环境信息);

* 文档疑问:现有文档(如安装步骤、API说明)不清晰、存在疏漏;

* 优化建议:对内核性能、接口易用性、编译速度的改进想法。

提交 Issue 时,请选择对应标签(如「feat request」「bug」「doc」),描述清晰场景与需求,便于社区快速响应。

2

主动共建

提交 Docs/Example 类型 PR

mcTileLang 仓库的 docs(文档)与 examples(示例)目录是生态核心组成部分,尤其欢迎以下类型 PR ,共建更易用的开发资源:

(1)Docs 类型 PR:完善文档体系

* 教程迁移:将已有的基于 CUDA 的教程文档迁移到 MACA 上

* 新增教程:补充「TileLang 布局优化实战」「MACA GPU 性能调优指南」等进阶教程;

* 更新说明:同步 API 变更(如新增的接口)、修正安装步骤中的过时信息;

* 补充案例:在文档中添加「常见问题排查」(如容器启动失败、编译报错解决)。

(2)Example 类型 PR:丰富算子示例

* 新增算子:提交 RetNet、Mamba 等新兴模型的 TileLang 实现,或补充现有算子的优化版本(如支持不同精度或者混合精度的算子);

* 硬件适配:提供算子在 GPU(如曦云 C500)上的适配示例与性能分析

(3)PR 提交流程

1. Fork mcTileLang 仓库到个人账号;

2. 创建专属分支(如 doc/update-install-guide、example/add-fp8-gemm);

3. 完成修改后,提交 PR 并关联相关 Issue(如没有可以自己提交 Issue 并进行关联);

4. 参考仓库 CONTRIBUTING.md 确保代码风格、文档格式符合规范,等待审核合并。

四、资源汇总

* 仓库地址:https://gitee.com/metax-maca/mcTileLang

* 在线体验:https://ai.gitee.com/compute

* 文档参考:《曦云系列_通用计算GPU_快速上手指南》

* 社区交流:加入社区参与讨论(仓库 README 有入口)

赛事奖金设置

赛事安排

报名时间:2025 年 09 月 15 日-12 月 10 日

赛事时间:2025 年 09 月 15 日-12 月 10 日

赛事评审:2025 年 12 月 10 日-12 月 20 日

结果发布:2025 年 12 月 21 日-12 月 30 日

赛事报名

报名链接:

https://www.gitlink.org.cn/competitions/gitlinkGPU1

进入报名页面了解更多赛事详情介绍

报名二维码:

赛事答疑群:

Image

扫码进入赛事群

获取答疑支持和赛事最新资讯

一键获取 2023—2024 年 AI4S 领域高质量论文及深度解读文章 ⬇️

 往期推荐 

戳“阅读原文”,免费获取海量数据集资源!

更多推荐