谁“偷”走了你的算力
摘要:一提到计量计费,相信大家第一时间想到了应该是生活中的水、电、燃气、通信费用,因为这些是我们习以为常又必不可少的部分,它们都已经有国家统一的标准表计进行计量计费,但算力资源特别是云计算环境下的算力资源算力影响因子颇多,难以用单一表计进行计量,应该如何科学且公平地计量计费,让用户不担心自己花钱租的算力资源被分配给别人使用呢?本文将从技术层面围绕 GPU、CPU、存储、网络四大核心智算资源,深入探
摘要:一提到计量计费,相信大家第一时间想到了应该是生活中的水、电、燃气、通信费用,因为这些是我们习以为常又必不可少的部分,它们都已经有国家统一的标准表计进行计量计费,但算力资源特别是云计算环境下的算力资源算力影响因子颇多,难以用单一表计进行计量,应该如何科学且公平地计量计费,让用户不担心自己花钱租的算力资源被分配给别人使用呢?本文将从技术层面围绕 GPU、CPU、存储、网络四大核心智算资源,深入探讨其计量计费方案,尝试为智算资源的供需双方提供一个公平、合理、高效的资源使用和费用结算体系的建议。
如需技术合作或业务咨询,请移步vx: alayanew
1.需求侧在呼唤更加敏捷的算力计量计费方式
在数字化浪潮席卷全球的当下,人工智能、大数据分析、云计算等新兴技术不断推动着智算产业的蓬勃发展。智算资源作为支撑这些技术应用的核心基础,其合理配置与高效利用直接影响着科技创新和产业升级的进程。对于智算资源的服务提供商而言,制定科学、合理的计量计费方案,不仅能够有效管理资源、保障运营成本,还能通过价格杠杆引导用户合理使用资源,提升整体资源利用率;对于用户来说,清晰透明的计费模式有助于其准确预估成本,优化资源使用策略,实现效益最大化。
目前,智算资源市场呈现出多元化的发展态势,不同类型的用户对资源需求差异显著,从科研机构的高精度计算需求,到企业的大规模数据处理需求,再到个人开发者的灵活应用需求等。这就要求计量计费方案必须具备高度的灵活性和适应性,能够精准计量各类资源的使用情况,并根据不同的使用场景和需求制定差异化的计费策略。当前算力计量计费普遍存在以下问题:
(1)如资源多维问题:CPU算力、GPU算力、网络带宽、存储等异构指标未统一计量,没有统一的计量单位;

(算力资源计量标称未统一)
(2)动态时变问题:不同时间段负载波动幅度可达1000倍(如AI训练突发任务),传统包月/按实例计费导致资源浪费;

(不同用户算力负载时间段差异较大)

(不同类型的用户对资源需求量整体差异显著)
(3)价值非线性问题:同等算力在不同场景(如科学计算vs.游戏渲染)创造的价值差异巨大;能耗敏感问题:

(不同场景价值差异显著)
(4)能效问题:算力中心PUE(能源使用效率)直接影响有效算力成本。

(不同来源,成本和效率不同,以及政府鼓励政策不同)
2.什么是算力、算力有哪些种类、计量因子有哪些
广义的算力分为计算力(CPU、GPU等)、存力(存储)、运力(网络)。

每种算力对应相应的硬件设备,不同的设备计算能力由相关参数决定,例如GPU主要由浮点计算能力/张量计算能力以及显存相关参数,如显存容量、显存频率、显存带宽等;CPU主要由核心数、线程数据、时钟频率、整数与浮点运算性能、缓存大小;存储资源的计量因素包括存储容量(硬盘容量、内存容量)和性能(读写速度、IOPS),具体如下图所示:

(影响算力资源计费的因素)
3.GPU 计量计费
3.1GPU的结构与工作机制
GPU的费用是大头,我们先讲GPU。我们回顾一下GPU的结构与工作机制,为了便于大家理解,小编用AI生成了一张图。

为了便于理解,我们可以将GPU的结构用车间、仓库、道路、车和车间里的工人来比喻,具体如下:
车间 - 流式多处理器(SM):车间是工厂中进行具体生产操作的地方,对应到GPU中就是流式多处理器(SM),它是GPU的核心计算单元,相当于工厂里的“生产线”。每个SM包含多个CUDA核心(计算单元)、共享内存、寄存器文件等,就像车间里有许多不同功能的区域和设备,协同完成生产任务。现代GPU通常包含数十个SM,每个SM可以同时运行数千个线程,如同一个车间可以同时进行多项生产操作。
车间里的工人 - 流处理器(Shader Processor):车间里的工人是进行具体生产操作的个体,在GPU中流处理器就如同工人。流处理器是GPU中最基本的计算单元,负责执行各种图形运算和并行计算,每个流处理器处理多个数据流,并独立进行计算,就像每个工人都能完成一定的生产任务,且可以同时处理多个相关的工作环节。众多的流处理器协同工作,使得GPU能够充分利用并行计算能力,快速完成大规模的计算任务。
仓库 - 显存(显存大小与显存带宽):仓库用于存储各种原材料、半成品和成品,对应到GPU中就是显存(VRAM)。显存是专为显卡设计的内存,用于存储图形渲染数据、纹理、着色器代码、帧缓冲等,就像仓库存储着生产所需的各种物资。显存的带宽和容量对显卡性能至关重要,好比仓库的大小和货物进出的通道宽度,直接影响着生产的效率和规模,显存带宽等于显存位宽(类似仓库有多个通道进出)*频率。
道路 - 数据传输通道:道路是连接各个地方,用于运输货物和人员的通道,在GPU中数据传输通道就如同道路。例如,PCIe接口是显卡与主板连接的通道,用于传输图形数据等。还有如NVIDIA的NVLink和AMD的Infinity Fabric等,用于多个GPU之间的高速数据传输。这些通道保证了数据在GPU与其他组件之间的顺畅流动,如同道路保证了货物在工厂各个区域以及与外界之间的运输,有不同形式的内外部道路。
运输车 - 数据:车在道路上行驶,负责运输货物,对应到GPU中,数据就如同车所运输的货物。数据在数据传输通道中流动,从显存被加载到计算单元,经过处理后再存回显存,或者在不同的GPU之间进行传输,就像车在道路上按照一定的规则和调度,将货物从一个地方运送到另一个地方。
3.2GPU的计量方式
目前GPU的算力消耗度量普遍采用卡时为单位,这样便于管理和计算,但没有考虑GPU的利用率和计算效率,只要加载了GPU就收费,正如文章开头所说,这种模式不够精细,也会造成算力资源浪费。如何采用更精细的方法来计量呢,那就应该把GPU算力相关因素细化后进行分别计算,例如GPU的浮点计算能力、显存大小、显存带宽。
1.使用时长:GPU 使用时长的计量采用高精度的时间戳技术,以毫秒级精度记录 GPU 从启动任务到任务结束的整个过程。为了确保计时的准确性,系统会在任务启动和结束时分别记录时间,并通过与平台的时钟服务器进行时间同步,消除因时钟误差导致的计时偏差。
2.GPU 利用率与浮点计算数:我们之前介绍了一篇关于GPU利用率和模型浮点计算利用率,需要了解的朋友可以回顾一下:
(1)对于GPU利用率。它的监测依赖于专业的监控软件或通过GPU提供的接口进行读取,实时获取 GPU 核心的运行状态信息,包括核心的工作频率、负载情况等。通过对这些数据的分析,计算出 GPU 核心在单位时间内的平均利用率。例如,在一个 10 分钟的监测周期内,每隔 10 秒采集一次 GPU 核心的利用率数据,然后将这些数据进行加权平均,得到该周期内的 GPU 核心平均利用率。为了更准确地反映用户对 GPU 核心的实际使用情况,对于利用率的计算还会考虑不同核心之间的负载均衡情况。如果存在部分核心利用率过高,而其他核心闲置的情况,系统会对利用率数据进行修正,以避免用户因核心负载不均衡而承担不合理的费用。
GPU利用率方式:费用 = GPU利用率(%) × 整卡单价 × 时长,其中GPU利用率通过DCGM(Data Center GPU Manager)采集的SM活跃时间占比计算。但按我们在之前的文章里描述到的,GPU利用率也不是特别准确,只能是一个平均值,不够精细,导致最终结果也不是精确的。
(2)浮点计算。GPU真正有效的计算是浮点计算。可以通过以下几种方式获取GPU的浮点计算量。
硬件层面:可利用 GPU 性能计数器,如 NVIDIA 的 Nsight Compute 和 AMD 的 Radeon Developer Panel;也能基于专用硬件监测设备,其通过 PCIe 总线等与 GPU 交互。软件层面:借助编程框架统计功能,如 CUDA、OpenCL 及深度学习框架 TensorFlow、PyTorch 等;使用系统级监测工具,如 Linux 下的 nvidia-smi、Windows 下的 GPU-Z。特殊场景处理:多任务并行场景,利用 GPU 的 MPS 功能或任务调度器编号标记;动态负载变化场景,实时监测并自适应调整采样间隔。
3.显存使用量:显存使用量的计量是通过实时监测 GPU 显存的占用情况来实现的。系统会在内存管理模块中设置专门的显存监控机制,每隔一定时间(如 1 秒)记录一次显存的已使用大小、空闲大小等信息。对于显存使用量的统计,不仅会考虑静态的显存占用,还会跟踪显存的动态变化情况。例如,当用户在运行深度学习模型训练任务时,随着数据的不断加载和处理,显存使用量会发生动态变化,系统会准确记录这些变化,并将其纳入计费统计范围。但这种采集和计算太复杂了,有时也直接用显存容量这个最大值来代替。
4.显存带宽:显存带宽也制约的模型训练和微调、推理的效率,特别是在推理过程中,如果是提示词多,生成内容少,例如摘要生成的场景,这种情况整个计算的瓶颈就在显存带宽上,所以要想富先修路,足够宽的马路才不会塞车。
九章云极开创性地提出1度(DCU)算力的概念,基准为1块A100跑1小时的算力312TFlops,并可精确到秒级,实现毫度(mDCU)的精确计量。计量方式正是结合上述浮点计算能力、显存容量、显存带宽三个因子,基于公认基准任务进行测量与锚定,确定各因子之间的权重关系,最终形成合理的度量结果。九章云极1度算力已申请专利。

(九章云极1度算力专利)
3.2GPU的计费方式
1.基础使用费用:GPU 的基础使用费用主要依据其型号和性能来确定。不同型号的 GPU 在计算能力、显存容量、显存带宽等方面存在较大差异,许多GPU租赁厂商按原来云厂商的习惯,提出卡时的计费模式,不同的有不同的GPU每小时单价,但这会带来计量统计的麻烦,以九章云极的DCU为例,针对不同的GPU可以按A100为基准(FP16的稠密算力)转换成标DCU数值。这样就可以进行统一计算,以后换卡就不用改单价,拆订单。
| 卡型号 | DCU |
|---|---|
| B200(141G) | 5.896 |
| H200 | 2.844 |
| H100 | 1.846 |
| A100 | 1 |
| A800 | 1 |
| L40S | 0.866 |
2.按型号基准计价:用户在使用 GPU 时,按照实际使用时长乘以对应 GPU 型号的单价进行计费。为了方便用户选择合适的 GPU 资源,平台会提供详细的 GPU 性能参数和费用对比表,帮助用户根据自身任务需求和预算进行决策。
3.利用率附加费用(可选):为了鼓励用户合理使用 GPU 资源,提高资源的整体利用率,当 GPU 核心利用率超过一定阈值(如 70%)时,对超出部分按照一定比例加收费用。具体计算方式如下:假设阈值为 70%,超出部分每提高 10%,加收基础使用费用的 10%。例如,某用户使用 NVIDIA A100 GPU 10 小时,平均利用率为 80%,则利用率附加费用为 10 小时 ×X 元 / 小时 ×(80%-70%)÷10%×10%。通过这种计费方式,可以促使用户优化任务配置,合理分配 GPU 资源,避免因过度占用资源而导致其他用户的使用体验受到影响。同时,对于利用率长期较低的用户,平台也可以提供相应的优化建议,帮助其提高资源使用效率。
4.其它综合费用:整个智算中心除了GPU的算力费用外,还有许多其它的费用,如人力运维成本、智算中心建设成本、电力成本等等,这个最终会按投资回报周期要求体现在算力单价上。
4. CPU的计量计费
相信大家都知道,在云计算时代,CPU、存储、网络资源的计量计费已经很成熟了,可以按原来的方式进行单独计量计费,再与上述介绍的GPU资源汇总。
4.1CPU计量方式
核时:CPU 核时的计量是通过对每个 CPU 核心的运行时间进行精确统计来实现的。系统会为每个 CPU 核心分配独立的计时单元,当核心开始执行任务时,计时单元启动;任务结束或核心进入空闲状态时,计时单元停止。通过这种方式,能够准确记录每个核心的实际运行时长。在计算总核时时,将所有核心的运行时长进行累加。例如,一个 8 核心的 CPU,其中 4 个核心运行了 5 小时,另外 4 个核心运行了 3 小时,则总的核时为 (4×5 + 4×3) = 32 核时。为了确保核时统计的准确性,系统会定期对计时单元进行校准,并与系统时钟进行同步,防止因时间误差导致核时计算错误。同时,对于多核 CPU 的超线程技术,会根据实际的计算资源占用情况进行合理的核时折算,以保证计费的公平性。
CPU 负载:CPU 负载的监测采用操作系统内置的性能监测工具和专业的监控软件相结合的方式。这些工具能够实时获取 CPU 的使用率、进程队列长度、中断次数等关键指标,并通过算法计算出 CPU 在单位时间内的平均负载情况,以百分比表示。例如,在一个 15 分钟的监测周期内,每隔 1 分钟采集一次 CPU 负载数据,然后将这些数据进行算术平均,得到该周期内的 CPU 平均负载。为了更准确地反映 CPU 的实际工作压力,还会考虑不同类型任务(如计算密集型、I/O 密集型)对 CPU 负载的影响,对负载数据进行适当的加权处理。同时,系统会对 CPU 负载的变化趋势进行分析,当负载出现异常波动时,及时发出预警,以便用户和管理员采取相应的措施。
随着CPU的成本下降, 各云厂商一般都是按核时进行计量计费,如果是金额特别大或者时长特别长,也可以考虑将CPU的负载因素考虑进来进行计量计费,这样可以给用户减少一些费用。
4.2CPU计费方式
核时费用:CPU 核时费用根据 CPU 的型号和性能制定不同的单价。英特尔至强金牌系列 CPU 因其强大的多核心处理能力和高主频,适合处理大规模的数据计算和复杂的多任务处理场景,每核时单价设定为 A 元;而普通酷睿系列 CPU 主要用于日常办公和轻度计算任务,每核时单价为 B 元(A>B)。用户在使用 CPU 资源时,根据实际产生的核时乘以对应单价进行计费。为了方便用户了解不同 CPU 型号的费用情况,平台会提供详细的 CPU 性能参数、适用场景和费用对比表,并根据用户的任务需求提供 CPU 资源配置建议。此外,对于一些特殊的 CPU 架构和技术(如 ARM 架构的 CPU、异构计算 CPU),会根据其独特的性能特点和市场定位(最终体现在采购价格上)制定相应的核时费用标准。
负载调整费用:为了激励用户合理安排 CPU 任务,提高 CPU 资源的整体利用率,当 CPU 平均负载超过设定阈值(如 60%)时,根据超出比例适当提高计费单价。假设阈值为 60%,超出部分每增加 10%,计费单价提高 10%。例如,某用户使用英特尔至强金牌 CPU 产生了 50 核时,平均负载为 70%,则计费单价为 A 元 ×(1+(70%-60%)÷10%×10%),总费用为 50 核时 × 调整后的单价。通过这种计费方式,可以促使用户优化任务调度策略,避免因 CPU 负载过高而导致资源浪费和性能瓶颈。同时,对于 CPU 负载长期较低的用户,平台可以提供资源优化建议,帮助其提高 CPU 的使用效率,降低使用成本。此外,平台还会根据不同时间段的 CPU 资源使用情况,动态调整负载阈值和费用调整比例,以平衡资源供需关系。
5.存储计量计费
5.1计量方式
存储容量:存储容量的计量是通过文件系统的元数据管理机制来实现的。系统会记录每个用户在存储设备上占用的空间大小,包括文件、目录、数据块等所有占用存储资源的对象。对于不同类型的存储设备(如硬盘、固态硬盘、分布式存储等),采用相应的存储容量计算方法。例如,在传统的硬盘存储中,按照磁盘扇区的实际占用数量计算存储容量;在分布式存储系统中,通过对各个存储节点上的数据块进行统计和汇总,得到用户的总存储容量。为了确保存储容量统计的准确性,系统会定期进行磁盘空间清理和元数据整理,消除因文件删除、数据迁移等操作导致的存储容量计算误差。同时,对于一些特殊的存储格式(如压缩存储、加密存储),会根据实际占用的物理存储空间进行计量。
数据读写量:数据读写量的统计依赖于存储设备的 I/O 监控模块。该模块能够实时记录用户对存储设备进行数据读取和写入的操作,包括读取和写入的文件大小、数据块数量等信息,并将这些数据进行累加,得到用户在一定时间内的数据读写总量。为了准确区分不同用户的数据读写操作,系统会为每个用户分配唯一的标识,并在 I/O 操作日志中记录相关信息。对于数据读写量的计量,不仅会考虑单次操作的数据量大小,还会关注操作的频率。例如,频繁的小文件读写操作可能会对存储设备的性能产生较大影响,因此在计费时会适当提高其权重。同时,系统会对数据读写量的变化趋势进行分析,当出现异常的大量数据读写操作时,及时发出预警,防止用户因误操作或恶意攻击导致存储资源浪费和安全风险。
存储时长:存储时长的计量从用户开始使用存储资源起,到用户释放该部分存储资源或服务到期为止。系统会为每个用户的存储资源分配独立的计时单元,当用户成功创建存储目录或上传数据时,计时单元启动;当用户删除所有数据、释放存储空间或服务合同到期时,计时单元停止。以月为基本计时单位,不足 1 个月的部分按照 1 个月计算。为了方便用户管理存储时长,平台会提供存储资源的使用期限查询和提醒功能,当存储时长即将到期时,提前通知用户进行续费或数据迁移操作。同时,对于长期未使用的存储资源,系统会根据设定的规则进行清理和回收,以提高存储资源的利用率。
5.2计费标准
容量费用:容量费用根据存储类型和容量大小设定每月每 GB 的存储费用。普通机械硬盘存储由于成本较低、性能相对较弱,每月每 GB 收费 C 元;高性能固态硬盘存储具有读写速度快、响应时间短等优点,每月每 GB 收费 D 元(D>C)。用户按照实际占用的存储容量乘以对应单价和存储时长进行计费。为了满足不同用户的存储需求,平台提供多种存储容量套餐,用户可以根据自身情况选择合适的套餐。对于大容量存储需求的用户,还可以提供定制化的存储解决方案,并给予一定的价格优惠。此外,平台会定期对存储容量费用进行评估和调整,根据市场行情和存储设备成本的变化,合理调整费用标准。
数据读写费用:数据读写费用是对用户在存储设备上进行数据读取和写入操作收取的费用,每 GB 数据读写收费 E 元。该费用标准会根据数据读写的类型(如顺序读写、随机读写)、操作频率等因素进行调整。例如,随机读写操作对存储设备的性能影响较大,因此其费用会高于顺序读写操作。用户根据实际产生的数据读写总量乘以该单价计算费用。为了帮助用户降低数据读写成本,平台会提供数据缓存、数据压缩等优化功能,减少用户的数据读写量。同时,对于数据读写量较大的用户,平台会提供分级计费政策,随着数据读写量的增加,单位数据读写费用逐渐降低。
额外服务费用:如果用户需要存储相关的额外服务,如数据备份、数据恢复、存储加密等,将根据服务类型和复杂程度单独计费。数据备份服务按照备份数据量的一定比例收费,例如每备份 1GB 数据收费 F 元。
数据恢复服务根据恢复数据的难度和数据量收费,对于简单的数据恢复操作,收取固定的服务费用;对于复杂的数据恢复任务,如因磁盘损坏、数据误删除等原因导致的数据丢失,会根据实际情况进行评估并收取相应的费用。存储加密服务根据加密算法的复杂度和加密数据量收费,例如采用高级加密标准(AES)对 100GB 数据进行加密,收费 G 元。平台会提供详细的额外服务费用清单和服务说明,用户在选择服务时可以清楚了解费用情况和服务内容。
一般情况下,由于存储已经很便宜了,很多算力提供商只按容量收费,如果要更精细,可以采用实际占用量计量计费,但这个会带来技术上的困难与更多的投入,采用这种方式的较少。
6.网络计量计费
6.1计量方式
流量:网络流量的计量采用基于网络数据包的统计方法。在智算平台的网络出入口处部署流量监测设备,该设备能够对通过的网络数据包进行捕获和分析,根据数据包的大小计算出上传和下载的数据流量,以 GB 为单位。为了准确区分不同用户的网络流量,系统会根据用户的 IP 地址、端口号等信息对数据包进行分类统计。对于一些特殊的网络协议(如 UDP、TCP)和应用场景(如视频流传输、文件传输),会采用不同的流量计量策略。例如,对于视频流传输,考虑到其数据流量的连续性和实时性特点,会采用基于时间间隔的流量统计方式;对于文件传输,会根据文件的实际大小计算流量。同时,系统会对网络流量进行实时监控和分析,当流量出现异常增长或波动时,及时发出预警,以便管理员进行排查和处理。
带宽使用时长:带宽使用时长的计量从用户申请并使用一定带宽的网络服务开始,到用户停止使用该带宽或服务结束为止。系统会为每个用户的网络带宽服务分配独立的计时单元,当用户成功建立网络连接并开始使用指定带宽时,计时单元启动;当用户断开网络连接或服务到期时,计时单元停止。以小时为最小计费单位,不足 1 小时的部分按照 1 小时计算。为了确保带宽使用时长统计的准确性,系统会定期对网络连接状态进行检查和校准,防止因网络故障或连接异常导致计时错误。同时,对于用户在使用过程中对带宽进行动态调整的情况,系统会根据实际使用的带宽规格和时长分别进行计费统计。
6.2计费标准
流量费用:流量费用根据网络带宽类型和流量大小设定每 GB 的流量费用。普通公网带宽由于其广泛使用和相对较低的成本,每 GB 流量收费 F 元;高速专线带宽具有稳定性高、速度快等优点,每 GB 流量收费 G 元(G>F)。用户按照实际产生的网络流量乘以对应单价进行计费。为了满足不同用户的流量需求,平台提供多种流量套餐,用户可以根据自身情况选择合适的套餐。对于流量使用量大的用户,还可以提供定制化的流量解决方案,并给予一定的价格优惠。此外,平台会根据不同时间段的网络流量使用情况,动态调整流量费用标准,在网络使用高峰时段适当提高费用,在低谷时段降低费用,以平衡网络资源的供需关系。
带宽使用费用:带宽使用费用按照不同带宽规格和使用时长计费。例如,100Mbps 带宽每小时收费 H 元,1Gbps 带宽每小时收费 I 元(I>H)。用户根据实际使用的带宽规格和时长乘以对应单价计算费用。为了鼓励用户合理选择带宽,平台会提供带宽使用情况的。
总结
智算时代初期,算力的计量计费方式还处于初级阶段,从台月、卡时到以小时级或秒级的精确计量是必然的发展趋势。九章云极首创性的使用了以度为单位进行计量,可以精确到秒级、毫度的精确度量,同时实现资源的在线弹性上下线,用则收费,不用不收费,旨在为客户提供更精细的智算服务,在保障服务质量的前提下,大大降低用户使用成本。
更多推荐
所有评论(0)