智能算力中心技术探索系统层面的融合计算技术探索,主要讨论大规模数据中心级的融合技术,以及新型计算模式的融合。

一、数据中心融合

(一)数据中心融合计算架构技术分析

随着新型应用的加速演变,数据中心正转向从单一规模扩展到复杂架构融合。

  • 转变之 一是服务器的架构逐渐从以 CPU 为中心转向异构融合计算,例如引入 GPU、TPU、ASIC 或 FPGA 等异构计算加速器。
  • 转变之二是数据中心的架构以系统设计为中心,按照业务需 求来设计。

实际上,我们可以把 Google **搜索、Gmail、**Google Cloud TensorFlow 等看成是一个逻辑上的单一的“大应用”,是数据中心级别的业务系统;因此硬件重构需按照 “数据中心即计算机”的理念来实践。

**以系统设计为中心的原则,需要我们重新思考如何构建和部署数据中心资源。**它意味着要超越硬件和软件的传统界限,考虑整个数据中心作为一个协同工作的系统。

例如,对 于特定的 AI 工作负载,我们不仅要考虑芯片的设计,还要考虑数据流、存储、网络和软件 栈如何相互作用以提高效率。

按照业务需求来设计包括如下部分:

1)针对性优化: 传统的芯片设计通常是通用的,不考虑其在特定应用场景中的性能。而针对特定业务需求的系统 设计,如专为 AI 计算设计的 TPU,可以为特定工作负载提供更高的效率;

2)提高资源利用率: 传统的通用设计导致资源在某些应用场景中被浪费。而按需设计可以确保资源在特 定的工作负载下达到最大的利用率;

3)异构融合(软硬件系统级融合): 不改变系统层次 结构和组件交互关系,但打破软硬件界限,通过系统级的协同设计,实现更高效、更灵活 和更强大的系统功能。

Google 的 TPU 是这一理念的经典例证。以矩阵运算为代表的深度学习工作负载,在Google 数据中心占比快速增长,已经成为主要业务需求。

为此, Google TPU 从业务需求 出发,专门针对深度学习的特征进行了系统设计。在芯片层面,通过定制高密度的 8 比特 MAC 单元,TPU 单芯片可以提供每秒 92 万亿次操作的峰值计算能力,从而大幅提升矩阵 运算吞吐。

同时,TPU 还内置了大容量的片上缓存,提供数据局部性,减少外部存储访问, 以满足深度学习应用的延迟需求。如下图,主要的计算部分是右上角的黄色矩阵乘法单元 (Matrix Multiply Unit )。其输入为蓝色的权重 FIFO(Weight FIFO)和蓝色的统一缓冲器 (Unified Buffer ),输出是蓝色的累加器(Accumulators);。黄色的激活(Activation)单 元对累加器(Accumulators)执行非线性函数,这些函数传输至缓冲器(Unified Buffer )。

图片

图 3-12:TPU 块状图(Block Diagram)

TPU 的硬件设计都紧紧围绕数据中心的业务需求进行了系统设计,在矩阵乘法运算单元方面实现了高密度低位宽的设计,大幅提升了吞吐量; 在存储系统方面采用了大容量片上 缓存,满足了低延迟的需求。

这种从业务角度进行系统级硬件融合的设计思路,使 TPU 相 对通用型 CPU 和 GPU 获得了 10-30 倍的性能提升。

*在过去* *5~6* *年间,谷歌* *TPU* *取得了不 凡的成绩:*

  • TPU 在谷歌的数据中心得到了大规模部署使用,从 2017 年的第一代 TPU 到现在的 第四代 TPU 都被广泛应用于谷歌数据中心。
  • TPU 成为谷歌 AI 应用平台的重要组成部分,TPU 被集成到谷歌的 AI 平台 Tensor Flow 和 AI 服务平台中,成为运行谷歌 AI 应用的关键硬件。

总之,从系统层面看,TPU 不仅单点提升了计算性能,还通过软硬件协同设计提升了 数据中心整体的计算效率,降低了系统能耗; 充分体现了从业务需求出发的系统设计思想。

此外,AWS EC2 的动态异构数据中心和 Azure 的可扩展异构数据中心都采纳了“以系 统设计为中心、按照业务需求来设计”的异构融合理念。

这种数据中心融合的理念,不仅 推动了数据中心从规模扩展到架构融合的转变,还为更好地满足业务需求打下了基础。

(二)数据中心融合计算架构技术探索

异构计算的快速发展,不仅反映了算力资源的多样性,还驱动着处理器技术的不断演 进和创新。

异构计算的融合趋势,降低了超算中心、数据中心和智算中心间的算力服务边界,各类型算力中心利用相似的异构引擎和分布式计算架构,实现更灵活地跨越应用算力服务。

谈到数据中心融合,离不开十多年来一直在发展的一种趋势,就是融合架构。融合 架构的本质在于硬件重构与软件定义。其核心技术包括物理层面的“解耦、集中、智能调度”,实现计算、存储和网络资源的分类和集中化。在逻辑层面,支持资源池化和应用驱 动的资源动态分配。

融合架构可以按照软硬件协同的方式,分三个阶段逐步发展,如下图:

图片

图 3-13 数据中心级融合计算架构演进示意图

融合架构 1.0: 实现了散热、电源、管理资源的集中化和模块化;运用软件定义技术进行计算和存储等资源的池化和集中管理,其典型代表为整机柜服务器。融合架构 1.0 相 比以往大幅提高了计算密度。这一阶段被视为“服务器即计算机”(Server as a Computer)。

融合架构 2.0: 机柜内部使用高速互连技术如 PCIe,对异构计算加速设备、存储和 网络等 I/O 设备进行解耦、池化,提高资源利用率,来满足业务需求;其典型代表为 SMC (Smart Modular Center,模块化数据中心架构)。

一般意义上的软件定义网络,是在三层 网络上通过 Overlay 方式实现二层交换; 而在 SMC 中,虚拟交换机的功能可以通过分布式 交换网络的网卡硬件实现,按需构建拓扑、划分 vLan**、定义** QoS**,为上层应用提供高效可靠、 安全隔离的网络环境。**

这一阶段被视为“整机柜即计算机”(Rack as a Computer)。

融合架构 3.0: 在硬件重构和软件定义上更进一步。在 I/O 集中化的基础上,进一步解 耦 CPU 和内存形成集中的资源池,辅以软件定义的能力,将数千颗 CPU、PB 级内存以上 的计算机通过软件形成任意粒度大小的资源容器,其他低功耗器件、加速器件、I/O 资源同 样可以池化和任意分配,形成各种规模和配置的计算资源。

同时,配合应用感知的资源分 配技术,将使数据中心的资源调度完全智能化、高效化。

提供统一的资源视 图,将硬件资源清晰地组织成不同的功能区,功能区在软件定义的控制下形成不同的资源 池来支撑云应用和 AI 应用等,智能感知上层业务类型,自动重构适合的资源来为业务构建 最佳的运行环境,让应用软件与运行环境之间的契合程度达到一个前所未有的水平。

这种创新的体系结构,能够实现异构资源的高效融合,这一阶段被视为“数据中心即计算 机”(Data Center as a Computer)。如下图 3-14 所示。

图片

图 3-14 数据中心级融合计算架构示意图

从技术实现上看,数据中心级异构融合融合架构涉及到的技术有:

(1)使用高速互联技术(如 CXL 2.0、PCIe 5.0 等),实现 CPU、内存、存储、网络等 资源的逻辑上解耦,构建资源池。

例如,基于 CXL 总线协议,可以实现内存远端拓展,并 通过软件定义实现远端内存多主机共享与灵活调配。网络可采用非阻塞的多级 CLOS 拓扑 结构,可以提供每秒 5Tbps 的总互联带宽,满足大规模资源池互联需求。另外,未来也可 以应用先进的光互连技术,实现机柜间乃至数据中心级别的资源互联,链路传输距离可达 2 米以上。

图片

图 3-15 融合架构 3.0 - 系统顶层架构

**(2)满足系统高速信号完整性。**实际上,解耦架构给链路拓扑设计增加了复杂性,原本在服务器内部的互连总线需要在机柜内甚至机柜间的外部连接;随着数据速率的不断攀 升和系统链路变得更加复杂,互连链路延展已经接近极限。

因此,需要应用实验设计法和响应曲面统计法等仿真方法论,对复杂链路高速互连进 行高精度的拟合仿真研究,充分考虑多变量及公差分布影响(如阻抗公差、芯片性能、制 造工艺、温度等因素),准确分析解耦池化系统多样化拓扑和传输速率的互连链路风险与 传输距离极限。

**(3)运用新型供电与散热技术(如直流供电、液冷),提升计算密度与系统能效。**例如,可构建直流母线供电体系,缩短供电链路,降低损耗,提升功率密度。采用液冷技术, 提升服务器功率密度,并保证冷却液零泄漏。

优化散热系统流阻,提升传热系数,降低 PUE 值。这些技术可以有效提高计算密度,降低机房建设成本。

综上所述,数据中心级融合架构通过在互联、调度、软件和基础设施等多个层面进行 创新,实现资源的解耦和池化,支撑软件定义和业务驱动的新型数据中心,可显著提升 IT 基础设施的灵活性和使用效率。这是未来数据中心发展的重要方向。另外,数据中心级融合架构在支持业务敏捷性方面也具有发展潜力。

未来有望通过应 用感知调度技术,实现业务类型的智能识别,然后自动调配匹配的计算资源。

这种技术手段包括**😗* 应用特征抽取,通过分析应用程序代码、通信模式等自动提取应用特征;资源建模, 建立应用特征与资源需求之间的映射模型; 智能匹配, 根据实时业务负载和资源状况, 生 成动态资源调度方案。这种机制进一步提高了数据中心资源利用率,也使得业务部署和扩 展更加敏捷。

从战略高度看,数据中心级融合架构已经逐步在云计算中心、智算中心等领域开始落地,在助力企业实现 IT 基础设施数字化转型,具有多方面优势。

  • 首先,它支撑云计算、 AI 等新业务在数据中心层面的弹性部署,使企业 IT 系统具备敏捷性。
  • 其次,它提升资源利用效率,降低企业 IT 运营成本。
  • 再者,它简化系统架构,降低复杂性,减少运维工作量。 最后,它通过软硬件深度融合创新核心竞争力,助力企业应对数字化时代的竞争环境。

二、 新型计算模式融合

除了以 GPU、DPU、FPGA 为代表的 xPU 计算引擎外,计算领域还涌现出了其他引人 瞩目的技术,其中包括 PIM(Processing in Memory,存内计算)和量子计算。

业界专家预 测,量子计算有望在 3~5 年后实现一些小规模的实际应用。这些先进计算技术也面临着如 何融入当前多元异构计算平台的问题。

存算一体的计算架构融合代表着计算领域的一项重要前沿技术,其潜在影响巨大。

传统的 PIM 方法将计算引入了存储器中,实现了在存储器内部进行深度学习等神经网络计算 的创新。例如,美国加州大学的谢源教授在 JUMP 项目中推动一项名为“Intelligent memory and storage”的研究任务,探索如何在存储器内部实现智能计算。

三星电子在业内 率先将存算一体化(PIM)融合集成到高带宽内存(HBM)的进一步计算架构融合方案, 其 PIM 技术通过在内存内核中设计一个称为可编程计算单元 (PCU) 的 AI 引擎来处理一 些逻辑功能。

与现有内存解决方案相比,三星的 PIM 技术理论上可以通过可编程计算单元 (PCU)将性能提高 4 倍,同时降低能耗高达 70%。AMD 将这种存算一体技术进一步融 合,在其 Instinct MI100 GPU 计算加速卡中搭载了三星 HBM-PIM 技术的存储器。

国内也在 存算一体技术领域取得了显著的进展,推出了基于 SRAM 的存算一体芯片,如“摩鸿途 H30**”。这款芯片在** Int8 数据精度下,具备高达 256Tops 的最高物理算力,而仅需要 35W 的典型功耗。

与量子计算的架构融合是另一个关键方向。与传统计算机相比,量子计算机具有天然 的量子并行计算能力,已被证明在若干场景上具有相对于传统计算的极大优势。

*全球有超 过* *20* *家公司正在开展量子计算相关的研究。*

其中,在分布式超导量子计算方面,

  • 2019 年 谷歌公司 Sycamore 超导量子芯片包含了 54 个 Xmon 类型的超导量子比特;
  • 2021 年,中国科学技术大学研究团队推出了包含 66 个比特的“祖冲之号”超导量子处理器;
  • 2021 年 Rigetti 公司推出的“Aspen-M”具有 80 比特量子计算机,实现了利用芯片倒装技术集两个 40 比特量子芯片。

在光学量子计算方面,美国国家标准与技术研究院、代尔夫特大学、中 国科学院上海微系统与信息技术研究所等机构可以生产兼具高探测效率(> 90%)、高重 复频率(> 150 MHz)的超导纳米线单光子探测器,光学量子计算的基本操作(如概率性 的控制逻辑门)、各种量子算法的简单演示验证均已实现。

中国科学技术大学研究团队构 建了光量子计算原型机“九章”及其升级版“九章 2.0”,据此实现了量子优越性这一里程 碑。2022 年,Xanadu 量子技术有限公司在时间编码玻色采样上实现了量子优越性验证。 基于量子技术的演进,开始有公司研究量子计算平台的与传统计算平台的融合技术。例如, IBM 建立了自己的量子云平台,推出了含有 127 个比特的处理器等。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

更多推荐