边缘大型语言模型综述：设计、执行和应用

文章《Edge 大型语言模型综述：设计、执行和应用》由Yue Zheng等人撰写，发表于2025年8月31日的《ACM Computing Surveys》期刊。该期刊影响因子为23.8，属于SCI Q1分区和中科院工程技术1区。文章全面探讨了边缘计算环境下大型语言模型的设计、执行及其应用。通过分析现有技术和未来趋势，作者提出了在资源受限的边缘设备上优化和部署大型语言模型的方法，并展示了其在智能设

浮生若梦ん

1363人浏览 · 2025-05-09 14:59:49

浮生若梦ん · 2025-05-09 14:59:49 发布

(2025-08-31) A Review on Edge Large Language Models: Design, Execution, and Applications (Edge 大型语言模型综述：设计、执行和应用)

作者: Yue Zheng; Yuhao Chen; Bin Qian; Xiufang Shi; Yuanchao Shu; Jiming Chen;
期刊: ACM Computing Surveys （发表日期: 2025-08-31）
期刊分区: ㅤㅤ ㅤㅤIF 23.8 ㅤㅤ ㅤㅤ ㅤㅤ ㅤㅤ ㅤㅤ ㅤㅤSCI Q1 ㅤㅤ ㅤㅤ ㅤㅤ ㅤㅤ ㅤㅤ ㅤㅤ中科院工程技术1区 ㅤㅤ ㅤㅤ
本地链接: Zheng 等 - 2025 - A Review on Edge Large Language Models Design, Execution, and Applications.pdf
DOI: 10.1145/3719664
摘要: Large language models (LLMs) have revolutionized natural language processing with their exceptional understanding, synthesizing, and reasoning capabilities. However, deploying LLMs on resource-constrained edge devices presents significant challenges due to computational limitations, memory constraints, and edge hardware heterogeneity. This survey provides a comprehensive overview of recent advancements in edge LLMs, covering the entire lifecycle—from resource-efficient model design and pre-deployment strategies to runtime inference optimizations. It also explores on-device applications across various domains. By synthesizing state-of-the-art techniques and identifying future research directions, this survey bridges the gap between the immense potential of LLMs and the constraints of edge computing.

此文为机器辅助翻译，仅供个人学习使用，如有翻译不当之处欢迎指正

1 ABSTRACT

大型语言模型（LLM）凭借其卓越的理解、合成和推理能力，彻底改变了自然语言处理。然而，由于计算限制、内存限制和边缘硬件异构性，在资源受限的边缘设备上部署 LLM 会带来重大挑战。该调查全面概述了边缘 LLM 的最新进展，涵盖整个生命周期，从资源高效的模型设计和预部署策略到运行时推理优化。它还探讨了各个领域的设备应用程序。通过综合最先进的技术和确定未来的研究方向，这项调查弥合了 LLM 的巨大潜力与边缘计算的限制之间的差距。

2 Introduction

基于 Transformer 的大型语言模型（LLM）近年来取得了重大进展，重塑了自然语言处理（NLP）的格局。这种快速发展导致了几个开源 LLM 的出现，包括 Meta 的 LLaMA 系列 [38， 176， 177]、Google 的 Gemma [169， 170]，以及最近的 DeepSeek AI 的 DeepSeek 系列 [58， 113]。LLM 的成功源于它们在自然语言理解、合成、推理和生成方面的卓越能力 [35， 36]，推动了文档摘要、问答和文本重新表述等应用的突破 [92， 97， 115]。这些进步对学术和工业领域都产生了深远的影响，使 ChatGPT [135]、Copilot [129] 和 Gemini [168] 等广泛采用的工具得以开发。LLM 的持续进步突显了它们对人工智能 [23， 84， 194]、人机交互 [61， 72， 87] 等的变革性影响。

虽然基于云的部署传统上支持 LLM 的计算需求，但越来越需要将这些模型引入资源受限的边缘设备，包括个人代理 [147， 194]、办公助理 [61， 168] 和工业物联网（IoT）系统 [76， 174]。基于边缘的 LLM（直接在设备上执行）提供了关键优势：首先，本地推理可确保在没有互联网连接的情况下实现更快的响应和功能 [19]，这对于机器人和自主系统中的应用至关重要 [23， 31， 198]。其次，在设备上处理敏感数据消除了与云传输相关的风险 [42， 168]。最后，设备上学习使模型能够适应用户特定的偏好和上下文 [13， 86， 137， 143]。

但是，在资源受限的边缘设备上部署 LLM 会带来重大挑战。首先，计算和内存约束对 LLM 加载和推理施加了很大的限制。LLM 通常由数十亿个参数组成，导致巨大的内存占用超过大多数边缘设备的 RAM 容量 [27]。例如，具有 7B 参数的 LLaMA-2 [177] 模型需要超过 8 GB 的内存，即使在 FP16 精度下也是如此。如果没有压缩技术，边缘设备在模型加载期间面临延迟峰值和内存溢出的风险 [112]。此外，自我注意机制相对于序列长度的二次复杂性加剧了计算需求，在边缘中央处理器（CPU）、图形处理单元（GPU）或神经处理单元（NPU）上造成了严重的吞吐量瓶颈[156]。

其次，边缘计算设备的异构性使运行时推理优化复杂化。边缘设备包括具有 ARM CPU 和有限内存的智能手机，以及配备低功耗芯片的 IoT 设备。在移动设备上，llama.cpp [49] 和 MLC LLM [171] 等框架优化了计算运算符，而边缘 GPU 则采用 vLLM [95] 等方法来缓解内存带宽限制并提高吞吐量。有效的软硬件协同设计对于使工作负载与硬件特定功能保持一致至关重要。此外，硬件的选择（例如CPU、GPU或NPU）及其与软件框架的集成直接影响推理效率，因此需要针对不同边缘环境量身定制的适应性解决方案[225]。

最后，开发实用的边缘应用程序仍然具有挑战性，尤其是在将集中式 LLM 处理与分布式边缘场景联系起来时。在个人和企业应用程序中，AutoDroid [194] 和 WebAgent [61] 等框架展示了保持任务自动化的响应性和准确性的复杂性。对于自动驾驶汽车 [23， 174] 等工业系统，精确的任务优先级和动态资源分配对于平衡 LLM 推理与实时控制过程至关重要。这些特定于域的优化对于确保 LLM 满足资源受限设备上的实际延迟和可靠性要求至关重要。

![[Pasted image 20250417170245.png]]

为了应对这些挑战，我们设计了一个全面的优化工作流，将技术集成到基于边缘的 LLM 部署的整个生命周期中，如图 1 所示。从量化、修剪和知识蒸馏等预部署方法开始，该工作流支持创建紧凑、资源高效的模型，从而在保持性能的同时减少计算需求。然后将这些模型部署到边缘设备上，其中运行时优化（涵盖软件级策略、硬件级增强和硬件-软件协同设计）确保无缝适应异构环境。最后，优化的模型为各种设备上的应用程序提供支持，从个人助理到企业系统和工业解决方案，展示了边缘 LLM 的实际影响。这个统一的流程有效地解决了关键的部署挑战，展示了离线压缩和实时优化如何共同支持各种实际应用程序。

按照这个工作流，本调查旨在全面探索在边缘和移动设备上启用 LLM 所涉及的关键领域，包括三个关键方面，如图 2 所示。具体说来

离线预部署模型设计技术。它专注于压缩模型，以减小大小并简化在边缘设备上的部署。由于规模、Transformer 架构和不同的任务，量化、修剪、知识蒸馏和低秩逼近等传统方法在 LLM 中面临着独特的挑战 [2， 77]。这些挑战激发了为 LLM 量身定制的新型压缩方法。量化通过用更少的位表示权重和激活来减小 LLM 的大小 [112， 153]。修剪去除了不必要的注意力头或其他 Transformer 组件，无论是结构上的还是非结构性的 [94， 197]。知识蒸馏将知识转移到更小的模型 [82， 110]。低秩近似利用矩阵冗余进行有效压缩 [69， 109]。补充方法，如高级预训练策略、数据管理和架构优化，进一步提高了压缩效果 [127， 130， 169]。
在线运行时推理优化。它引入了推理优化技术，可以提高资源受限的边缘设备上的 LLM 性能。关键策略包括软件级优化、硬件-软件协同设计和硬件级优化。软件级优化包括用于云边缘协作的资源感知调度策略 [17， 161， 227]、单设备推理场景 [51， 154， 216] 以及用于高效内存管理和张量作的轻量级框架 [95， 157]。软硬件协同设计将软件算法与特定的硬件功能集成在一起，促进了高效的硬件分析，并实现了硬件感知推理算法[56,186]。硬件级优化介绍了常用的边缘硬件设备，突出了它们在设备上 LLM 推理方面的创新 [172， 213]。
基于 LLM 的设备上应用程序。它展示了设备上 LLM 对个人、企业和工业领域的实际影响。在个人应用中，它们为 AI 助手提供日常管理、医疗保健监测和陪伴等任务，提供隐私保护和低延迟交互 [72， 119， 194]。在企业设置中，设备上的 LLM 通过消息完成、会议摘要和敏感数据的安全本地处理来提高工作效率 [105， 175， 234]。在工业场景中，它们实现了自动驾驶、故障定位和异常检测等实时和本地处理能力，提高了复杂环境下的效率和安全性 [54， 84， 174]。

![[Pasted image 20250417170415.png]]

通过采用这些创新技术和方法，开发人员可以利用减小模型大小和提高计算效率的优势，促进 LLM 在边缘设备上的无缝集成。这一进步不仅提高了边缘计算性能，还拓宽了 LLM 在资源受限环境中的适用性，有可能彻底改变边缘 AI 应用的格局。

本文其余部分的结构如下：第2节研究了LLM复杂性和边缘设备能力之间不断扩大的差距，回顾了高效LLM和边缘计算的相关工作，并分析了设备上LLM优化的研究趋势，为我们的调查奠定了背景。第3节和第4节分别介绍了离线预部署技术和在线运行时优化的最新方法。第5节深入研究了llm的设备上应用，强调了它们的巨大潜力。第6节讨论了设备上llm领域的未来方向和开放挑战，而第7节总结了调查，总结了获得的关键收获和见解。

3 背景和相关工作

LLM 的快速发展和对边缘计算的需求不断增长，导致人们对在资源受限的设备上部署这些强大的 AI 模型的兴趣日益浓厚 [112]。然而，由于 LLM 的计算复杂性与边缘设备的能力之间存在显著差异，这一努力受到了阻碍。图 3 说明了这种不断扩大的差距，显示了估计的 LLM 预训练 FLOP [18， 148]（以 TFLOP 衡量）与边缘设备 [30， 34， 145]（以 TOPS 衡量）的 AI 性能与时间推移的演变。LLM 的预训练 FLOP 是使用广泛接受的启发式 C ≈ 6N D 来估计的，其中 N 表示模型的参数计数，D 表示预训练期间使用的标记总数 [85]。

![[Pasted image 20250417170537.png]]

该图清楚地说明了 LLM 快速增加的计算复杂性与边缘设备功能相对缓慢的改进之间的差距不断扩大。虽然 LLM 的估计预训练 FLOP 急剧增加，但边缘设备的 AI 性能提高的速度要慢得多。这种不断扩大的差距凸显了研究有效的 LLM 部署和实施方法的迫切需求，这正是我们调查的重点。

虽然之前对深度神经网络（DNN）架构上的高效学习技术进行了调查，例如卷积神经网络（CNN）和递归神经网络（RNN） [98， 190]，但它们并没有充分解决 LLM 带来的独特挑战，包括其更大的模型尺寸和注意力机制带来的复杂性。虽然研究已经解决了边缘环境中的资源管理 [222] 和安全增强 [192]，但这些研究主要集中在一般的深度学习上，而忽略了移动边缘计算中基于 transformer 的 LLM 的特定需求。

作为这些努力的补充，NLP 领域的研究也取得了重大进展。Xu 和 McAuley [200] 回顾了提高预训练 LLM 模型压缩和加速效率的方法。Hedderich 等人 [64] 在低资源NLP环境中提高性能的调查方法。Wan et al. [185] 对高效的 LLM 研究进行了全面回顾，将文献组织为以模型为中心、以数据为中心和以框架为中心的方法。Treviso et al. [178] 综合了在有限数据、时间、存储或能源的约束下进行 NLP 的方法，强调了性能和资源消耗之间的权衡。但是，这些工作并没有专门解决在边缘环境中部署 LLM 的挑战。因此，迫切需要对这一领域的重点研究。

我们的调查独特地提供了对边缘环境中 LLM 的全面分析。两个最相关的调查是 Mobile Edge Intelligence for LLMs [144]，主要关注跨不同计算节点的协作资源管理，以及 Personal LLM Agents [108]，它探索了 LLM 助手的应用和场景。但是，前者没有解决边缘设备的框架和硬件级优化问题，而后者缺乏对边缘设备运行时优化的系统分析。为了弥合这一差距，我们为边缘设备的 LLM 提供了一个整体的、自上而下的视角，涵盖了从离线预部署模型设计技术到在线运行时推理优化和各个领域基于设备端 LLM 的应用程序的整个优化工作流。我们的分析涵盖模型架构、压缩策略、软件级优化、硬件-软件协同设计以及基于 Transformer 的边缘架构的硬件增强。此外，我们还研究了旨在在资源限制下最大限度地提高 LLM 性能的设备端应用程序系统。这种多方面的方法使我们的调查与众不同，解决了边缘部署 LLM 的整个优化工作流中的挑战和解决方案。

![[Pasted image 20250417170644.png]]

图 4 显示了 2019 年至 2024 年设备上 LLM 研究的演变，分为预部署技术（蓝色）、运行时优化（紫色）和设备端应用程序（绿色）。在整个时期，人们一直在研究离线预部署技术，例如量化、修剪、知识蒸馏和低秩近似。在线运行时优化，包括软件级优化、硬件-软件协同设计和硬件级优化，从 2022 年开始受到关注。在时间线的后半部分，用于个人、企业和工业用例的设备端应用程序的出现尤为明显，这表明边缘 AI 和移动 LLM 部署的趋势越来越明显。这凸显了资源受限环境中 LLM 部署的快速发展和多样化，凸显了高效的设备端 AI 日益增长的重要性。我们的调查对这些趋势进行了全面分析，为该领域的未来研究和实践奠定了基础。

4 离线预部署模型设计技术

LLM 的激增催生了在移动和边缘设备上部署的需求激增，这是由于在连接受限的环境中增强隐私、减少延迟和提高服务可用性的必要性。这种范式向 LLM 的边缘计算转变。然而，由于 LLM 固有的计算复杂性和大量的内存需求，它带来了重大挑战 [77]。因此，离线预部署模型设计技术已成为一种关键策略，旨在大幅减少 LLM 的计算和内存占用，同时保持其性能完整性。这些技术在模型部署到目标边缘设备上之前应用，有助于在资源受限的环境中高效执行。

如图 5 所示，这些预部署技术包括五个主要类别：量化、修剪、知识蒸馏、低秩近似和互补方法。

![[Pasted image 20250417170727.png]]

4.1 Quantization

量化是一种压缩技术，可降低模型中数值的精度，为边缘设备提供显著的部署优势。然而，由于基于 Transformer 的模型的架构复杂性，将传统方法应用于 LLM 具有挑战性，这些模型严重依赖注意力机制和高维表示 [77]。这些特性导致了精度敏感的任务，而这些模型中的高动态激活范围加剧了量化的困难，往往会导致性能下降[15]。为了应对这些挑战，人们开发了专门的量化方法，通常侧重于两个主要领域：

权重量化：降低模型权重的精度。
激活量化：降低中间激活的精度。
如图 6（a）所示，它可以分为仅权重量化和权重激活共量化。

![[Pasted image 20250417170935.png]]

4.1.1 仅权重量化。

仅权重量化将模型权重的精度从高精度数据类型（例如 32 位浮点）降低到低精度数据类型（例如 8 位整数）。这减少了内存使用量，并可以加快资源受限设备上的推理速度。例如，Dettmers 等人 [32] 提出了 LLM.int8（），它可以在不牺牲性能的情况下减少推理过程中的内存需求。同样，Frantar等[45]介绍了GPTQ，这是一种将LLM权重压缩到较低位的后训练方法，解决了OBQ方法[43]的逐层量化挑战。此外，Lin等[112]提出了AWQ，它以高精度保留了突出的权重，同时量化了其他权重，优化了计算复杂性和能耗。其他仅权重量化方法，如 AQLM [40]、QuIP# [179] 和 GPUSQ-TLM [212]，也通过探索不同的量化策略和优化技术，为该领域的进步做出了贡献。

尽管取得了这些进步，但管理异常值权重中的量化误差仍然是一个挑战。SpQR [33] 和 OWQ [101] 等技术通过存储异常值 wei 来解决这个问题

4.1.2 权重激活共量化。

虽然仅权重量化提供了好处，但它可能会使激活值保持未压缩状态。权重激活共量化（量化权重和激活）提供进一步的压缩。例如，ZeroQuant [211] 结合了组权重和令牌激活量化。SmoothQuant [199] 通过使用每通道缩放转换提供无损 8 位量化。此外，Agile-Quant [153] 和 Q-Hitter [226] 采用激活感知技术来平衡性能和实时推理速度。除了讨论的进展之外，其他已建立的技术，包括QBERT[152]和TernaryBERT[221]，也在边缘环境权值激活联合量化的开发中发挥了作用。

尽管取得了这些进步，但处理共量化中的异常值问题仍然是一个挑战。QLLM [114] 和 OmniQuant [151] 等方法分别通过利用自适应校准和可学习变换来解决激活和权重异常值。

总之，LLM 的量化技术在模型压缩、性能和计算复杂性之间取得了平衡。仅权重方法，如 LLM.int8（） [32]，非常适合以中等压缩进行快速部署，而权重激活共量化方法（如 ZeroQuant [211]）提供更高的压缩率，但代价是复杂性增加和潜在的精度损失。

4.2 Pruning

修剪是通过减少参数数量来优化 LLM 的关键技术，从而减小模型大小并加快推理速度。然而，由于 LLM 架构的复杂性和注意力头等组件的不同重要性，在 LLM 中进行修剪是具有挑战性的。传统的修剪方法在CNN中有效，但在应用于LLM时面临局限性[104]。如图 6（b）所示，LLM 的专用修剪技术通常分为结构化和非结构化修剪，每种技术都有不同的权衡。

4.2.1 结构化修剪

结构化修剪通过删除整个结构组件（例如神经元、通道或层）来减小神经网络的大小。例如，CoFi [197] 使用不同粒度的多个修剪掩码来同时删除图层和注意力头。LLM-Pruner [124] 采用基于梯度的修剪，在保持模型性能的同时删除非关键单元，并结合 LoRA [71] 来恢复性能后修剪。LoRAPrune [219] 利用 LoRA 的权重和梯度进行重要性估计。剪切的LLaMA [196]修剪特定的层和维度，使用动态批量加载来获得特定领域的损失指标，非常适合资源受限的边缘设备。SliceGPT [10] 将 transformer block 信号矩阵投影到主组件上，删除多余的列或行以减小大小。FLAP [5] 制定重要性指标，支持自适应搜索最佳压缩模型并实施补偿机制以减轻性能损失。

4.2.2 非结构化修剪

非结构化修剪会删除单个权重或神经元，从而导致稀疏模型更难优化。运动修剪 [150] 在微调过程中根据权重动态调整修剪决策，保留表现出明显运动的重要权重。oBERT [94] 引入了一种二阶修剪方法，该方法同时支持非结构化修剪和块修剪。SparseGPT [44] 将修剪视为稀疏回归问题，允许一次性修剪而无需重新训练。即插即用 [224] 集成了基于激活的重要性，以选择性地修剪权重，进一步提高了大规模模型中的修剪稳健性。Wanda [160] 在每个输出的基础上修剪最小幅度的权重乘以相应的输入激活。BESA [204] 针对单个变压器模块的整体修剪误差，并以可微分的方式分配特定层的稀疏性。

总体而言，LLM 的修剪技术提供了各种平衡大小减小和性能保持的策略。CoFi [197] 和 LLM-Pruner [124] 等结构化修剪方法提供了受控的缩减，保持了架构的完整性，而非结构化方法，如 Movement Pruning [150] 和 oBERT [94] 提供了更大的灵活性，但可能会导致不规则的稀疏模型。在实践中，方法的选择取决于具体的部署场景，考虑到模型大小、计算效率和任务性能之间的权衡。

4.3 Knowledge Distillation

知识蒸馏将知识从复杂的教师模型转移到更简单的学生模型，从而在不牺牲性能的情况下创建计算高效的替代方案。此过程减少了模型大小、计算成本和部署要求，同时增强了学生模型的多样性和稳定性。然而，由于转换者中传递内部表征的困难和注意力机制的复杂性，从大型教师模型（如 LLM）中提取知识仍然具有挑战性 [77]。如图 6（c）所示，LLM 的蒸馏方法分为白盒和黑盒方法，每种方法都专为处理 LLM 的规模和复杂性而量身定制。

4.3.1 白盒知识蒸馏

白盒知识蒸馏利用对教师模型的架构和参数的访问，使用内部功能和 logit 进行知识转移。MiniLM [189] 从最终的 Transformer [183] 层中提取知识，减轻了层到层映射的复杂性，而 MiniLMv2 [188] 将其扩展到与任务无关的压缩。其他重要贡献包括 MobileBERT [162] 和 TinyBERT [83] 共同奠定了该领域的基础。

为了减少教师和学生模型之间的容量不匹配，MiniLLM [53] 中的反向 Kullback-Leibler 发散和 TED [110] 中的逐层对齐等技术提高了蒸馏的有效性。KPTD [138] 和 TSLD [89] 分别通过基于实体的转移和代币规模的 logit 蒸馏进一步完善了这一过程。MiniMoE [217] 通过采用专家混合（MoE）模型解决了容量差距，提高了 LLM 白盒蒸馏的可扩展性。FUSELLM [184] 整合了现有 LLM 的功能并将它们转移到一个单一的 LLM 中，从而提升了目标模型的能力。这些进步有助于白盒知识提炼的发展前景。

4.3.2 黑盒知识蒸馏

黑盒知识蒸馏只关注教师模型的输出，绕过了内部模型细节。当教师模型是专有的或通过 API 部署时，这种方法很有价值。思维链（CoT）蒸馏旨在将推理能力从 LLM 转移到较小的学生模型 [68， 106]。例如，Distilling Step-by-Step [68] 使用 LLM 基本原理来监督特定任务的模型，从而提高数据集质量和模型性能。Fine-tune-CoT [65] 成功地将推理从大型模型（超过 100B 参数）转移到学生身上，只需 0.3B 即可。SCoTD [106] 进一步提高了有监督和小样本任务的性能。CoT 蒸馏的其他方法包括苏格拉底 CoT [155] 和 MCC-KD [22]。

黑盒蒸馏还包括专注于指令跟踪的方法，这是 LLM 在实际应用中的一项关键能力。Lion [82] 采用对抗性蒸馏来生成复杂的指令，产生一个与 ChatGPT 相当的 13B 参数模型 [135]。DISCO [28] 提取反事实数据以提高鲁棒性，而 LaMini-LM [195] 使用不同的指令集来有效地压缩大型模型。

总之，白盒方法，如 MiniLM [189]，在模型内部可访问的场景中表现出色。相反，黑盒方法，如 Lion [82]，在无法访问模型内部的工业或专有环境中很有价值。

4.4 Low-Rank Approximation

矩阵分解技术，例如主成分分析和正则化矩阵分解，在提高 CNN 和 RNN 的泛化和互作性方面发挥着关键作用。这些方法将高维数据简化为低维空间，从而提高了模型性能[77]。然而，基于transformer的llm的大规模参数对传统的因子分解方法提出了挑战，因为它们的计算复杂性和独特的结构元素，如头部注意力和前馈网络，需要专门的适应[48]。为了解决这些问题，低秩近似已成为Transformer框架内一种有前途的策略[21,25]。

如图 6（d）所示，该技术近似于高维矩阵 Wm×n 与两个低秩矩阵 Um×r 和（VT ）r ×n 的乘积，其中 r 比 m 和 n 小得多。例如，ALBERT [99] 将低秩近似应用于词汇嵌入，将隐藏层大小与词汇大小解耦。FWSVD [69] 通过将 Fisher 信息纳入权重参数重要性来增强奇异值分解，而 DRONE [25] 通过利用数据分布优化权重矩阵压缩。LoSparse [109] 等创新引入了一种分离相干和非相干神经元成分的方法，其性能优于传统的修剪方法。此外，LLM 中固有的低秩特性导致了基于贝叶斯优化的特征压缩技术 [78]。SFSD [21] 优化了特征空间近似，使用高斯草图的快速随机算法有助于在消费级硬件上实现高效的低秩分解 [149]。

总之，低秩近似有效地减少了 LLM 中的参数，使其成为优化嵌入层和注意力权重等大规模矩阵的理想选择 [206]。通过最大限度地减少冗余，它可以显著降低存储和计算成本，同时保持性能。

4.5 互补方法

LLM 领域的最新研究见证了范式转变，转向开发专门为紧凑模型量身定制的创新方法，通常具有大约 10B 参数或更少。如图 7 所示，这些技术进步包括：

数据预处理：精心策划高质量训练数据 [55]。
分组查询和多查询注意力：注意力机制的优化 [3]。
旋转位置嵌入（RoPE）：高级位置信息编码 [159]。
逐层缩放：参数在模型层之间的战略分布 [126]。

![[Pasted image 20250418120305.png]]

这些技术的集成使紧凑型 LLM 在资源受限的边缘设备上表现出色，支持不同场景中的高性能 AI 应用。例如，Meta的LLaMA系列[6,38,176,177]通过在精心策划的数据集上进行有效的预训练，并利用分组查询注意力和RoPE来提高推理速度，减少缓存大小和扩展上下文长度，取得了显著的性能提升。同样，Microsoft 的 Phi 系列 [1， 55， 130] 展示了数据预处理的影响，使用高质量的合成和过滤数据集在基准测试中优于大型模型。Google 的 Gemma 模型 [169， 170] 结合了多查询注意力和 RoPE 来平衡效率和准确性，而 Apple 的 OpenELM 系列 [127] 采用逐层扩展和分组查询注意力来优化低功耗设备的性能。其他值得注意的紧凑型 LLM，如 Pythia [14]、OPT [220]、Qwen [12， 207] 和 MobileLLM [117] 也受益于类似的优化，从而加强了小规模模型在边缘部署中不断增长的潜力。

虽然这些方法显著减少了参数数量和资源需求，但它们的开发和优化主要由拥有大量计算资源和领域专业知识的大型组织执行[127]。然而，个人研究人员仍然可以通过使用 Hugging Face 的预训练紧凑型 LLM 而受益。这些模型通常具有优化的权重和配置，可以部署在边缘设备上以进行高效推理，降低准入门槛，并在资源有限的环境中更广泛地访问高级 AI 功能 [14， 176]。

4.6 比较分析和选择

LLM 的离线预部署技术的有效性取决于模型架构、部署约束和性能要求。随后的比较提供了一个分析，以指导从业者为其用例选择最合适的技术。

应通过对部署环境、硬件约束、性能要求和 LLM 特征的全面分析来选择适当的预部署技术。例如，具有严格内存限制但计算资源适中的场景可能会受益于仅权重量化（例如，LLM.int8（） [32]）和结构化修剪（例如，CoFi [197]）。相反，需要最大压缩并容忍精度损失的应用程序可能会采用权重激活共量化（例如，SmoothQuant [199]）和激进的非结构化修剪（例如，运动修剪 [150]）。知识提炼技术，如 MiniLM [189] 或 Lion [82] 适用于将知识从较大模型转移到较小模型，根据教师模型的可访问性，可以选择白盒或黑盒方法。对于具有大型冗余矩阵的模型，ALBERT [99] 或 LoSparse [109] 等低秩近似方法可以有效地减小模型大小，同时保持性能。在实践中，结合使用多种技术通常会产生更好的结果。ZeroQuant [211] 证明了将量化与知识蒸馏相结合的有效性。NVIDIA 的 Nemotron-4 4B [134] 在设备上推理方面表现出高性能，它是从 Nemotron4 15B [140] 中删减和提炼出来的。DeepSeek-R1 [58] 从 Llama 3 [38] 等紧凑模型中提炼知识，形成边缘优化的 1.5B 模型，通过大规模强化学习进一步细化数学、代码生成和复杂推理，显著增强推理能力。

在可行的情况下，开发本质上高效的架构，如 LLaMA [176] 或 Gemma [169] 可以在严格的资源限制下提供最佳性能。这些方法通常由能够获得高质量数据和充足计算资源的大型科技公司开发，表明谨慎的架构设计和训练策略可以产生高效的模型，而无需进行大量的训练后压缩。

5 在线运行时推理优化

我们之前讨论了预部署阶段的离线优化技术，包括模型压缩技术和边缘设备的预训练紧凑模型。本节将介绍直接在边缘设备上高效推理 LLM 的运行时优化。如图 8 所示，这些优化分为三个领域：第一，软件级优化，侧重于独立于硬件的算法策略、资源调度和框架优化;第二种是硬件-软件协同设计，它涉及协同优化的解决方案，通过调整稀疏性和量化等技术来利用特定的硬件功能，使其对硬件友好;第三部分是硬件级优化，它突出了旨在提高 LLM 性能的硬件创新。

![[Pasted image 20250418120717.png]]

5.1 软件级优化

软件级策略可分为云和多边协同、单设备资源调度和框架级优化，所有这些策略都专注于优化软件算法、系统、框架或引擎，而无需针对特定硬件进行修改。

5.1.1 云和多边协作

通过有效分配计算工作负载，跨云和边缘设备的协作计算在提高 LLM 性能方面发挥着关键作用 [37， 187]。尽管它已在视频分析等任务中得到广泛使用 [7， 75， 80， 120， 122， 137， 225]，但用于 LLM 计算的多设备和云边缘协作仍处于起步阶段，通常遵循以下两种方法之一：分割推理或推测解码，如图 9 所示。

拆分推理通过跨云和边缘设备对计算进行分区来优化资源利用率并加速推理。PETALS [17] 聚合来自不同来源的空闲计算资源，以确保在动态网络条件下的稳健性能。Voltage [70] 通过在边缘设备之间分配变压器层来提高吞吐量，通过并行计算实现线性加速。EASTER [60] 通过自适应分区策略解决了可靠性挑战，这些策略在设备故障时也能保持性能。LinguaLinked [227] 通过将模型段与可信设备功能对齐，从而增强移动场景的拆分推理，从而实现高效的数据交换。诸如无奖励指导[63]和Hepti[102]等方法进一步优化卸载决策，并根据网络和资源条件动态调整工作负载。基于这些进步，Zhang et al. [223] 提出了一个树搜索框架来有效地管理请求批处理和资源分配，展示了自适应和高效的云边缘协作的潜力。

![[Pasted image 20250418120908.png]]

推测性解码 [103] 解决了分割推理的一个关键限制，其中中间特征的传输通常会产生大量的通信开销。相比之下，推测解码从边缘设备上传初步结果，并仅从云端 LLM 下载经过验证的结果。这种简化的通信机制为带宽或延迟约束至关重要的场景提供了一种实用的替代方案。例如，SpecTr [161] 使用边缘设备上的轻量级模型来提出代币草案，从而能够通过更大的云模型进行并行验证。Tabi [191] 使用校准的置信度分数来决定是否将令牌上传到云端进行验证。EdgeLLM [201] 构建在推测解码之上，具有分支导航和自适应回退策略，可实现快速准确的令牌生成。

![[Pasted image 20250418121058.png]]

为了简要概述云和多边缘协作的进步，表 1 总结了主要文献。该表重点介绍了每项工作的关键方法、目标和应用场景，为拆分推理和推测解码的进展提供了比较视角。通过集成这些方法，未来的研究可以更有效地解决延迟、可靠性和资源限制等挑战。

5.1.2 单设备资源调度

单设备推理的高效调度建立在分层方法之上，其中不同的技术从互补的角度解决优化挑战。如图 10 所示，最近的进展可以分为 token 减少、提前退出和动态卸载。

![[Pasted image 20250418121116.png]]

Token reduction 侧重于通过选择性地消除不必要的 Token 或 Importing 来减少计算负载。例如，PoWER-BERT [51] 消除了非关键词向量。Length-Adaptive Transformer [88] 使用名为 LengthDrop 的 dropout 变体动态调整输入序列长度。LTP [91] 根据注意力分数修剪不太重要的标记。此外，LLMLingua [79] 在标记级别迭代压缩提示，而 AutoCompressors [29] 将长上下文窗口简化为更紧凑的摘要向量。这些技术共同旨在最小化输入大小，确保只处理最重要的数据，从而优化内存使用并减轻边缘设备的计算负担。

一旦达到预定义的置信度阈值，Early exiting 就会终止推理，从而减少模型前向传递期间不必要的计算。这种技术可以进一步受益于减少的输入大小。例如，PABEE[231]通过在每一层集成内部分类器来提高预训练语言模型的效率和鲁棒性。MPEE [93] 结合了水平和垂直早期退出策略，用于自适应推理。FREE [11] 提出了一个浅深模块，用于将当前 Token 的解码过程与之前堆叠的提前退出 Token 同步。ConsistentEE [216] 集成了强化学习，以确定最佳的早期退出点，平衡推理速度和结果准确性。LeeBERT [233] 和 FastBERT [116] 等技术通过提前退出和逐层置信度评估实现自适应计算，确保在保持输出质量的同时实现高效的资源利用。

动态卸载通过将任务分配到不同的处理单元来进一步优化资源利用率。像STI[59]这样的技术引入了弹性流水线，其中模型组件被动态分片并分配给可用资源。FlexGen[154]通过利用混合内存模型进一步完善了这一概念，利用GPU、CPU和具有智能I/O调度的磁盘内存来卸载计算密集型任务。闪存中的 LLM [4] 将模型参数存储在闪存中，并将其动态加载到 DRAM 中进行推理。它们确保工作负载平衡，确保边缘设备能够以最小的瓶颈高效处理大规模 LLM 推理。

![[Pasted image 20250418121337.png]]

最近的研究，如MELTing Point [100]，通过评估各种模型大小和设备的性能、内存和能源需求，提供了超越传统基准测试的见解。这些分析揭示了计算效率、体验质量和准确性方面的关键瓶颈，为算法和硬件的进步奠定了基础。如表 2 所示，它们增强了对单设备资源调度优化的理解，解决了边缘推理任务的计算效率和资源分配方面的挑战。

5.1.3 框架级优化

为了满足边缘计算的性能和可移植性需求，框架级优化侧重于专门设计的轻量级框架、库和引擎。例如，PyTorch 因其灵活性和生态系统支持而被广泛采用，它还通过 ExecuTorch [142] 将其功能扩展到边缘计算，通过针对低延迟场景优化的执行计划实现高效的 LLM 推理。

在此基础上，DNNFusion[131]使用高级算子融合优化移动执行，结合图重写和融合计划生成。SmartMem[132]通过消除冗余布局转换和选择最佳内存布局来减少内存开销。PowerInfer [157] 通过将频繁激活的神经元预加载到 GPU 上并在 CPU 上处理不太活跃的神经元来最大限度地减少内存和数据传输开销，从而提高运行时效率。此外，vLLM [95] 引入了 PagedAttention，其灵感来自虚拟内存管理，将注意力键值缓存分割成块，从而实现跨序列和请求的高效内存共享。这种方法提高了内存效率，同时支持量化方法和优化的 GPU 内核，使 vLLM 适用于边缘使用。

![[Pasted image 20250418121436.png]]

如表 3 所示，框架级优化生态系统包括为边缘设备上的 LLM 部署量身定制的工具。该表按框架的描述、平台兼容性和对相关作品的引用对框架进行分类，帮助读者确定合适的选项并从以前的实现中学习。

5.2 软硬件协同设计

软硬件协同设计是一种跨学科方法，它集成了硬件和软件优化，以提高机器学习模型的性能、能效和可扩展性。与孤立的优化策略不同，协同设计将算法创新与硬件特定功能保持一致，解决了边缘设备的独特限制，例如有限的功率、内存和计算资源。这种协同作用对于在资源受限的平台上实现 LLM 中的高效推理至关重要。

为了全面概述协同设计优化，表 4 比较了软件功能和硬件平台，突出了各种方法实现的推理加速和能效。技术分为两个主要领域：硬件感知稀疏性和硬件优化的算术格式。这些分类反映了不同的优化重点，从而可以更清楚地了解它们各自的贡献。

![[Pasted image 20250418121540.png]]

5.2.1 硬件感知稀疏性

硬件感知稀疏性侧重于将特定于硬件的考虑因素集成到模型设计中。此策略可以进一步分为两种主要方法：ASIC 上的稀疏性和内存中加速器上的稀疏性。

ASIC 上的稀疏性。基于 ASIC 的加速器通过定制电路设计实现对模型稀疏性的精细控制。基于模拟器的方法探索早期设计：SpAtten [186] 采用 token 修剪和 top-k 排名引擎来确定 token 和 head 重要性的优先级。Sanger [118] 协同协同地共同设计了软件，将注意力矩阵修剪成动态结构化模式和具有可重构架构的硬件。EdgeBERT [163] 动态调整电压和频率，修剪网络，并量化浮点。TaskFusion [42] 将权重和激活稀疏性与硬件感知的子任务推理算法相结合。AccelTran [182] 使用周期精确仿真器动态增强激活稀疏性。实际的流片验证了这些设计：STP [165] 通过混合精度计算和细粒度电源管理优化延迟和能量。同样，C-Transformer [90] 集成了尖峰和非尖峰变压器，实现了高稀疏性和硬件利用率，说明了混合架构的潜力。

内存中加速器的稀疏性。内存加速器通过将计算嵌入到内存数组中来解决数据移动挑战。内存处理（PIM）通过靠近内存的计算单元来增强传统内存层次结构，而内存计算（CIM）将计算功能直接嵌入到内存单元中，以实现精细作。基于 PIM 的稀疏设计，如 TransPIM [229]，使用基于令牌的数据流和高带宽内存来最大限度地减少通信开销，而 X-Former [158] 将软件级注意力引擎与非易失性存储器和 CMOS tiles 相结合。基于 CIM 的稀疏性设计，如 TranCIM [180]，动态地重新配置流网络和位线转置结构，以降低复杂性。MulTCIM [181] 通过运行时标记修剪和注意力矩阵重塑解决了混合稀疏性问题，从而提高了可扩展性和效率。

比较洞察。ASIC 加速器通过细粒度稀疏性在吞吐量优化方面表现出色，而内存加速器则专注于通过基于令牌的设计减少数据移动。总之，这些方法展示了硬件感知稀疏性在边缘场景中的变革潜力。

5.2.2 硬件优化的算术格式

硬件优化的算术格式通过平衡计算精度和硬件效率来优化推理性能。这些格式采用两种协同策略：低位算术和动态自适应编码。

硬件优化的低位算术格式。低位算术格式将模型参数的数值精度降低为固定的低位表示形式，为专用硬件加速器量身定制。例如，GOBO [214] 将 32 位浮点参数减少到仅 3 位，从而显著降低了功耗。Mokey [215] 将参数量化为 4 位表示，从而实现面积和能效高效的硬件加速。OliVe [56] 引入了一种异常值-受害者对量化方法，该方法牺牲了正常值来容纳异常值，从而实现更高效的内存对齐并提高性能。

硬件优化的动态自适应编码。动态自适应编码根据运行时要求调整数值精度，与固定的低位格式相比，提供了更大的灵活性。AdaptivFloat [164] 动态调整张量范围的指数偏差，以保持低位宽的准确性。ANT [57] 引入了一种灵活的自适应数据格式 Flint，它结合了浮点和整数精度，以实现低位量化，同时具有最小的硬件开销。

比较洞察。低位格式提供能源效率和可预测的性能，但可能会牺牲准确性，而自适应编码以增加复杂性为代价提供精度灵活性。将这两种策略结合起来可以为设备上的 LLM 产生稳健且适应性强的软硬件设计。

总之，软硬件协同设计代表了在边缘设备上优化 LLM 的关键途径。然而，大部分研究仍处于仿真阶段，在通用异构平台上的实际部署有限。通过总结这些方法，我们旨在强调定制的软件优化如何利用特定于硬件的功能来超越现有硬件平台上的类似算法。本讨论为在资源受限的环境中部署高效且可扩展的 LLM 的未来发展提供了指南。

5.3 硬件级优化

硬件架构的开发对于在设备上部署 LLM、提高推理速度和能效至关重要。表 5 概述了主要的商用硬件芯片，重点介绍了 AI 性能和相关研究。

AI性能专栏突出了片上系统（soc）、cpu和gpu的关键指标，而相关工作专栏帮助读者从以前的实现中识别合适的硬件并探索相关的优化策略。

![[Pasted image 20250418121813.png]]

5.3.1 CPU

AI 工作流的基础。CPU 仍然是 AI 工作流管理的基础，提供必要的灵活性和系统级集成。最近的进展扩大了他们在 LLM 推理中的 LLM 潜力。例如，Raspberry Pi 4B（8 GB RAM）上的 Arm Cortex A72 与 Agile-Quant [153] 配对时，可实现 LLaMA-7B [176] 的低延迟推理。由 AQLM [40] 增强的 Intel i9-13900k [74] 为 LLaMA-2 模型 [177] 提供了高效的推理。

然而，针对顺序任务优化的 CPU 架构难以处理 LLM 推理所需的并行计算，尤其是在需要实时性能和能效的边缘场景中。为了解决这个问题，现代 CPU 通常与 Apple 的 M 系列或 A 系列 SoC [8， 9]、Google 的 Tensor G4 [50] 和高通骁龙芯片 [172] 等 SoC 中的专用加速器（例如 GPU 和 NPU）结合使用。这些异构架构旨在通过集成通用和并行处理单元来平衡灵活性和性能。但是，管理这些组件之间的数据流和功耗仍然是一项挑战。

5.3.2 GPU

并行加速。为了解决 CPU 的低效率问题，GPU 被开发为高度并行的处理器，以加速边缘计算中的计算密集型任务。GPU 配备数百或数千个较小的内核，支持为 LLM 推理进行大规模并行计算。现代边缘 GPU，如 NVIDIA Jetson 系列 [34]，具有专用硬件，如 Tensor Core，针对 LLM 推理任务中普遍存在的矩阵运算进行了优化。例如，Yuan等人[213]演示了在NVIDIA Jetson ORIN NX[34]上进行LLM推理的可行性。

然而，GPU 在边缘场景中面临着巨大的功耗挑战，通常需要在云和本地资源之间分配密集计算的混合模型。此策略平衡了高性能推理与移动和边缘设备的能源限制。此外，GPU 经常与异构系统中的 CPU 和 NPU 集成，使集成和资源管理复杂化。这些处理器之间的有效调度和任务卸载是边缘部署中的关键挑战，需要先进的软件框架来确保高效协作。

5.3.3 NPU

神经网络优化。NPU 是专门用于优化神经网络计算的加速器，可显著提高边缘 LLM 推理的性能和能效。通过采用低精度算法（例如 INT8）和高度并行化架构，NPU 能够以最小的功耗实现实时推理。值得注意的例子包括 M 系列或 A 系列芯片中的 Apple 神经引擎 [8， 9] 和高通在 Snapdragon 处理器中的 AI 引擎 [172]，它们增强了设备上的 LLM 功能并减少了对云的依赖。

但是，NPU 面临限制其更广泛适用性的关键限制。它们针对一组有限的神经网络运算符进行了优化，使其与许多现代 LLM 架构不兼容。这通常迫使 CPU-NPU 协处理等回退策略，这可能会抵消性能提升。此外，神经架构的快速进化使问题进一步复杂化，因为 NPU 难以跟上模型的多样性和复杂性，需要广泛的适应或无法完全执行某些模型 [213]。在异构硬件环境中，NPU 与 CPU 和 GPU 的有效集成至关重要，因为 NPU 的专用化可能需要将任务卸载到通用处理器，从而使资源管理复杂化。

总之，在线运行时推理优化通过软件级优化、硬件-软件协同设计和硬件级增强来提高边缘设备上的 LLM 性能。这些方法补充了离线预部署技术，形成了一种全面的设备端 LLM 优化方法。离线技术通过预训练和微调来降低计算复杂性和内存占用，而运行时策略则侧重于高效的资源利用、动态适应和可扩展性。集成这两个阶段对于资源受限平台上的高性能 LLM 至关重要。

6 基于 LLM 的设备上应用程序

利用紧凑的模型和运行时优化，设备上的 LLM 可在边缘环境中实现高效、低延迟和保护隐私的 AI。如图 11 所示，基于 LLM 的设备上应用程序系统跨越个人、企业和工业领域。

6.1 个人使用应用程序

设备上的 LLM 可在边缘环境中实现无处不在的 AI 体验，推动个人助理、医疗保健助理和伴侣机器人的进步。

6.1.1 个人智能体

设备上的llm通过提供针对个人需求定制的低延迟、隐私保护和始终可用的支持，正在改变个人数字助理。AutoDroid[194]将食品订购和健康跟踪等日常任务自动化，利用多粒度令牌修剪技术在移动设备的有限计算预算内高效运行。同样，LlamaTouch[218]重新定义了移动UI任务自动化评估，而CoCo-Agent[125]增强了GUI自动化，用于与真实世界环境的复杂交互。这些进步通过自动化日常任务，包括电子邮件管理、照片编辑和调度，简化了个人的工作效率[194]。

![[Pasted image 20250418124423.png]]

6.1.2 医疗保健助理

在医疗保健领域，设备上的 LLM 通过在临床决策和心理健康分析等领域提供特定领域的支持来展示多功能性。BioMistral [96] 是一个 7B 生物医学 LLM，它体现了特定领域的微调和量化之间的协同作用，以实现低延迟推理。PathChat [119] 通过连接视觉编码器和 LLaMA-2 模型的多模态投影仪模块集成视觉和自然语言输入[177]，从而改变了病理学教育和研究。Mental-LLM [205] 和 MentaLLaMA [209] 专注于社交媒体平台上的可解释心理健康分析。Ondevice LLM 还支持可穿戴应用程序，例如 ODSearch [147]，它为健身追踪器数据提供自然语言界面，提供近乎实时的搜索功能。

6.1.3 伴侣机器人

设备上的 LLM 通过实现快速、上下文感知的交互并在语言和非语言任务中表现出色，正在改变伴侣机器人。这些机器人可以通过对话建立联系，与用户协商，生成上下文适当的响应，并执行需要物理交互的作。3D-LLM [66]集成了3D环境推理和规划，使机器人能够分析空间环境并做出明智的决策。E2WM [198]用嵌入的知识和技能增强了多个紧凑的LLM（如LLaMA [176]和OPT [220]），提高了在动态环境中的适应性。内心独白 [72] 通过允许 1.3B InstructGPT [136] 对自然语言反馈进行推理，以便在具体任务中更好地规划和执行，从而增强了这些功能。

6.2 企业应用程序

设备上的 LLM 可以提高企业隐私和成本效益，从而改进消息完成、会议摘要和计算机作等任务。

6.2.1 消息完成

设备上的 LLM 通过生成上下文感知响应来简化企业通信，通过自动回复提高工作效率。例如，Google 的 Gboard [146] 集成了 Gemini Nano [168]，用于实时、上下文相关的建议，利用云边缘框架，其中云处理复杂任务，边缘管理轻量级交互。Zhu et al. [234] 提出了一种以移动为中心的文本重写 LLM，具有高效的数据集生成和级联机制，而 ChatEval [20] 自主评估文本质量，与人类判断密切相关。

6.2.2 会议总结

在会议中，设备上的llm实现了关键讨论和决策的自动摘要，在保持高效率的同时，为基于云的解决方案提供了保护隐私的替代方案。例如，MobiVQA[19]提供了一个高效的设备上视觉问答系统，具有基于注意力的提前退出和问题感知修剪技术。Tian等人[175]提出了一种面向角色的对话摘要的MoE框架，以增强商业环境中的上下文细微差别。

6.2.3 计算机操作

设备上的 LLM 有助于为计算机作提供自然语言界面，实现任务自动化并减少用户认知负荷。WebAgent [61] 通过实时编程在网站上执行任务。SheetCopilot [105] 通过将自然语言命令转换为可作的任务来简化电子表格交互。RCI 代理 [87] 使用 LLM 通过键盘和鼠标在计算机上自主完成任务，迭代优化其输出以提高性能。这些系统利用云边缘协作，云处理密集规划，边缘执行轻量级、隐私保护作。

6.3 工业应用

设备上的 LLM 通过在自动驾驶、故障定位和异常检测等应用中实现实时分析和决策来增强工业系统，同时减少网络开销并缩短响应时间。

6.3.1 自动驾驶

设备上的 LLM 通过将语言理解与导航和决策相结合来增强自动驾驶。DriveVLM-Dual [174] 使用可视化 LLM 通过自然语言解释城市环境并规划路线，并高效部署在 NVIDIA Orin 平台上 [34]。LLM-Driver [23] 利用对象级向量输入进行可解释的驾驶动作预测。同样，VLP [139] 加强了自动驾驶系统中的情境理解和记忆基础。这些进步证明了 LLM 在自动驾驶领域的变革潜力。

6.3.2 故障定位

在软件故障定位方面，基于 LLM 的技术比传统的机器学习方法有了显著改进。AutoFL [84] 通过导航软件存储库和缓解 LLM 上下文长度限制来生成错误解释并识别错误位置。LLMAO [208] 无需依赖广泛的程序分析或测试用例即可检测逻辑和安全漏洞，其性能优于基于深度学习的方法。Toggle [67] 采用定制的提示和调整模块来定位和修复 token 级别的错误，从而实现精细调试。

6.3.3 异常检测

设备上的 LLM 还通过利用多模态功能和高效的特征聚合来推进工业异常检测 [230]。WinCLIP [76] 支持使用状态词融合和提示模板进行零镜头和少镜头异常分类和分割。AnomalyGPT [54] 采用大型视觉语言模型直接识别异常，无需手动调整阈值，同时展示了强大的小样本学习性能。ALFA [232] 通过生成自适应提示、减少语义歧义和融合局部像素级信息以实现精确定位，解决了零镜头视觉异常检测问题。

总之，设备上的 LLM 使用离线和在线优化技术来实现高效、私有和响应迅速的边缘 AI 应用程序。量化、修剪和紧凑模型设计（例如 Gemini Nano [168]、BioMistral [96]）等离线方法减少了模型大小和计算需求，使其适用于资源受限的设备。这些由运行时优化提供支持，例如云边缘协作（例如 WebAgent [61]）、早期退出（例如 MobiVQA [19]）和硬件加速（例如 NVIDIA Orin 上的 DriveVLM-Dual [174] [34]）。总而言之，这些策略突出了离线压缩和运行时效率之间的协同作用，推动了个人、企业和工业应用的创新。

7 未来方向和开放挑战

LLM 在移动边缘设备上的快速部署提供了机会，但也面临关键限制。首先，由于设备异构性，从集中式服务器过渡到去中心化边缘节点带来了挑战，包括计算能力、通信延迟和容错性的变化 [81， 120]。其次，许多硬件-软件协同设计技术在仿真中显示出前景，但在实际异构部署中经常失败[193]。第三，设备上的 LLM 难以应对需要多跳推理的复杂场景，例如动态多智能体交互或个性化应用程序中的实时适应 [26， 202， 203， 210]。这些限制阻碍了有效的推理，并使基于稳健的边缘 LLM 系统的设计复杂化。在下文中，我们探讨了解决这些限制的关键研究方向和开放挑战：

紧凑的 LLM 架构开发。传统的基于Transformer的模型[183]是计算密集型的，由于其高内存和处理需求，对于边缘设备来说是不切实际的。为了解决边缘设备的异构性问题并减少资源消耗，Mamba [52] 通过选择性机制引入了线性计算扩展，而 Jamba [111] 结合了 Transformer 和 Mamba 层以实现更好的适应性。然而，在边缘设备上部署这些模型面临挑战 [52， 111]：（1）它们的选择性状态空间架构需要大量的计算资源和内存带宽;（2）与 transformer 相比，它们的递归性质本质上限制了并行化和硬件加速;（3）由于选择性状态空间和非线性组件之间的相互作用，通过量化和修剪来优化它们很复杂。

创新的边缘-云协作。云边缘协作可以缓解单个边缘设备内存和计算能力不足的限制，这在拆分推理 [17] 和推测解码 [103] 等技术方面取得了进展。然而，边缘部署的分布式解码策略仍未得到充分探索。分离式预填充和解码[228]等技术将任务分开以优化资源分配，显示出减少相位间干扰的潜力。然而，要实现高效的边缘云协作，解决容错和通信成本带来的挑战至关重要。

使用模拟技术进行异构部署。许多用于边缘 LLM 推理的软硬件协同设计方法 [56， 163， 186] 已经在仿真或特定的 ASIC 原型上进行了评估，但其局限性是无法在通用硬件平台上有效使用。未来的研究应侧重于提高异构硬件平台（包括 CPU、GPU 和 NPU）的可扩展性 [213]。通过针对实际场景进行优化，这些方法可以实现更快、更节能的 LLM 推理，同时应对动态工作负载和各种硬件配置的挑战。

基于图的 LLM 开发。设备上的 LLM 在处理与图形相关的推理任务时面临重大限制，这些任务对于社交网络、生物学和交通等领域的复杂关系和多跳推理至关重要。最近的方法，包括用于结构化数据提取的 GraphRAG [39]、用于通过结构知识对齐进行图解释的 GraphGPT [167] 和 GraphWiz [24]，都可以通过提取和解释基于图的数据来解决多跳推理和复杂场景的限制。但是，边缘设备的资源限制限制了这些方法的可扩展性。

多代理协作。虽然许多设备上的 LLM 应用程序，如个人助理 [194， 218] 和伴侣机器人 [66， 72]，在单代理任务中表现出色，但它们往往难以在动态和复杂的环境中有效运行。为了解决这一限制，异构智能体之间的协作智能利用动态编排框架来实现多智能体协调，提高单模型系统以外的任务性能[75,123]。然而，由于通信带宽、延迟和能效的限制，在边缘设备上部署这样的框架仍然具有挑战性[122,173]。

持续学习和个性化。设备上的 LLM 在实时适应和个性化方面遇到了重大挑战，尤其是在资源受限的情况下。持续学习提供了一种很有前途的方法，它使模型能够在解决灾难性遗忘等问题的同时动态适应 [13， 121， 225]。例如，交互式持续学习 [143] 利用持续交互来提高复杂场景中的模型性能。然而，边缘模型的有限参数容量限制了它们获取新知识的能力，并且在设备上进行微调需要大量的计算资源，使有效适应复杂化 [86， 137]。

8 Conclusion

本调查全面回顾了启用设备端 LLM 的最新进展，系统地探讨了离线预部署模型设计技术、在线运行时推理优化和基于设备端 LLM 的应用程序。这些组件形成了一个内聚的优化工作流：量化和修剪等预部署方法创建了紧凑、高效的模型;运行时技术可确保跨异构环境的适应性和性能;和多样化的应用程序展示了边缘 LLM 的实际影响。通过解决效率和可扩展性方面的关键挑战，该调查为研究人员和从业者提供了有价值的见解，为可访问、可持续的 AI 解决方案铺平了道路，从而释放 LLM 的全部潜力。

九章云极普惠算力

更多推荐

突破算力瓶颈：nanoGPT水平扩展全方案——从单GPU到多节点集群的完整指南

nanoGPT作为一款轻量级GPT训练框架，以其简洁高效的设计成为中小型语言模型训练的理想选择。本文将系统介绍如何通过水平扩展技术突破算力限制，在不同硬件环境下实现高效训练，从单GPU到多节点集群的完整配置方案。## 🚀 为什么选择nanoGPT进行水平扩展？nanoGPT采用极简设计理念，核心代码仅包含`model.py`（约300行模型定义）和`train.py`（约300行训练循环

九章云极普惠算力

pygta5性能优化技巧：如何提升自动驾驶AI的响应速度

pygta5是一个使用Python实现《侠盗猎车手5》自动驾驶AI的开源项目，通过深度学习模型控制游戏角色自动行驶。在实际应用中，AI的响应速度直接影响驾驶体验和安全性。本文将分享6个实用的性能优化技巧，帮助你显著提升pygta5自动驾驶AI的响应速度，让AI驾驶更加流畅自然。## 一、图像预处理优化：减少计算负担自动驾驶AI首先需要处理游戏画面，图像数据的大小直接影响后续计算效率。在py

九章云极普惠算力

终极Sidekick推理模型指南：多模型兼容与性能优化完整教程

Sidekick是一款原生macOS应用，允许用户与本地LLM聊天，无需安装其他软件即可响应Mac上文件、文件夹和网站的信息。本文将详细介绍Sidekick的推理模型支持，包括本地与远程模型的配置方法、多模型兼容特性以及实用的性能优化策略，帮助用户充分发挥AI助手的潜力。## 本地模型：从下载到部署的完整流程Sidekick提供了丰富的本地模型支持，让用户可以在完全离线的环境下使用AI功能