MiniCPM4-8B模型论文速读：端设备上的超高效大型语言模型

端设备上的超高效大型语言模型

Panesle

800人浏览 · 2025-06-09 21:15:00

Panesle · 2025-06-09 21:15:00 发布

MiniCPM4：端设备上的超高效大型语言模型

1 介绍

本文介绍了一种专为端设备设计的高效率大型语言模型（LLM）MiniCPM4。MiniCPM4 的开发顺应了大型语言模型小型化和效率提升的趋势。通过在模型架构、训练数据、训练算法和推理系统四个关键维度的系统创新，MiniCPM4 实现了显著的效率提升。该模型提供两种版本，分别包含 5 亿（0.5B）和 80 亿（8B）参数。评估结果显示，MiniCPM4 在多个基准测试中超越了同等规模的开源模型，展现了出色的效率和效果。特别是 MiniCPM4-8B 在处理长序列时，相较于 Qwen3-8B 显示出明显更快的处理速度。

2 高效架构与预训练

2.1 InfLLM v2：可训练的稀疏注意力机制用于预填充和解码

InfLLM v2 是一种可训练的稀疏注意力机制，旨在加速长序列处理的预填充和解码阶段。它基于之前的 InfLLM 进一步开发，引入了高效的内核设计和专门训练。该机制在查询级别进行细粒度的稀疏注意力计算，显著提升了长序列预填充和解码阶段的速度。同时，还开发了专门的训练框架，进一步增强了注意力机制的稀疏性，提高了长序列处理能力。

2.1.1 InfLLM v2 的整体框架

InfLLM v2 将键值缓存划分为块级单元，每个查询令牌选择相关性得分最高的块进行注意力计算。这种方法避免了细粒度的逐令牌相关性计算和内存访问，提高了稀疏注意力的效率。

2.1.2 动态上下文块选择

InfLLM v2 的核心是查询令牌与键值块之间的相关性得分计算。它引入了细粒度的语义内核来构建每个键值块的表示，避免了逐令牌的内存访问。同一组的查询头需要共享相同的最高相关块，以减少内存访问成本。

2.1.3 可训练稀疏注意力的设计原则

InfLLM v2 使每个令牌仅与最高相关的键值块计算注意力，显著降低了计算和内存访问开销。设计原则包括复杂性分析、查询和键值令牌的不同粒度、可训练的上下文选择以及超参数推荐。

2.2 UltraClean：高质量预训练数据过滤与生成

UltraClean 是一种高效的预训练数据过滤策略，旨在提升 MiniCPM4 的能力密度。它利用高效的数据验证策略和高质量种子数据选择过程，构建了一个更强大、更高质量的知识密集型分类器，从而提高了预训练数据的质量和效率。

2.2.1 高质量知识密集型数据过滤

UltraClean 引入了一种高效的数据验证策略，能够以极低的计算成本快速评估数据对 LLM 训练的实际影响。基于此，该策略优化了正负样本的选择过程，构建了高效的数据过滤流程。

2.2.2 高质量推理密集型数据生成

为解决推理密集型数据稀缺的问题，UltraClean 针对数学和编程领域进行了大规模的数据合成。这生成了高质量的种子数据，并优化了提示、对话结构和质量控制机制的设计。

2.2.3 未来训练数据的讨论

论文讨论了 MiniCPM4 预训练中使用的高质量数据构建策略，包括知识密集型数据过滤和推理密集型数据生成。同时，也指出了未来提升数据质量和相关性的潜在方向。

2.3 Model Wind Tunnel v2：高效的预训练策略搜索

ModelTunnel v2 是一种用于搜索高效预训练策略的工具。它在之前的版本基础上进行了优化，改进了工程实现和搜索效果验证。该方法能够更高效地为大型模型搜索和验证超参数。

2.3.1 带改进性能指标的高效可预测扩展

ModelTunnel v2 引入了一个更合理的性能指标，通过构建 ScalingBench，建立了 ScalingBench 损失与下游任务性能之间的关系，从而实现更准确的超参数搜索。

2.3.2 预训练工程优化

为提高模型训练效率，论文采用了多令牌预测作为训练目标，并实现了 FP8 混合精度计算框架。这些工程优化措施有助于实现更快、更高效的模型训练。

3 高效后训练

3.1 UltraChat v2：增强基础能力的监督微调数据生成

UltraChat v2 是一种高质量对话构建策略，用于为 LLM 的训练和评估生成推理密集型数据。它侧重于多轮交互中的深度推理、上下文一致性和任务复杂性。这种方法提高了数据质量，并支持构建稳健且具有挑战性的微调和评估基准。

3.1.1 知识密集型数据

UltraChat v2 从特定领域的语料库中提取和整理知识点，构建全面的知识框架。它生成针对各个知识点的练习题 - 答案对，提高了数据的多样性和泛化能力。

3.1.2 推理密集型数据

为了提升 LLM 的推理能力，UltraChat v2 开发了专门的数学和基于代码的推理数据集。这些数据集增强了模型的推理能力，并支持开发更稳健、可转移的逻辑技能。

3.1.3 指令遵循数据

UltraChat v2 构建了具有明确可验证约束的指令，实现了模型输出的自动验证。它还结合了来自不同领域和情境的提示，以丰富指令集的多样性。

3.1.4 长上下文数据

受 LongAlign 的启发，UltraChat v2 从预训练语料库中构建长上下文监督微调数据。它通过检索相关但可能不相关的文档来模拟长上下文推理，帮助模型学习定位相关内容并进行长输入的推理。

3.1.5 工具使用数据

UltraChat v2 集成了函数调用数据集，并为工具使用生成高质量数据。它通过应用严格的筛选标准并添加链式思考推理步骤来确保数据质量。

3.2 块状回滚：具有负载均衡的强化学习深度推理

为了增强模型的深度推理能力，论文提出了一种用于强化学习的块状回滚策略。该策略限制了每个回滚阶段的最大输出令牌预算，并在后续迭代中恢复不完整轨迹的生成，减少了因长轨迹导致的空闲计算。

3.2.1 强化学习数据策划

论文收集了数学和编程领域的高质量数据，以增强模型的推理能力。它使用 Semhash 对强化学习训练数据和监督微调数据进行去重。

3.2.2 训练配方

训练过程采用了改进版的组相对策略优化（GRPO），包括动态采样、提高上限策略、令牌级别策略梯度损失和过长样本过滤等改进措施。

3.2.3 稳定的块状回滚

块状回滚策略将长响应分解为跨迭代的小块，最大化计算资源的利用。引入了块级别重要性采样、双重裁剪、带动态参考更新的 KL 正则化和乱码过滤等技术，以确保稳定的训练过程。

3.2.4 实验分析

实验结果表明，块状回滚策略有效减少了每步训练和采样的时间，同时保持了性能。

3.2.5 实施细节

训练批大小、小批大小、学习率等参数的设置考虑了 MiniCPM4 的架构设计。最大响应长度设置为 32,768 令牌，以实现扩展的链式思考推理。

3.3 BitCPM4：用于三值 LLM 的量化感知训练

BitCPM4 是一种高效的量化感知训练方法，用于构建三值模型。它用预训练的高精度检查点初始化三值模型，以减少量化感知训练所需的训练令牌数量。

3.3.1 高效的量化感知训练

BitCPM4 对模型权重而非激活进行三值量化。它采用两阶段训练过程，首先训练 FP8 模型，然后通过量化感知训练将其转换为三值模型。

3.3.2 极低比特 LLM 的讨论

BitCPM4 在显著减少训练成本的情况下，展现出与其他极低比特 LLM 竞争性的结果。论文还讨论了低比特量化的性能限制，并计划将量化感知训练方法应用于更大规模的模型。

4 高效推理与部署

4.1 CPM.cu：轻量级且高效的 CUDA 推理框架

CPM.cu 是一个为端设备 NVIDIA 芯片优化的轻量级推理框架。它集成了 InfLLM v2 的高效稀疏注意力内核，并实现了高效的投机采样。

4.1.1 基于频率排名的词汇构建和草稿验证

FR-Spec 是一种基于频率排名的投机采样框架，通过战略性的词汇空间压缩优化草稿候选选择。这减少了计算开销，同时保持了可接受的草稿质量。

4.1.2 P-GPTQ：用于端设备的带前缀的后训练量化

P-GPTQ 是一种改进的量化方案，消除了 Hessian 计算中的初始令牌干扰。它在量化方法中实现了优越的性能，与 FP16 基线相比性能退化最小。

4.1.3 投机采样与量化和长上下文的结合

论文探讨了投机采样与量化和长上下文处理的结合。它对草稿模型进行量化，并使用滑动窗口注意力来最小化对首个令牌延迟的影响。

4.2 ArkInfer：跨平台部署系统

ArkInfer 是一个跨平台部署系统，旨在克服端设备芯片的碎片化问题。它提供了高效的推理速度，并为各种模型应用提供了通用的跨平台兼容层。

4.2.1 跨平台兼容的架构设计

ArkInfer 实现了一个强大的抽象层，该层具有一系列适配器，可以规范化不同后端的多样化 API。这确保了无论底层硬件或框架如何，都能进行无缝交互。

4.2.2 可重用且高效的投机和约束解码方案

ArkInfer 集成了投机采样和约束解码功能。它支持先进的解码策略，以满足多样化的推理需求。

4.2.3 可扩展的模型动物园前端

ArkInfer 拥有一个可扩展的跨平台前端，允许用户直接访问和执行模型动物园中的各种模型。这简化了 MiniCPM 和其他模型在不同设备上的部署。

5 评估

5.1 实验设置

论文在多个开源基准测试上评估了 MiniCPM4，包括知识密集型评估集和推理评估集。它比较了 MiniCPM4-8B 和 MiniCPM4-0.5B 与几种广泛采用的开源 LLM。

5.2 标准评估

评估结果显示，MiniCPM4 在同等规模的模型中实现了最先进的性能。它超越了几个具有显著更多参数的开源大型语言模型，并以显著降低的训练成本实现了卓越的性能。

5.3 长上下文评估

MiniCPM4 在 128K 上下文的针 haystack 任务（RULER-NIAH）上进行了评估。结果显示，MiniCPM4 可以在该任务上实现 100% 的准确率，并在上下文窗口外推方面表现出良好的性能。

5.4 效率评估

效率评估结果表明，与同等参数规模的开源 LLM 相比，MiniCPM4 在预填充和解码场景中都实现了持续的加速。随着文本长度的增加，其效率优势变得更加明显。

6 应用

6.1 MiniCPM4-Survey：可靠的综述生成

MiniCPM4-Survey 是基于 MiniCPM4-8B 构建的模型，能够生成可靠的长篇综述论文。它以计划 - 检索 - 写作的方式工作，定义综述的总体结构，生成检索关键词，并综合检索到的信息以生成连贯的内容。

6.1.1 数据构建

综述生成流程涉及几个关键阶段，包括计划、迭代检索和内容生成。论文构建了主要源自学术综述的高质量数据集，以确保稳健的训练结果。

6.1.2 训练策略

训练策略涉及一个多阶段过程，包括监督微调、章节级强化学习和综述级强化学习。这种方法增强了模型的综述生成能力。

6.1.3 评估

评估结果显示，MiniCPM4-Survey 在内容相关指标上超越了基线系统，并在事实性指标上实现了最高分。

6.2 MiniCPM4-MCP：使用模型上下文协议的工具调用

MiniCPM4-MCP 是基于 MiniCPM4-8B 构建的模型，通过 MCP 与各种工具和数据资源进行交互。它在人类标注的测试数据上展示了有效的工具调用能力。

6.2.1 数据构建

数据构建过程包括数据生成、反向数据生成以及将现有函数调用数据集转换为 MCP 工具使用格式。所有数据都经过双重质量检查。

6.2.2 训练策略

训练策略主要采用基于演示的学习方法。这些演示是通过 LLM 与 MCP 环境的持续交互生成的。

6.2.3 评估

评估结果显示，MiniCPM4-MCP 在人类标注的 MCP 工具调用测试数据中，工具名称、参数名称和参数值的准确性方面优于 Qwen3-8B。

7 结论与未来工作

论文总结了 MiniCPM4 的优势：凭借高效的预训练和推理，仅使用 8 万亿个令牌就实现了与现有开源模型相当的性能。其高效的架构和推理系统使长序列处理速度提高了 5 倍。作者计划继续研究 LLM 的高效训练和推理，重点是高效的稀疏模型架构、提高数据质量、探索强化学习以及为大多数端设备开发高效的推理系统。

8 贡献与致谢

论文对参与项目设计、协调、贡献和监督的所有团队成员表示感谢。

MiniCPM4 的核心技术

在这里插入图片描述

九章云极普惠算力

更多推荐

Webpack HMR在aspnetcore-Vue-starter中的应用：提升开发效率的秘诀

aspnetcore-Vue-starter是一个集成了ASP.NET Core后端与Vue.js前端的强大单页应用模板，它通过Webpack热模块替换（HMR）技术，为开发者提供了无缝的开发体验，让前端代码修改无需手动刷新页面即可实时生效。## 🚀 什么是Webpack HMR？Webpack热模块替换（Hot Module Replacement）是一项革命性的开发技术，它允许在应用

九章云极普惠算力

GraphQL Compose性能优化：DataLoader与批量查询最佳实践

GraphQL Compose是Node.js平台上用于构建复杂GraphQL Schema的强大工具包，通过DataLoader实现批量查询和请求合并是提升API性能的关键技术。本文将详细介绍如何在GraphQL Compose项目中应用DataLoader进行性能优化，包含具体实现方法和最佳实践指南。## 为什么需要DataLoader？在GraphQL查询中，典型的N+1查询问题会导

九章云极普惠算力

人脸识别真的需要深度学习吗？ArcFace技术深度解析

在当今数字化时代，人脸识别技术已广泛应用于安防、支付、智能门禁等领域。许多人好奇：人脸识别真的需要深度学习吗？答案是肯定的。传统方法在复杂场景下识别精度有限，而基于深度学习的ArcFace技术通过创新的角度损失函数，实现了高精度的人脸识别。本文将深入解析ArcFace技术的原理、优势及实际应用。## 一、传统方法的局限性传统人脸识别方法如 Eigenfaces、Fisherfaces 等，