DeepConf:让AI带着信心思考，推理又快又准

就可以让AI在减少高达84.7%的生成token的情况下，同时保持甚至超越原有准确率，在AIME2025等高难度推理任务上，DeepConf能在GPT-OSS-120B上达到99.9%的准确率，显著由于传统多数投票和单路径投票，该方法无需额外训练或特殊调整，就可以直接应用到现有大模型推理中。总的来说，这种思路还是挺令人兴奋的，毕竟在算力、数据都吃紧的情况下，可以只通过这种简单优雅的方法，就能大幅度

物联全栈

1180人浏览 · 2025-08-30 09:51:36

物联全栈 · 2025-08-30 09:51:36 发布

这两天在AI领域发布了一个令人振奋的论文，不需要额外训练或超参调优的情况下，同时提升推理准确率和计算效率，简单且优雅。

简单介绍下这篇文章《Deep Think with Confidence(DeepConf)》,

它讨论了大语言模型（LLMs）在推理任务中使用“自洽性 + 多路径多数投票（parallel thinking/self-consistency）”方法时存在的效率低和收益递减问题。作者提出了 DeepConf 方法：通过利用模型生成过程中的内部置信度信号，在生成推理路径时动态筛选掉低质量的推理轨迹，从而在不需要额外训练或超参调优的情况下，同时提升推理准确率和计算效率。

就可以让AI在减少高达84.7%的生成token的情况下，同时保持甚至超越原有准确率，在AIME2025等高难度推理任务上，DeepConf能在GPT-OSS-120B上达到99.9%的准确率，显著由于传统多数投票和单路径投票，该方法无需额外训练或特殊调整，就可以直接应用到现有大模型推理中。

🧩 背景问题：多数投票的浪费

传统的多数投票（Majority Voting）方法是：

让模型生成多条推理链；
每条链算出答案；
投票选最常见的答案。

虽然这样能提高正确率，但代价巨大：

每条推理链都要完整生成，计算成本翻倍；
错误路径也会参与投票，容易“误导”模型。

想象一下：

做一道数学题写了 100 张草稿，最后才选一个答案——虽然靠谱，但效率极低。

论文和代码提供了两种实现：

DeepConf-Offline:特点：更稳，但省不了多少算力。

先生成所有推理路径；

再用置信度过滤掉低质量路径；

投票得到最终答案。

DeepConf-Online:特点：极大节省算力，同时保持高准确率。

边生成边计算置信度；

不靠谱的路径提前终止；

一旦结果可信度超过阈值，直接停止生成；

这里我们只讨论online方法，核心思路

给每条推理链一个置信度分数 (confidence score)；提前剔除低置信度的路径；置信度足够集中时提前结束生成；最后按置信度加权投票。

核心代码解析

1️⃣ 置信度计算

论文的代码用 logprobs（每个 token 的对数概率）来计算置信度：

defcompute_confidence(logprobs, k=5):
# 取最后 k 个 token 的平均负对数概率，越小表示越自信
    logprobs = np.array(logprobs)
return-np.mean(sorted(logprobs)[-k:])

模型生成每个 token 时会输出一个概率；
置信度是最后若干个 token 的平均概率；
高置信度路径意味着模型在最后阶段“更有把握”。

2️⃣ 提前停止策略

DeepConf-Online 的核心优化是：

在生成过程中不断累积每个答案的置信度；
如果一个答案的置信度占比超过阈值 tau，直接提前停止。

代码片段：

# 累计投票权重
vote_counter[answer]+= conf

# 提前停止判断
totalconf =sum(votecounter.values())
bestans, bestconf =max(vote_counter.items(), key=lambda x: x[1])

if bestconf / totalconf >= tau:
return bestans, tokenusage

bestconf / totalconf >= tau 表示：

当前最优答案的“置信度占比”超过 80%（默认 τ=0.8），可以直接收手。

这样避免了生成更多冗余路径，大幅节省算力。

3️⃣ 置信度阈值动态调整

在 Warmup 阶段，DeepConf 会先生成几条完整推理链计算置信度分布，然后设定筛选阈值 conf_bar：

threshold = np.percentile(confs,(1- eta)*100)

eta 是比例参数，例如 0.2 表示只保留置信度最高的 20% 路径；
这个阈值帮助模型在 Final 阶段直接丢弃低置信度路径。

实验结果如下：

sample code采用的的是vllm来部署模型，但是提交的推理提前结束的PR还未正式merge，所以还需要自行修改vllm库，方法如下：

我这里使用的模型是Qwen3-8B整个模型，使用aime25.jsonl中的数据集，为了节省时间，同时也只是跑一下代码，后续再进行测试，所以只使用了数据集中的一条数据。

{"question":"Find the sum of all integer bases $b>9$ for which $17{b}$ is a divisor of $97{b}$.","answer":"70"}

首先我们用vllm部署模型

vllm serve "/mnt/d/AI/Deepconf/Qwen3-8B" --port 8000 -tp 1 --gpu-memory-utilization 0.9 --enable-prefix-caching

这里各位可以根据自己显卡的情况，修改gpu显存的使用比例，然后我们运行代码deepconf-online.py

总的来说，这种思路还是挺令人兴奋的，毕竟在算力、数据都吃紧的情况下，可以只通过这种简单优雅的方法，就能大幅度减少token的消耗，在未来的应用价值还是巨大的。

DeepConf 的本质是：

给 AI 装上了“自我怀疑”的能力，让它能边解题边判断正确率，走错路就回头，走对路就坚定。

这篇论文和代码展示了一个趋势：

大模型不只是“更大”，而是“更聪明”；
AI 正从蛮力计算走向精细化推理。

未来，类似 DeepConf 的优化技术，将成为推动 AI 真正普及的关键。

九章云极普惠算力

更多推荐

TechXueXi终极指南：5分钟掌握Web界面自动学习强国技巧

TechXueXi作为全网最好用的开源学习强国助手，通过Web界面为用户提供便捷的自动学习体验。这个强大的工具支持答题、视频观看、文章阅读等功能，每天可自动获取45分，真正实现了技术强国和学习强国的智能化管理。🚀## 📋 快速入门：Web界面基础配置TechXueXi的Web控制台位于[SourcePackages/static/admin.html](https://link.git

九章云极普惠算力

终极指南：如何将Instant Meshes无缝集成到现有3D管线中

Instant Meshes是一款强大的交互式场对齐网格生成器，能够快速将复杂3D模型转换为结构化四边形网格。本文将为您提供完整的集成指南，帮助您将这个高效工具融入现有的3D工作流程。🚀## 什么是Instant Meshes？Instant Meshes是一个开源的网格重拓扑工具，专门用于将任意三角形网格转换为高质量的四边形网格。它采用先进的场对齐算法，能够保持模型的几何特征，同时显著

九章云极普惠算力

BEAM数据结构和引用机制详解：构建高性能Erlang应用

想要构建高并发、高可用的分布式应用？Erlang的BEAM虚拟机正是为此而生！本文将深入解析BEAM的核心数据结构和引用机制，帮助您理解如何构建高性能的Erlang应用。BEAM虚拟机通过独特的内存管理策略和进程模型，为现代分布式系统提供了强大的基础架构支持。## BEAM内存架构概览BEAM虚拟机的内存系统采用了分层的设计理念，每个Erlang进程都拥有独立的堆栈结构。这种设计确保了进程