这两天在AI领域发布了一个令人振奋的论文,不需要额外训练或超参调优 的情况下,同时提升推理准确率和计算效率,简单且优雅。

简单介绍下这篇文章《Deep Think with Confidence(DeepConf)》,

它讨论了大语言模型(LLMs)在推理任务中使用“自洽性 + 多路径多数投票(parallel thinking/self-consistency)”方法时存在的效率低和收益递减问题。 作者提出了 DeepConf 方法:通过利用模型生成过程中的内部置信度信号,在生成推理路径时动态筛选掉低质量的推理轨迹,从而在不需要额外训练或超参调优的情况下,同时提升推理准确率和计算效率。

就可以让AI在减少高达84.7%的生成token的情况下,同时保持甚至超越原有准确率,在AIME2025等高难度推理任务上,DeepConf能在GPT-OSS-120B上达到99.9%的准确率,显著由于传统多数投票和单路径投票,该方法无需额外训练或特殊调整,就可以直接应用到现有大模型推理中。

🧩 背景问题:多数投票的浪费

传统的多数投票(Majority Voting)方法是:

  • 让模型生成多条推理链;

  • 每条链算出答案;

  • 投票选最常见的答案。

虽然这样能提高正确率,但代价巨大:

  • 每条推理链都要完整生成,计算成本翻倍;

  • 错误路径也会参与投票,容易“误导”模型。

想象一下:

做一道数学题写了 100 张草稿,最后才选一个答案——虽然靠谱,但效率极低。


论文和代码提供了两种实现:


DeepConf-Offline:特点:更稳,但省不了多少算力。

先生成所有推理路径;


再用置信度过滤掉低质量路径;


投票得到最终答案。


DeepConf-Online:特点:极大节省算力,同时保持高准确率。

边生成边计算置信度;


不靠谱的路径提前终止;


一旦结果可信度超过阈值,直接停止生成;


这里我们只讨论online方法,核心思路

给每条推理链一个 置信度分数 (confidence score);提前剔除低置信度的路径;置信度足够集中时提前结束生成;最后按置信度加权投票。


核心代码解析

1️⃣ 置信度计算


论文的代码用 logprobs(每个 token 的对数概率)来计算置信度:

defcompute_confidence(logprobs, k=5):
# 取最后 k 个 token 的平均负对数概率,越小表示越自信
    logprobs = np.array(logprobs)
return-np.mean(sorted(logprobs)[-k:])

  • 模型生成每个 token 时会输出一个概率;

  • 置信度是 最后若干个 token 的平均概率;

  • 高置信度路径意味着模型在最后阶段“更有把握”。


2️⃣ 提前停止策略


DeepConf-Online 的核心优化是:

  • 在生成过程中不断累积每个答案的置信度;

  • 如果一个答案的置信度占比超过阈值 tau,直接提前停止。


代码片段:

# 累计投票权重
vote_counter[answer]+= conf

# 提前停止判断
totalconf =sum(votecounter.values())
bestans, bestconf =max(vote_counter.items(), key=lambda x: x[1])

if bestconf / totalconf >= tau:
return bestans, tokenusage

  • bestconf / totalconf >= tau 表示:

当前最优答案的“置信度占比”超过 80%(默认 τ=0.8),可以直接收手。


  • 这样避免了生成更多冗余路径,大幅节省算力。


3️⃣ 置信度阈值动态调整


在 Warmup 阶段,DeepConf 会先生成几条完整推理链计算置信度分布,然后设定筛选阈值 conf_bar:

threshold = np.percentile(confs,(1- eta)*100)
  • eta 是比例参数,例如 0.2 表示只保留置信度最高的 20% 路径;

  • 这个阈值帮助模型在 Final 阶段直接丢弃低置信度路径。


实验结果如下:

sample code采用的的是vllm来部署模型,但是提交的推理提前结束的PR还未正式merge,所以还需要自行修改vllm库,方法如下:

我这里使用的模型是Qwen3-8B整个模型,使用aime25.jsonl中的数据集,为了节省时间,同时也只是跑一下代码,后续再进行测试,所以只使用了数据集中的一条数据。

{"question":"Find the sum of all integer bases $b>9$ for which $17{b}$ is a divisor of $97{b}$.","answer":"70"}

首先我们用vllm部署模型

vllm serve "/mnt/d/AI/Deepconf/Qwen3-8B" --port 8000 -tp 1 --gpu-memory-utilization 0.9 --enable-prefix-caching

这里各位可以根据自己显卡的情况,修改gpu显存的使用比例,然后我们运行代码deepconf-online.py

总的来说,这种思路还是挺令人兴奋的,毕竟在算力、数据都吃紧的情况下,可以只通过这种简单优雅的方法,就能大幅度减少token的消耗,在未来的应用价值还是巨大的。

DeepConf 的本质是:

给 AI 装上了“自我怀疑”的能力,让它能边解题边判断正确率,走错路就回头,走对路就坚定。


这篇论文和代码展示了一个趋势:

  • 大模型不只是“更大”,而是“更聪明”;

  • AI 正从蛮力计算走向精细化推理。


未来,类似 DeepConf 的优化技术,将成为推动 AI 真正普及的关键。

更多推荐