推理成本降98%，准确率升13%！微软提出TwT：Thinking without Tokens

如今的大模型（如GPT-4o）越来越聪明，但“聪明”的背后是巨大的计算成本。比如，解答一道数学题时，模型会一步步写出推理过程，虽然答案更准，但生成的文字量暴涨，导致算力消耗和响应时间激增。：TwT请多位“老师模型”（如GPT-4、Mistral等）各自写答案，再用。：挑出老师们观点差异最大的答案，避免“标准答案”单一化（用余弦相似度对比）。：探索更多任务类型，研究隐式推理机制，让LLM真正“无师自

zenRRan

662人浏览 · 2025-04-16 17:32:52

zenRRan · 2025-04-16 17:32:52 发布

如今的大模型（如GPT-4o）越来越聪明，但“聪明”的背后是巨大的计算成本。比如，解答一道数学题时，模型会一步步写出推理过程，虽然答案更准，但生成的文字量暴涨，导致算力消耗和响应时间激增。这就像学生考试时写满草稿纸——虽然得分高，但太费时间！

论文：TwT: Thinking without Tokens by Habitual Reasoning Distillation with Multi-Teachers’ Guidance
链接：https://arxiv.org/pdf/2503.24198

TwT的核心理念：让LLM“少想多干”

微软团队提出的TwT（Thinking without Tokens），目标很直接：让LLM像学霸一样，不用写草稿也能直接答对题。实现这一目标靠两大绝招：

绝招一：多教师筛选优质答案（DCRS策略）

问题：传统蒸馏依赖单一老师的答案，容易片面；人工标注数据又贵又少。
解法：TwT请多位“老师模型”（如GPT-4、Mistral等）各自写答案，再用双标准筛选：
- 质量关：综合代码正确性、逻辑清晰度等指标打分，只留高分答案（公式：）。
- 多样性关：挑出老师们观点差异最大的答案，避免“标准答案”单一化（用余弦相似度对比）。
效果：既保质量，又增多样性，完美适配无监督场景！

绝招二：三步内化推理能力（HaRD方法）

阶段1：学生模型先学老师的完整解题步骤（带详细草稿）。
阶段2：老师根据学生表现压缩推理步骤，比如原本10步的思考缩成5步。
阶段3：直接去掉推理步骤，只学题目和答案，训练学生“秒答”能力。
类比：就像学霸辅导学渣——先教详细解法，再简化步骤，最后训练条件反射！

实验结果：少花钱，多办事

论文在代码生成（MBPP）、常识问答（CQA）、数学推理（MetaMath）三个任务中测试，结果惊人：

性能提升：相比传统蒸馏方法，TwT准确率最高提升13.6%。
成本暴降：生成答案的token数减少98%（比如数学题从397个token降到7个！）。
渐进式提升：三阶段训练中，模型准确率逐步上升，token数逐步下降。

有啥意义：低成本部署大模型的曙光

企业端：推理成本降低98%，意味着同样算力可服务更多用户。
用户端：响应速度更快，比如数学题从“等10秒”变成“秒出答案”。
环保意义：减少算力消耗=减少碳排放，AI也能更绿色！

不足与未来

局限：目前仅适用于特定任务（如代码、数学），混合任务表现待改进；筛选过程可能有噪声干扰。
未来方向：探索更多任务类型，研究隐式推理机制，让LLM真正“无师自通”。

确实test-time reasoning太长了，还是需要瘦身下，需要更多后续研究多多探讨下。

备注：昵称-学校/公司-方向/会议(eg.ACL)，进入技术/投稿群

id：DLNLPer，记得备注呦

九章云极普惠算力

更多推荐

cover

阿里云 Coding Plan Lite 下架，各家算力吃紧，上哪买还能支持GLM-5和5.1的coding plan？_2026-04-15

九章云极普惠算力

cover

看遍了市面上的coding plan，我发现还是这个好用

九章云极普惠算力

Kandinsky-5.0-I2V-Lite-5s惊艳效果展示：赛博朋克街景→霓虹闪烁+雨滴滑落动态视频

本文介绍了如何在星图GPU平台上自动化部署Kandinsky-5.0-I2V-Lite-5s镜像，实现高效图生视频转换。该工具能将静态赛博朋克街景图片快速转换为动态视频，添加霓虹闪烁、雨滴滑落等效果，适用于短视频制作、广告创意等场景，显著提升内容创作效率。

九章云极普惠算力

所有评论(0)

查看更多评论

zenRRan

已为社区贡献53条内容