如今的大模型(如GPT-4o)越来越聪明,但“聪明”的背后是巨大的计算成本。比如,解答一道数学题时,模型会一步步写出推理过程,虽然答案更准,但生成的文字量暴涨,导致算力消耗和响应时间激增。这就像学生考试时写满草稿纸——虽然得分高,但太费时间!

论文:TwT: Thinking without Tokens by Habitual Reasoning Distillation with Multi-Teachers’ Guidance
链接:https://arxiv.org/pdf/2503.24198

TwT的核心理念:让LLM“少想多干”

微软团队提出的TwT(Thinking without Tokens),目标很直接:让LLM像学霸一样,不用写草稿也能直接答对题。实现这一目标靠两大绝招:

绝招一:多教师筛选优质答案(DCRS策略)

  • 问题:传统蒸馏依赖单一老师的答案,容易片面;人工标注数据又贵又少。

  • 解法:TwT请多位“老师模型”(如GPT-4、Mistral等)各自写答案,再用双标准筛选

    • 质量关:综合代码正确性、逻辑清晰度等指标打分,只留高分答案(公式: )。

    • 多样性关:挑出老师们观点差异最大的答案,避免“标准答案”单一化(用余弦相似度对比)。

  • 效果:既保质量,又增多样性,完美适配无监督场景!

绝招二:三步内化推理能力(HaRD方法)

  • 阶段1:学生模型先学老师的完整解题步骤(带详细草稿)。

  • 阶段2:老师根据学生表现压缩推理步骤,比如原本10步的思考缩成5步。

  • 阶段3:直接去掉推理步骤,只学题目和答案,训练学生“秒答”能力。

  • 类比:就像学霸辅导学渣——先教详细解法,再简化步骤,最后训练条件反射!

实验结果:少花钱,多办事

论文在代码生成(MBPP)、常识问答(CQA)、数学推理(MetaMath)三个任务中测试,结果惊人:

  • 性能提升:相比传统蒸馏方法,TwT准确率最高提升13.6%。

  • 成本暴降:生成答案的token数减少98%(比如数学题从397个token降到7个!)。

  • 渐进式提升:三阶段训练中,模型准确率逐步上升,token数逐步下降。

有啥意义:低成本部署大模型的曙光

  • 企业端:推理成本降低98%,意味着同样算力可服务更多用户。

  • 用户端:响应速度更快,比如数学题从“等10秒”变成“秒出答案”。

  • 环保意义:减少算力消耗=减少碳排放,AI也能更绿色!

不足与未来

  • 局限:目前仅适用于特定任务(如代码、数学),混合任务表现待改进;筛选过程可能有噪声干扰。

  • 未来方向:探索更多任务类型,研究隐式推理机制,让LLM真正“无师自通”。

确实test-time reasoning太长了,还是需要瘦身下,需要更多后续研究多多探讨下。


备注:昵称-学校/公司-方向/会议(eg.ACL),进入技术/投稿群

id:DLNLPer,记得备注呦

更多推荐