英伟达跌成这样，是不是AI算力就没用了？

在于它并没有PRM，不对中间的生成步骤做任何干预（MCTS也没用）就是让模型自己的生成COT，然后因为模型被教育要一直思考，就不停的生成，生成多了，突然就到了一个“Aha”时刻，问题就被解答了，其实简单讲就式这个意思，不断的循环RL，对你要做的police，这个policy在这里就指带最初的V3，因为它是个在线的RL，不断的优化策略逼近 output reward最高的标准（它连reward模型都

kingsoftcloud

1036人浏览 · 2025-01-28 14:24:08

kingsoftcloud · 2025-01-28 14:24:08 发布

还是先说结论，有用，然后我们在来科学的理性的分析，有没有用

首先为啥会大跌？

因为Deepseek R1吗？其实不是，是因为DeepseekV3

https://mp.weixin.qq.com/s/FUamd2LtioSdhOKy9Wt5CQ?token=313245269&lang=zh_CN

我在它刚发布V3的时候就写了这篇技术文，也发了微博，详细分析了和解释了一下它的价值，因为正常来讲，这个规模的模型，我们如果要做pretrain，那就是万卡左右的级别

然后它给做到2000多块卡，就拿下了，效果还不错，所以它狠有价值，那是不是大家伙儿按着它的论文就能复现2000多块卡进行同等级别的pretrain呢？

答案是不太成。

至少现在我理解的大多数同学不太具备MOE工程调优的能力，你们训的模型别说256个专家，就算是8个专家，我随便拆掉两个，拆不拆都没区别

，更别说那些极致优化，你们罩着论文能get到几分都说不好。

其实最省的主要是FP8，但是前提是你得支持才行，你手里得有H的卡，而且你能整明白Mix-precision和FP8的配合，这个如果大规模好弄的话，Meta就不会只在量化小模型的时候才用Fp8，而训的时候用BF16了，DeepseekV3也好，R1也好，给你开源的都是权重，训练代码和学习率等重要的超参数，可是不会给你的。

但是

如果你们能做到一半，那么恭喜你，你为公司在pretrain上省了5000块卡，年底评选给个excellent不过分，从这个角度上来讲，V3的极致优化开辟了一个低成本的pretrain之路，在我之前的文章中也写过了，这里就不赘述了

从这个角度解读，对现行世界上所有的算力公司除了Groq，都是利空

然后我们接着看R1

R1是干嘛的，是对V3的后训练，也就是post train

一个模型的训练周期不是只有pretrain就结束了，pretrain训练出来的我们都叫base model，比如V3（V3肯定是经过SFT的，要不也用不了，我们就是拿它举例）它的特点是学习知识，请注意，知识和推理是两个概念。

如果非要比，你可以简单理解为它把书本上的字和句子，关联性都记住了，但是它可能说不明白话，这个时候需要sft，就是指令微调，即让它说人话

但是只是说人话就够了吗？

可能还是不够，我刚才说了知识不等于推理，如何让它的说出来的人话，像人类，甚至像人类一样思考得结论？

这就是RL reinforcement learning 即强化学习领域的问题

关于端到端模型训练请看我的文章（我写的书里也有讲）

https://mp.weixin.qq.com/s/BS0Rgmjv3osNFobfbi-XIw?token=313245269&lang=zh_CN

传统的RL最早就是RLHF，现在大多是RLAIF

首先要以人类偏好训练一个reward model

什么是人类偏好，就是比如问你，范冰冰，李小璐，白百合，你媳妇，谁好看？让你排序，你回答：

1- 范冰冰

2- 李小璐

3- 白百合

4- 你媳妇

然后不同人有不同的选择，比如第二个人打分

1- 李小璐

2- 白百合

3- 范冰冰

4- 你媳妇

这个目的是为了防止大家独特的人类偏好影响数据分布，比如你只选一个可能其他美女就不会被选中，但是以排序的方式，就变成了一种隐式加权，所以大家的权重都能保留下来，然后基于大数法则，那最后范冰冰获胜了，所以以后你问谁最好看，LLM就回答，范冰冰

这个问题是什么呢？

问题就是只有答案，什么叫问题是只有答案呢？

因为你的reward也就是奖励的依据，就只有答案，比如你回答范冰冰能得4分，你回答你媳妇就得1分，它是基于这个最终结果来对齐偏好的。

那这样的问题是什么呢？

就是你问我答呗，有什么问题呢？那现在就回答我一个问题，我问范冰冰和你媳妇谁好看，你很容易不加思索来告诉我，范冰冰。

那我问你这样一个问题

你能马上回答我吗？

当然大概率你马上回答我，“给我拿一遍去，不想看！”

但是如果你能解的话，你需要想很久，为什么要想呢？

因为你的大脑的前额叶会先拿到任务，然后它到处派发，基底神经拿各个子任务在不同神经元之前切换，比如有算矩阵的，有算方程的，小脑去确保精准度，颞叶来搞各种符号话，当然肯定不像我说这么简单，就大概这么理解吧

其实LLM在处理复杂问题时，如果能把复杂问题拆解化，它回答的成功率也会变高，早起就有metaGPT，autoGPT来做这种外置的agent形式，引导LLM一个任务，一个任务的完成

另外一个角度就说LLM其实有自己的COT chain of thought，就是它也会把复杂问题给进行分解一步一步的，这种你可以用step by step answer my question等 prompt去把隐式的COT给激活来回答问题

隐式COT是怎么形成的？

总结下来有这么几点

海量数据预训练
确保模型接触到广泛领域的语料，包括隐含推理和逻辑推导的内容。
多任务学习
通过同时训练多种推理任务，增强模型泛化能力。
复杂任务微调
设计需要隐性推理的任务（如填空、问答），鼓励模型内化中间推理过程。
层级表征的优化

通过架构调整或特定正则化方法，增强模型的隐性逻辑表征。

除了以上几点模型一定要够大，这个其实也是传统scaling law的一个分支benifit吧，因为足够大，你就会有机会和潜能学到隐式表征，而隐式表征，其实很多时候你也不知道它到底是啥（这句到不算是开玩笑），COT也包含在里面

隐式COT的问题是什么？

第一是调用费劲，本来你也没特意训练它，怎么调，就靠prompt神经刀

第二是不一定能出来，道理参见第一条

第三是不一定优，就是你的COT路径先不说能不能解决问题，解决了也不见的是最好的答案

先说第一个和第二个问题

隐式不好弄，我门就给它显性化呗，o1也好，R1也好，都是显示COT训练的一个门派

O1我以前讲过好几篇文章这里就不在废话了，大家自己翻翻

R1它的不一样在哪里呢？

当你的policy，也就是策略优化到“Aha”的时候，它做什么其他的范化题就都按着“Aha”的套路来了，如果你看过R1的中间输出，你会发现它是不断的reflect自己之前的答案，本质上也算是一种self-play自博弈了

这个方法的好处显而易见

你不用去像o1或者其他的test time inference来做COT数据用来训练，训两个reward， PRM和ORM，你直接自己做完了COT数据，刷自己，然后刷完了接着你变身成相对更高的自己，然后再基于t‘时间的自己，再造COT数据，再刷，不断的左脚踩右脚，然后螺旋升天，直到"Aha"时刻的到来

非常简单，如果非要我比喻的话，就有点像当年AlphaGo学围棋棋谱一样，或者像你自己拿RL 玩超级玛丽是一个道理

那它的问题在哪？

对中间过程的控制有限，或者几乎不控制，R1论文也写了，中间过程不太好给损失量化，PRM也不好训，这其实就已经不是AI领域的问题了，很多是数据工程的问题，但是它通过不断的刷来出的中间结果，往往被选中的都是那些最长的COT，道理也简单，你生成东西多，在context没超总体限制的情况下，参考就多，步骤多，分解任务细，反思的也多。

但是

你是不是显存占的也多啊？

这就是我说的如果你要玩R1派的后训练的化，你是要比传统的PRM那套（有规划路径）的要废显存的，因为你一个PRM加一个ORM加个value sever才能占多少显存啊，而且他们不更新权重，只输出reward，可是COT这玩意理论上每个都能给你打到很长

比如我最近玩hf的R1复现

我4个A100 80G，每个卡跑1个batch还zero3呢，都跑不动，我玩的只是7B的模型（或者我应该1.5B的才是）

nohup accelerate launch \  --config_file configs/zero3.yaml \  src/open_r1/grpo.py \  --output_dir DeepSeek-R1-Distill-Qwen-7B-GRPO \  --model_name_or_path deepseek-ai/DeepSeek-R1-Distill-Qwen-7B \  --dataset_name AI-MO/NuminaMath-TIR \  --max_prompt_length 256 \  --per_device_train_batch_size 1 \  --gradient_accumulation_steps 16 \  --logging_steps 10 \  --bf16 \  --report_to none \  > output.log 2>&1 &