51c大模型~合集154

通过搭建「端-边-云」的层级化舞台，引入能灵活伸缩、高效接力的「家族式同源模型」，并最终催生出「1+1>2」的智能涌现，它成功地在强大的 AI 能力与有限的终端算力之间，架起了一座坚实的桥梁。RoboBrain 2.0，作为集感知、推理与规划于一体面向真实物理环境的 “通用xx大脑”，32B 版本凭借时空认知能力的突破，在多项权威xx智能基准上全面刷新纪录，此前发布的 7B 版本，具备紧凑高效的模

whaosoft-143

1795人浏览 · 2025-07-15 02:45:00

whaosoft-143 · 2025-07-15 02:45:00 发布

我自己的原文哦~ https://blog.51cto.com/whaosoft/14048370

#AI下半场的「Game Changer」

直让老外惊呼「Amazing」

又一项中国的 AI 技术在国外火了！

近日，海外社交媒体平台 X 上众多关注 AI 的博主对一个来自中国的新技术展开热烈讨论。

有人表示：「中国不是随便玩玩。这事儿影响太大了！」

有的直呼：「中国真的是在突破边界！」

还有的说：「中国不是在『下棋』，他们在重新定义整个『棋局』！」

到底是什么样的技术，竟能让一众老外给出如此之高的评价？

还惊呼「Amazing」「Superb」「Exciting」（小编仿佛在做雅思考试的高级词汇替代练习）。

头部 AI 科技博主 Jaynit Makwana 发帖说：「......It's called AI Flow - a system where models adapt, collaborate, and deploy......」

科技博主 Rishabh 推文表示：「......（它）可能会重塑生成式人工智能在边缘端的运行方式...... 比我们见过的任何技术都更快、更经济、更智能......」

Rasel Hosen 回复评论说：「...... 拥抱一个人工智能与我们的生活无缝融合的未来，真的可能彻底改变协作模式。已经迫不及待想看看它会如何发展了！」

Muhammad Ayan 表示：「这正是我们在实时人工智能部署中所需要的那种架构。」

VibeEdge 更是用「Game Changer」来形容。

小编立即搜索了一下，找到了 AI Flow 的定义，并且它还有个中文名字——智传网。

智传网（AI Flow）是人工智能与通信网络交叉领域的一项关键技术，即通过网络分层架构，基于智能体间的连接以及智能体和人的交互，实现智能的传递和涌现。

通过智传网（AI Flow），智能可以突破设备和平台的限制，在网络不同层之间自由流动，从云计算中心到终端设备，实现随需响应，随处而至。

更令小编没想到的是，这个技术竟是出自中国的一家央企 —— 中国电信。

根据 AI 科技博主 EyeingAI 介绍：「AI Flow by Professor Xuelong Li (CTO at China Telecom and Director of TeleAI) and the team explores how AI can actually work better in the real world.」

原来，智传网（AI Flow）是中国电信人工智能研究院（TeleAI）正在着重发力的一项技术，由其院长李学龙教授带领团队打造。

李学龙教授是中国电信集团 CTO、首席科学家，他是全球少有的光电和人工智能双领域专家，在光电领域的 OSA（美国光学学会）、SPIE（国际光学工程学会）和人工智能领域的 AAAI、AAAS、ACM 学会，以及 IEEE，都入选了 Fellow。

而这些海外博主们之所以会关注到智传网（AI Flow），是源于 TeleAI 团队于 6 月中旬在 arXiv 上挂出的一份前沿技术报告：

AI Flow: Perspectives, Scenarios, and Approaches

报告地址：https://arxiv.org/abs/2506.12479

在这份技术报告挂出后，快速受到全球技术市场研究咨询机构 Omdia 的关注，还发布了一份行业短评报告，在分析生成式人工智能技术落地应用的趋势和方向时，推荐产业各方将 TeleAI 的智传网（AI Flow）技术「On the Radar」。

Omdia 的 AI 首席分析师苏廉节（Lian Jye Su）还在社交媒体平台发布推文表示：

「通过架起信息技术与通信技术之间的桥梁，智传网（AI Flow）为自动驾驶汽车、无人机和人形机器人等资源密集型应用提供了强大支持，同时不会在延迟、隐私或性能方面做出妥协。分布式智能的未来已然来临 —— 在这一未来中，先进应用既能突破设备限制，又能保持实时响应能力与数据安全性。」

AI Flow 到底是什么？

又为什么需要它？

翻开技术报告，开篇提到了两个赫赫有名的人物：Claude Shannon（克劳德・香农）和 Alan Turing（艾伦・图灵），一位是信息论的创始人，一位被誉为计算机科学之父。他们分别奠定了信息技术（IT）与通信技术（CT）的基础。

报告指出，IT 与 CT 的发展呈现出双轨并行的态势，一方面不断提升单个机器的性能，另一方面构建网络以实现多台机器间更高效的互联。这种协同效应引发了一场技术革命，如今在人工智能大模型的推动下达到顶峰。

AI 的能力边界正以超乎人们想象的速度扩张，文能赋诗作画写代码，武能驱动机器人、无人机与自动驾驶汽车。更有观点认为我们正在进入所谓的「AI 下半场」。然而，大模型对资源消耗大和通信带宽高的需求，在实现普适智能方面正面临着巨大挑战。

真正的现实是，除了在聊天框里与 AI 对话，我们手中的手机、佩戴的设备、驾驶的汽车，距离真正的「泛在智能」似乎仍有遥远的距离。

于是，一个巨大的悖论也随之浮现：既然 AI 已如此强大，为何它仍未能无缝融入我们日常生活的方方面面呢？

答案其实就隐藏在 AI 强大的外表之下。一个残酷的现实是：几乎所有顶尖的 AI 都无法直接运行在我们身边的终端设备上。它们是名副其实的「云端巨兽」，严重依赖远在千里之外、拥有庞大算力的数据中心。

举个例子，如果你要运行 671B 参数量的 DeepSeek-R1 模型（BF16 满血版），则理论上至少需要 1342 GB 内存，而要保证 Token 输出速度，所需的算力更是让人咋舌。很明显，这些需求已经远远超出了绝大多数手机、汽车等端侧设备的承载极限。

这种绝对的云端依赖为 AI 应用的普及带来了最致命的枷锁：延迟。

正如英特尔前 CEO 帕特・基辛格所言：「如果我必须将数据发送到云再回来，它的响应速度永远不可能像我在本地处理那样快。」—— 这是不可违背的「物理定律」。

对于毫秒必争的自动驾驶汽车以及要求实时响应的外科手术机器人，这种延迟是不可接受的，甚至是生死攸关的。

这便是 AI 普及的「最后一公里」困局：最需要即时智能的场景往往离云端很远；而最强大的智能，又偏偏被困在云端，无法下来。

如何打破这个僵局？过去，行业的思路是造更快的芯片、建更大的数据中心，但这越来越像一场投入产出比急剧下降的「军备竞赛」。

当所有人都执着于如何把算力的砖墙砌得更高时，破局的答案或许来自一个长期被忽视、却更关乎万物互联本质的领域——通信。

智传网（AI Flow）正是这个颠覆性的答案！

它是一套整合了通信网络与 AI 模型的创新架构，目标是要搭建起一座桥梁，让智能本身能够突破平台的限制，在「端、边、云」的层级化架构之间像数据一样自由流动、随需而至，实现 Ubiquitous AI Applications（让 AI 应用无处不在）。

就像它的中文名字一样，「智」代表人工智能，「传」代表通信，「网」代表网络，是一座让「智」能「传」输之「网」。

仔细看过 TeleAI 的技术报告后发现，智传网（AI Flow）是一套组合拳，包含三个核心技术方向。

端-边-云协同（Device-Edge-Cloud Collaboration）：为智能的分布式运行提供了硬件基础。

家族式同源模型（Familial Model）：能够灵活伸缩以适应不同设备，并通过复用计算结果实现高效协作。

基于连接与交互的智能涌现（Connectivity- and Interaction-based Intelligence Emergence）：通过模型间的连接与交互，催生出超越任何单体能力的智能涌现，达成 1+1>2 的效果。

端-边-云协同

分布式推理

为了实现 AI 服务的增强智能和及时响应，智传网（AI Flow）采用了分层式端-边-云协同架构。这三层网络架构可为各种下游任务提供灵活的分布式推理工作流程，是模型协作的基础，而模型协作正是智传网（AI Flow）的一大基石。

首先来看现今通信网络普遍使用的三层网络架构，即设备层（端）、边缘层（边）和云层（云）。

其中，端侧设备通信时延最短但算力很低；部署在基站（BS）和路侧单元（RSU）等边缘节点的服务器算力稍强但通信时延稍长，而云端服务器虽然算力很强，但因为网络路由，通信时延最高。

边缘节点由于靠近终端设备，因此能够提供中等计算能力和相对较低的传输延迟。边缘服务器可充当云层和设备层之间的中介，支持本地化处理和动态任务编排。通过从资源受限的终端设备接管对延迟敏感的工作负载，边缘层可以提高响应速度，同时减少对远程云基础设施的依赖。

然而，与云集群相比，其硬件资源仍然有限。因此，边缘服务器对于工作负载的动态编排至关重要，它可以将计算密集型操作卸载到云端集群，同时直接支持终端层设备，从而确保高效利用分层资源。

容易看出，对于这种架构，有效的动态任务编排至关重要。

为了做到这一点，针对端-边的协同推理，TeleAI 提出了任务导向型特征压缩（Task-Oriented Feature Compression）方法，简称 TOFC。该方法可通过在设备上执行融合与压缩，根据通道条件动态优化与任务相关的多模态特征传输。

这种方式能极大减少传输的数据量，在实验中，相比传统图片压缩方式，TOFC 能在保证任务效果的同时，节省高达 60% 的传输数据。

用于端-边的协同推理的 TOFC 系统图示

具体来说，如上图所示，首先由 CLIP 视觉编码器生成视觉特征并对其进行基于 K 最近邻的密度峰值聚类（DPC-KNN），从而大幅减少数据量和计算负载。

然后，采用基于超先验的熵模型对融合后的特征进行编码和解码，从而在保持下游任务性能的同时最大限度地减少数据传输。

最后，训练多个专门用于编码不同特征的熵模型，并根据输入特征的特点自适应地选择最优熵模型。

此外，为了进一步提升效率，智传网（TeleAI）还整合了推测解码（speculative decoding）技术，也就是使用「Draft Token 生成 + 验证」的方法。当用户发起请求时：

设备先「生成 Draft Tokens」：部署在手机等终端设备上的轻量级模型会利用其响应速度快的优势，迅速生成回答的「Draft Tokens」。

云/边后「验证」：「Draft Tokens」生成后，会被发送到边缘服务器或云端。部署在那里的、能力更强的大模型并不会从头重新生成一遍答案，而是扮演「验证者」的角色，快速地验证和修正「Draft Tokens」中的错误或不完善之处。

通过推测解码实现的设备与边缘服务器的分层协作框架概览

为了克服传统推测解码中顺序式「Draft Token 生成 + 验证」范式所导致的固有延迟，TeleAI 提出了一种并行式端-边协作解码框架。而且该框架非常灵活，可以轻松地扩展成「端-边-云」三层架构，解决一些更为复杂的任务，如下图所示。

「端-边」两层以及「端-边-云」三层的协同解码示意图

这种模式下，用户能以小模型的速度享受到大模型的质量。实验证明，在数学推理、代码生成等任务上，这种协同方式的生成速度比单独使用云端大模型提升了约 25%，同时还能保证与大模型同等的准确度。

家族式同源模型

如何定制不同大小的智能？

家族式同源模型是指一系列大小不同但隐含特征已对齐的模型，因此可以实现无开销的信息共享和有效协作。

实际上，这套模型并非不同大小模型的简单组合，也不是像混合专家（MoE）模型那样随机激活一定比例的参数，而是能像变焦镜头一样灵活伸缩，让一个大模型可以按需「变身」成不同尺寸，以适应各类终端的算力限制。

更关键的是，它们在协同工作时还能够复用彼此的计算结果，从而避免重复劳动，极大提升效率。不仅如此，该架构支持几乎任意数量参数的模型，使其能够充分利用异构设备的计算能力，从而满足各种下游任务的需求。

实现家族式同源模型的两大核心策略分别是：

权重分解（Weight Decomposition）：将模型中庞大的参数矩阵分解为多个更小的矩阵，从而在不破坏结构的情况下，精细地调整模型大小。在这方面，TeleAI 新提出了一种名为分层主成分分解（HPCD）的技术，可通过对 Transformer 模块内的线性层进行自适应权重分解，实现对总参数数量进行细粒度调整。

早退出（Early Exit）：允许模型在计算过程中，根据任务的难易程度，从中间的某一层「提前」产生结果，而不必「跑完全程」。在这方面，TeleAI 新提出的了一种名为使用可扩展分支的早退出（EESB）的技术，可通过仔细调整已分解的层之间隐藏特征的维度，家族式同源模型可以实现几乎任意数量的参数，从而适应异构设备的硬件能力。

TeleAI 新提出的 EESB 早退出方法的示意图

这种设计的最大优势在于计算的复用与接力。由于小尺寸模型本质上是家族式同源模型的一个「子集」，当终端设备用 3B 大小的分支完成初步计算后，如果需要更强的智能，它可以将计算的中间结果无缝传递给边缘服务器上的 7B 分支。服务器接收后，无需从头开始，可以直接在 3B 的计算基础上继续向后推理。这种「计算接力」可避免重复劳动，从而极大提升分布式协作的整体效率。

为了让业界能亲身体验，TeleAI 已经开源了一个 7B 参数规模的家族式同源模型，展示了其在技术落地上的决心。

有趣的是，TeleAI 给这个模型命名为「Ruyi」，没错，就是「如意金箍棒」的「如意」。它最大 7B，但可以在 3B、4B、5B、6B 之间任意切换，根据实际需求提供智能能力。

开源地址：

基于连接与交互的智能涌现

如何实现 1+1>2？

当舞台和演员都已就位，智传网的最终目标是通过连接与交互，催生出超越任何单体能力的「智能涌现」，实现得到 1+1>2 的效果！

这个理念与诺贝尔物理学奖得主菲利普・安德森（Philip Anderson）在 1972 年提出的「More is Different」（多者异也）思想不谋而合。其背后是业界对于高质量训练数据正快速枯竭的普遍担忧。

TeleAI 认为，未来的 AI 发展，需要从单纯依赖「数据驱动」转向「连接与交互驱动」。

具体来说，通过实现模型（包括 LLM、VLM 和扩散模型等不同模型）之间的层级连接与交互，智传网（AI Flow）可整合多种模态和特定领域的专业知识，生成上下文连贯且全局一致的输出，实现超越单个贡献总和的协同能力。

为此，TeleAI 针对不同类型的任务设计了多种协同模式。

比如 LLM/VLM 智能体的协同就像「圆桌会议」：想象一个场景，用户提出一个复杂的跨领域问题。智传网（AI Flow）可以同时向部署在不同设备上、分别擅长编码、数学和创意写作的多个 LLM/VLM 智能体发起请求。

这些智能体各自给出初步答案后，会进入一个「圆桌讨论」环节，相互参考彼此的见解，并对自己的回答进行多轮修正，最终形成一个远比任何单个智能体独立思考更全面、更准确的答案。

传统的仅服务器范式与设备-服务器协同范式的比较

TeleAI 也通过大量实验验证了智传网（AI Flow）各组件的有效性，更多详情请参阅技术报告。

这三大支柱共同发力，使得智传网（AI Flow）不再是一个空想的理论，而是一套具备坚实技术内核、直指产业痛点且路径清晰的系统性解决方案。它为我们揭示了 AI 发展的下一个方向：重要的不再仅仅是计算，更是连接。

AI 下半场，答案在「连接」里

从社交媒体的热议，到行业分析报告的「Game Changer」评价，智传网（AI Flow）无疑为我们描绘了一幅激动人心的未来图景。它不仅是 TeleAI 在 AI 时代下出的一步战略好棋，更代表了一种解决当前 AI 领域一大核心矛盾的全新思路。

回顾全文，智传网（AI Flow）的破解之道是系统性的：它没有执着于打造一个更强的模型或更快的芯片，而是着眼于连接与协同。通过搭建「端-边-云」的层级化舞台，引入能灵活伸缩、高效接力的「家族式同源模型」，并最终催生出「1+1>2」的智能涌现，它成功地在强大的 AI 能力与有限的终端算力之间，架起了一座坚实的桥梁。正如中国电信 CTO、首席科学家，TeleAI 院长李学龙教授说的那样：「连接是人工智能发展的关键。」我们相信，这也是通往「AI 下半场」的关键。

人工智能的进一步发展离不开通信和网络基础设施，而这恰恰是运营商特有的优势。实际上，也正是因为拥有庞大网络基础设施和深厚云网融合经验，中国电信才能提出并实践这一框架。当 AI 不再仅仅是运行在网络之上的应用，而是与网络本身深度融合、成为一种可被调度和编排的基础资源时，一个全新的智能时代便开启了。

....

#刚上市的摩尔线程，即将揭晓新一代GPU架构

2025 年 12 月 19 日至 20 日，摩尔线程首届 MUSA 开发者大会（MUSA Developer Conference，简称 MDC 2025）将在北京中关村国际创新中心拉开帷幕。作为国内首个聚焦全功能 GPU 的开发者盛会，大会以「创造、链接、汇聚（Create, Connect, Converge）」为核心理念，直面技术自立自强与产业升级的时代命题，旨在汇聚全球 AI 与 GPU 领域开发者、技术领袖、产业先锋及行业数智化转型实践者，共同探索国产算力的突破路径，擘画自主计算生态的崭新蓝图。

MDC 2025 不仅是摩尔线程 MUSA 技术体系与全栈能力的集中呈现，更致力于打造一个连接技术创新、开发者共创与产业应用的战略平台。大会将围绕 MUSA 统一系统架构，全面展示从硬件到软件、从技术到场景的全栈能力与生态进展，加速推动国产全功能 GPU 技术扎根千行百业，筑牢智能时代的坚实算力底座。

主论坛：

揭晓新一代 GPU 架构与路线图

大会主论坛将聚焦驱动千行百业数智化转型的核心引擎——智能算力。摩尔线程创始人、董事长兼 CEO 张建中将首次系统阐述以 MUSA 为核心的全栈发展战略与未来愿景，并重磅发布新一代 GPU 架构、推出涵盖产品体系、核心技术及行业解决方案的完整布局，分享多领域落地案例与生态建设进展。演讲还将深入分享摩尔线程在 AI 计算、图形渲染、科学计算及多场景融合中的落地实践、生态进展与前瞻思考。

20+ 技术专场：

前沿探索，赋能生态成长

为全方位赋能开发者与合作伙伴，大会设立超过 20 场技术分论坛，议题覆盖智能计算、图形计算、科学计算、AI 基础设施（AI Infra）、端侧智能、xx智能、开发者工具与平台等关键领域，推动前沿技术与产业实践的深度融合。同时，将设立「摩尔学院」赋能开发者成长，通过体系化的技术共享、资源整合与人才培养，共同构建繁荣、可持续的国产 GPU 应用生态。

1000 ㎡科技嘉年华：

沉浸体验，看见创新现场

摩尔线程联合众多生态伙伴，共同打造超过 1000 ㎡的沉浸式「MUSA 嘉年华」，现场设置多元主题展区，内容覆盖 AI 大模型 & Agent、xx智能、科学计算、空间智能等前沿技术领域，并延伸至工业智造、数字孪生、数字文娱、智慧医疗等热门应用场景。通过极具互动性的 Live Demo，让前沿技术可听、可见、可触、可达，生动呈现技术创新与行业融合的真实图景。

我们诚邀全球开发者、合作伙伴与行业推动者共聚北京，在 MDC 2025 这一开放、协同、共创的平台上，深度交流、链接资源、共筑未来，携手推进国产智能计算生态的持续繁荣与演进。

MDC 2025 大会官网现已开放报名，期待与您共赴智算新程：https://mdc.mthreads.com

关于摩尔线程

摩尔线程以全功能 GPU 为核心，致力于向全球提供加速计算的基础设施和一站式解决方案，为各行各业的数智化转型提供强大的 AI 计算支持。我们的目标是成为具备国际竞争力的 GPU 领军企业，为融合人工智能和数字孪生的数智世界打造先进的加速计算平台。我们的愿景是为美好世界加速。

....

#LLaVA-UHD v3

全图与切片并非等价？LLaVA-UHD-v3揭示差异推出高效全图建模方案

随着多模态大模型（MLLMs）在各类视觉语言任务中展现出强大的理解与交互能力，如何高效地处理原生高分辨率图像以捕捉精细的视觉信息，已成为提升模型性能的关键方向。

然而，主流的视觉编码范式往往难以兼顾性能与效率：基于切片的编码方法虽能降低计算开销，却牺牲了全局上下文感知能力；而全局原生分辨率编码在提升整体性能的同时，又带来了巨大的计算负担。同时，现有的视觉压缩策略与特征提取过程相对独立，难以在编码早期有效控制信息冗余，缺乏一个兼顾细粒度建模与计算效率的统一架构。

针对如何在高清原生分辨率下，保持图像全局理解能力的同时，还能快速推理这一核心问题，来自清华大学、中科院的研究团队正式发布 LLaVA-UHD v3！

论文标题：LLAVA-UHD V3: PROGRESSIVE VISUAL COMPRESSION FOR EFFICIENT NATIVE-RESOLUTION ENCODING IN MLLMS
论文链接：https://arxiv.org/abs/2511.21150
代码链接：https://github.com/thunlp/LLaVA-UHD
huggingface 链接：https://huggingface.co/Sishxo/LLaVA-UHD-v3

LLaVA-UHD-v3 提出了全新的渐进式视觉压缩框架 ——Progressive Visual Compression（PVC），由 Refined Patch Embedding（RPE）与 Windowed Token Compression（WTC）两个核心组件构成。该框架在保持全局语义一致性的前提下，显著减少视觉 Token 数量，从根本上提升原生高分辨率视觉编码的效率。依托 PVC，LLaVA-UHD-v3 在性能上可与 Qwen2-VL 相媲美，同时实现 1.9× 的 TTFT 加速，完整训练仅需 32 张 A100、约 300 小时即可完成。

切片编码 vs 全图编码深入分析

为了公平对比两种主流视觉编码方式 —— 基于切片的编码 (Slice-based Encoding, SBE) 与全局原生分辨率编码 (Global Native-Resolution Encoding, GNE) —— 团队使用相同模型架构 + 相同训练数据 + 相同评估 protocol。在此基础上，既在通用多模态 benchmark 上测试，也专门构建了一个合成数据集 ShapeGrid 用于空间感知 / 定位能力分析。

在 ShapeGrid (及其 “Sudoku-style” 子集) 上，GNE 相比 SBE 在空间感知 / 定位任务上的表现有明显优势：空间感知能力平均提升约 11.0%。

同时，在通用视觉 - 语言理解任务中，GNE 在语义理解表现上也略优于 SBE（平均提升约 2.1%）。

更重要的是，通过对比注意力热图、激活分布 (attention maps)，研究发现 SBE 在空间定位任务中表现出系统性的方向、结构偏差 (例如水平、垂直方向不均衡) —— 也就是说 SBE 的切片机制破坏了图像的空间连续性 (spatial continuity 、geometry)，从而削弱了空间理解、定位的可靠性。

因此，该对比实验清晰地表明：尽管 SBE 在效率上有优势，但从语义 + 空间 + 几何一致性 (global context + spatial reasoning) 的角度，GNE 明显更适合需要空间感知、高分辨率理解与推理的任务。

全图编码的高效解决方案

全局原生分辨率编码带来了较高的计算成本，这凸显了迫切需要一种原生且高效的视觉编码范式。因此，团队提出了 LLaVA-UHD v3，一种配备了渐进式视觉压缩（PVC）方法的多模态大模型（MLLM），用于高效的原生分辨率编码。

PVC 架构由两个核心模块组成：

精细化 Patch 嵌入 (Refined Patch Embedding, RPE)：通过将图像划分为更小尺寸的 patch，并用伪逆 (pseudo-inverse) 方法将预训练模型原有 embedding 权重转换为新的、更细粒度的 embedding。这样，原本粗粒度 patch 的语义信息被近似保留，但实现了更丰富的视觉语义提取建模。
窗口化 Token 压缩 (Windowed Token Compression, WTC)：在 ViT 的中间层，将空间上相邻的多个 token（例如 2×2 区域）聚合为一个新 token，初期以均匀平均池化 (average pooling) 起步，并通过一个轻量级、零初始化的 MLP 模型学习内容自适应的池化权重，从而逐渐学会对更重要区域赋予更高权重。这样，随着网络深度的推进，token 数量被大幅压缩，而关键语义信息得以保留。

这种 “先细粒度建模 + 再渐进压缩” 的设计，使得 PVC 在兼顾全局语义 + 局部细节的同时，大幅降低计算量。

实验验证：PVC 在推理效率提升的同时保留模型能力

效率方面，在统一的 LLM（Qwen2-7B）框架下，本文提出的 ViT-UHD 编码器相比 MoonViT 实现了 2.4× 加速，相比 Qwen2.5-ViT 也快 1.9×。将其整合到完整的 MLLM 中后，LLaVA-UHD v3 的 TTFT 相较强大的 Qwen2-VL 降低 49%（约快 1.9×），甚至比以高效著称的切片编码模型 MiniCPM-V2.6 仍然快约 10%。

在性能方面，LLaVA-UHD v3 仅使用约 2000 万对图文数据完成训练，远低于 Qwen2-VL（约 7 亿）和 MiniCPM-V-2.6（约 4.6 亿）等商业模型的训练规模。然而，其在多项视觉语言基准中依旧展现出高度竞争力。同时，它实现了 64× 的视觉 Token 压缩率，远超对手（Qwen2-VL 约为 4×，MiniCPM-V2.6 为 16×），但在需要细粒度视觉信息的任务上 —— 包括 HallusionBench（幻觉检测）、CV-Bench（空间推理）以及 OCR&Chart（文字与图表识别）—— 依然取得了与 SOTA 模型相当甚至更优的表现。

这些结果充分验证了 PVC 框架的核心价值：在大幅减少视觉 Token 和推理开销的同时，仍能稳健保留关键的细节感知与全局理解能力，实现真正意义上的 “高效而不降级”。

展望

基于对全图编码与切片编码优劣的深入分析，LLaVA-UHD v3 提出了结合两者优势的渐进式视觉压缩全图编码方案，在保证模型能力的前提下实现了显著的推理效率提升，并展现出良好的迁移与泛化能力，为 MLLM 的高精度原生分辨率建模提供了可行路径。

不过，实验分析表明，缺失了预对齐阶段的 ViT-UHD 性能不佳，这表明引入 PVC 后的视觉编码器能力仍未达到上限：仅靠当前 MLLM 的标准训练流程，很难完全挖掘 ViT 的视觉表征潜力，其学习尚未饱和。此外，随着 Token 数量增大，Transformer 的二次复杂度仍然会带来成本瓶颈。

未来，仍需要探索更适合多模态任务的视觉编码预训练策略，并逐步引入线性复杂度算子替代传统的二次复杂度注意力机制，从而实现真正可扩展的高效多模态建模。

....

#Canvas-to-Image

Snapchat提出Canvas-to-Image：一张画布集成 ID、姿态与布局

Canvas-to-Image 是一个面向组合式图像创作的全新框架。它取消了传统「分散控制」的流程，将身份参考图、空间布局、姿态线稿等不同类型的控制信息全部整合在同一个画布中。用户在画布上放置或绘制的内容，会被模型直接解释为生成指令，简化了图像生成过程中的控制流程。

作者：Yusuf Dalva, Guocheng Gordon Qian*, Maya Goldenberg, Tsai-Shien Chen, Kfir Aberman, Sergey Tulyakov, Pinar Yanardag, Kuan-Chieh Jackson Wang
通讯作者：Guocheng Gordon Qian
机构：¹Snap Inc. ²UC Merced ³Virginia Tech
论文标题：Canvas-to-Image: Compositional Image Generation with Multimodal Controls
项目主页：https://snap-research.github.io/canvas-to-image/
arXiv：arxiv.org/abs/2511.21691

为什么要把控制方式合并到一张画布上？

在以往的生成流程中，身份参考、姿态线稿、布局框等控制方式往往被设计成互不相干的独立输入路径。

例如：

身份控制需要贴一张独立的参考图；
姿态控制依赖单独的骨架图；
空间布局要再通过另一个模块或附加输入传给模型。

这些控制信号分别从不同通道进入模型，各自拥有独立的编码方式与预处理逻辑。结果就是：用户无法在画面的同一位置叠加多种控制信息，也无法用「一个局部区域里的组合提示」来告诉模型该怎么生成。

换句话说，传统方法的输入结构是多入口、分散式的，缺乏统一的表达空间。这使得复杂场景的构建流程变得冗长且割裂，用户只能一次提供一种控制，无法在同一个图像区域上同时表达身份 + 姿态 + 位置等组合指令。

Canvas-to-Image 正是针对这一结构性限制提出新的方案：所有控制信号都汇聚到同一张画布中，由模型在同一个像素空间内理解、组合并执行。

，时长00:24

核心方法论

(a) 多任务画布（Multi-Task Canvas）

Canvas-to-Image 设计的关键在于——画布本身既是 UI，也是模型的输入。画布中可以出现：

一小块真实人物的图像，用于指定人物；
一组简单的骨架线条，用来调节肢体姿势；
框选区域，用来定义人物或物体应处的位置。

这些异构视觉符号中包含的空间关系、语义信息，都由 VLM-Diffusion（基于 Qwen-Image-Edit）直接解析。

在训练过程中，Canvas-to-Image 的多任务画布从跨帧图像集（cross-frame image sets）中自动生成。具体流程如下：

随机选取一帧作为目标图像。
从其他帧中抽取目标帧所需要不同的视觉元素（人物片段，背景，姿态结构，框选区域等）。
将抽取的视觉元素，按照目标帧中的相应位置，摆放在输入画布中。

这样的跨帧采样策略会在输入画布中自然引入姿态、光照、表情等方面的显著差异，使得输入提示与目标图像之间不存在可直接复用的像素对应关系。由此，模型无法依赖简单的拷贝机制来完成训练任务，而必须学习更抽象的语义关联与结构映射。这一设计在训练阶段有效规避了「抄输入」的捷径，从根本上避免了模型在推理阶段出现 copy-paste 式的生成行为。

为了保持训练的简洁性，在每一次训练中，模型只会接收到一种随机选定的控制模态（例如空间布局、姿态骨架或边界框）。这样可以让模型分别学会独立理解不同类型的控制提示，并在推理阶段自然实现多控制的组合能力。

(b) 多控制推理

在推理阶段，Canvas-to-Image 允许用户在同一张画布上灵活组合多种控制模态，例如同时提供身份参考区域、姿态骨架以及空间布局框，从而实现复杂的多控制场景生成。与传统「单一路径控制」的方案不同，用户无需在不同模块之间切换或分阶段注入条件，而是通过统一画布一次性给出所有约束信号。

从学习机制上看，模型在训练过程中仅接触到单一控制模态的样本：每个训练样本只随机激活其中一种控制形式（身份、姿态或位置），使模型分别掌握对单独控制信号的理解与对齐能力。值得注意的是，即便在数据中并不存在显式标注的「多模态组合控制」样本，模型在推理阶段仍然能够在统一画布中同时解析并整合多种控制信号：它会在身份参考的约束下保持人物外观一致性，在姿态骨架约束下生成结构合理的姿态，并在布局框条件下遵循全局空间排布。

这一现象表明，模型在统一画布表示的框架下，学到的并不是对某一种控制模态的简单记忆，而是对「画布上局部区域与目标图像结构之间关系」的更高层次建模能力。换言之，模型在仅依赖单模态训练的前提下，仍然展现出对未见过控制组合的泛化能力：在推理中面对新的、复杂的多控制配置时，依然能够生成结构一致、外观可信且各控制信号相互兼容的高质量结果。这也从实验角度验证了统一画布设计在提升组合式可控生成能力方面的有效性。

实验结果多控制组合（Multi-Control Composition）

Canvas-to-Image 能够同时处理身份、姿态和布局框，而基线方法往往会失败。Canvas-to-Image 能：

遵循画布中给定的姿态与空间约束；
保持人物外观与参考图一致；
在多种控制叠加时维持整体画面的连贯性与合理性。

身份 + 物体组合

当画布中同时包含人物提示和物体提示时，Canvas-to-Image 不会把两者当作独立元素简单并置。模型能够理解两者之间应有的空间与语义关系，因而会生成具有自然接触、合理互动的场景。

此外，在多种控制叠加的情况下，Canvas-to-Image 仍能保持：

人物外观与参考图一致；
物体的形状、材质和语义保持稳定；
人物与物体之间的空间一致性与几何逻辑不被破坏。

因此即便在复杂的组合控制设置下，生成的画面也能呈现出连贯、可信的互动效果，而不是常见的「贴图式合成感」。

多层次场景：前景 + 背景

在给定一张背景图的情况下，Canvas-to-Image 可以通过放置参考图或标注边界框的方式，将人物或物体自然地融入场景。模型会根据画布中的提示自动调整空间关系，使插入元素在位置、光照和整体氛围上与背景保持一致，呈现近乎原生的融合效果。

消融研究

我们系统地测试了当逐步添加控制时模型的表现：

仅身份控制：模型能生成人物，但姿态和位置随机；
+ 姿态控制：模型学会同时控制身份和姿态；
+ 空间布局：模型能完全控制身份、姿态和位置。

关键发现：虽然训练时使用单任务画布，但模型自然学会了在推理时组合多种控制——这种涌现能力验证了我们的设计理念。

总结

Canvas-to-Image 的核心价值是把多模态的生成控制方式全部图形化，让复杂场景的构建回归到最直观的方式：在画布上摆放、画、框，就能让模型生成对应的结构化、真实感强的画面。统一画布 + 多模态控制的范式，将有望成为下一代创作工具的基础界面形态。

....

#从 LLaVA 到 Qwen3-VL

解构多模态大模型的演进之路

引言：当 AI 睁开双眼，我们看到了一个怎样的未来？

曾几何时，我们对人工智能的印象还停留在那个聪慧但略显“盲目”的“数字大脑”上——它能写诗、能编程、能回答深奥的哲学问题，但这一切都局限于冰冷的文本世界。然而，就在最近两年，一场深刻的变革正在悄然发生。

您或许已经惊叹于 GPT-5 那般流畅自如的实时图片对话，它能“看到”您房间的布局并给出整理建议；又或者，您可能对 Qwen3-VL 直接“注视”着手机屏幕、精准地点击按钮、操作应用程序的能力感到不可思议。AI 不再仅仅是一个“只会读书”的语言模型，它正在进化成一个能听、会看、可交互的“智能体”，真正地睁开了双眼，开始感知和理解我们所处的这个五彩斑斓的物理世界。

这场从“符号”到“感知”的飞跃，背后究竟隐藏着怎样的技术密码？AI 是如何跨越数字与现实的鸿沟，实现从纯文本“思考”到图文视频并茂的“感知与交互”的？

答案，就蕴藏在 多模态大模型(Multimodal Large Models, MLLM) 的架构革命之中。而在 MLLM 这条充满创新与探索的赛道上，涌现出了两条截然不同但都极其成功的技术演进路线。本文将聚焦于这两条路线的杰出代表：以“大道至简”为核心逻辑的 LLaVA 系列，以及奉行“深度融合”设计思想的 Qwen3-VL。

在接下来的内容中，我们将一同踏上这场解构之旅。我们首先会搭建起 MLLM 通用的“三位一体”黄金架构蓝图，理解其运作的基础；随后，我们将深入一个所有 MLLM 都必须面对的核心矛盾——如何让模型在不牺牲效率的前提下，看得更“清晰”？ 最终，我们将通过全景式地剖析 LLaVA 与 Qwen3-VL 的架构演进与核心技术，看它们如何分别给出了两条路径迥异却同样精彩的答案。

第一部分：蓝图与基石 —— MLLM 的“三位一体”黄金架构

在深入探讨 LLaVA 和 Qwen3-VL 的具体实现之前，我们必须先搭建一个稳固的认知框架。幸运的是，尽管实现细节千差万别，当前绝大多数主流的多模态大模型都遵循着一个共同的、优雅的“三位一体”黄金架构。我们可以将其生动地比喻为为 AI 打造一套完整的“感知-思考”系统：

AI 的“眼睛” (视觉编码器): 负责最前端的感知。它的任务是将输入的像素世界——无论是静态图片还是动态视频，转化为机器能够理解的、蕴含丰富语义的数学表达（即特征向量）。
AI 的“大脑” (大语言模型): 负责最后端的认知。它拥有强大的语言理解、逻辑推理和内容生成能力，是整个系统的“思考中枢”。
灵魂之桥 (连接器): 负责最关键的沟通。它像一位精湛的“翻译官”，将“眼睛”看到的视觉信息，精准地翻译成“大脑”能够听懂的“语言”，实现两大模态的无缝对接。

这三个部分协同工作，构成了一幅完整的 MLLM 架构蓝图。接下来，我们将逐一拆解这三大核心组件，首先从为 AI 提供视觉能力的那块革命性基石——Vision Transformer (ViT)开始。

1.1 AI 的“眼睛”：Vision Transformer (ViT)

要让 AI 看懂世界，首先要解决一个根本问题：计算机眼中的图像本质上只是一个由像素值构成的巨大数字矩阵，而语言模型处理的则是离散的、一维的词元（Token）序列。如何跨越这两种数据形态的鸿沟？

2020 年，Google 提出的 Vision Transformer (ViT) 给出了一个颠覆性的答案。它摒弃了传统卷积神经网络 (CNN) 依赖局部卷积核的设计，开创性地将图像视为“序列化的文本”。ViT 的核心思想简单而强大：如果 Transformer 能够通过理解单词序列来读懂一篇文章，那它为什么不能通过理解图像块序列来“读懂”一张图片呢？

Vision Transformer (ViT) 架构概览

如上图所示，ViT 的工作流程可以清晰地分解为以下几个步骤：

第一步：图像分块 (Image Patching)

ViT 的第一步，是将连续的二维图像进行“离散化”。它会将输入的图像像切蛋糕一样，分割成一系列固定大小、不重叠的小方块，这些小方块被称为 “Patches”。这个过程是后续所有处理的基础。

举一个具体的例子：一张分辨率为 224x224 像素的彩色图像，如果被设定为使用 16x16 大小的图块进行分割，那么在水平和垂直方向上都将被切成 224 / 16 = 14 份。最终，这张完整的图像就被转换成了一个 14x14 的网格，总计 196 个图像块。至此，一张复杂的、连续的二维图片，就被巧妙地转换成了一个由 196 个元素组成的一维序列，完美适配了 Transformer 模型的输入要求。

第二步：展平与线性投影 (Flatten & Linear Projection)

得到了图像块序列后，下一步是将其转换为模型能够处理的数学表示——向量。

首先，每个二维的图像块（例如，一个 16x16 的彩色图块，其数据维度为 16x16x3，3 代表 RGB 通道）会被“压平”（Flatten），变成一个长长的一维向量。在这个例子中，向量的维度就是 16 * 16 * 3 = 768。

随后，这个原始的像素向量会通过一个标准的可学习线性投影层（本质上是一个全连接神经网络层），被映射到模型预设的、更具语义意义的隐藏维度（Embedding Dimension）中，例如 768 维。这个关键的过程被称为 Patch Embedding。它将每一个物理上的、具体的图像块，都转换成了一个数学上抽象的、蕴含了初步内容信息的“视觉词元”（Visual Token），其作用完全等同于自然语言处理中的“词嵌入”。

第三步：添加上下文信息 (Position & Class Embedding)

这是 ViT 能够真正“理解”图像空间布局的灵魂所在。标准的 Transformer 架构对序列顺序不敏感（“猫追老鼠”和“老鼠追猫”在它看来输入的内容向量是相同的）。为了让模型理解每个图像块在原始图片中的空间位置，我们必须为每个“视觉词元”注入位置信息。

此外，为了完成图像分类等需要全局信息的任务，ViT 还借鉴了 BERT 的思想，在序列的最前面加入一个额外的、可学习的 [class] Token。这个特殊的 Token 如同一个“信息汇聚器”，将在 Transformer 内部与所有图像块信息进行交互，最终其对应的输出向量将作为整张图像的“总结陈词”，送入分类头（MLP Head）进行预测。

对于位置信息，现代 ViT 架构（如 Qwen-VL 系列）广泛采用了精巧的 旋转位置编码 (Rotary Position Embedding, RoPE) 。

核心思想与工作原理：
RoPE 的思想极其巧妙，它不再是像传统方法那样给内容向量“加上”一个独立的位置向量。相反，它是在自注意力机制内部，通过旋转的方式，将位置信息动态地融入到查询（Query）和键（Key）向量中。
我们可以这样直观理解：将每个“视觉词元”向量的高维空间，看作由许多个二维平面组成。RoPE 会根据这个词元（Patch）在图像中的绝对二维坐标(h, w)（h 代表高度，w 代表宽度），计算出一组特定的旋转角度。然后，在计算注意力分数之前，它会用这些角度，将 Query 向量和 Key 向量在那些二维平面上进行相应的旋转。这样做的神奇之处在于，当计算任意两个 Patch 之间的注意力分数时（本质上是计算它们旋转后的 Query 和 Key 的点积），点积的结果会自然而然地只与它们的相对位置有关，而与它们的绝对位置无关。这使得 RoPE 具备了极强的尺寸泛化能力：无论输入图像被分割成多大的网格，模型都能通过旋转角度的差异，准确地捕捉到任意两个图像块之间的相对空间关系（例如“左上方”、“右侧相邻”）。
与 LLM 的核心区别：虽然现代大语言模型（LLM）也普遍使用 RoPE，但 ViT 中的 2D-RoPE 与 LLM 中的 1D-RoPE 存在根本性的区别。LLM 处理的是一维的文本序列，只需编码单一的先后顺序；而 ViT 处理的是二维的图像网格，必须同时编码高度h 和宽度w 两个维度的信息。因此，2D-RoPE 的实现会更为复杂，需要将特征向量的维度进行划分，分别用于编码两个空间轴的位置，甚至采用像 Qwen3-VL 的 MRoPE-Interleave 这样的先进交错技术，来更鲁棒地编码多维空间信息。

第四步：核心处理引擎 (Transformer Encoder)

经过上述所有准备工作，我们最终得到了一个既包含丰富内容信息，又蕴含了精确空间位置的“视觉词元”序列。这个序列将被送入一个由多个相同模块堆叠而成的标准 Transformer Encoder 中进行深度处理和全局信息融合。

每个 Encoder 模块内部主要包含两个核心子层：

多头自注意力机制 (Multi-Head Attention): 这是 ViT 的精髓所在。它赋予了序列中每一个图像块去“关注”所有其他图像块（包括自身）的能力，并根据内容和相对位置计算出彼此间的关联强度。通过这种全局的、无限制的“信息交互”，ViT 能够轻松捕捉到图像中跨越很远距离的依赖关系，例如，精准地将画面左上角孩童的视线，与右下角滚动的皮球联系起来。
前馈网络 (Feed-Forward Network): 在所有图像块完成一轮“集体讨论”（自注意力）后，每个位置的输出都会独立地经过一个简单的全连接前馈网络（通常是两层 MLP）。这个过程可以被看作是对融合了全局上下文信息后的每个图像块，进行一次独立的、深度的特征“提纯”和非线性变换。

通过这一系列步骤，ViT 成功地为 AI 装上了一双能够“阅读”图像的“眼睛”，将复杂的像素世界转换成了下游模型（如 LLM）可以进一步处理的、结构化的、蕴含了丰富语义和空间关系的特征序列。这正是后续所有精彩的多模态故事的开端。

1.2 AI 的“大脑”：大语言模型 (LLM) 的思考中枢

如果说 ViT 是 MLLM 的“眼睛”，负责感知世界，那么大语言模型 (LLM) 毫无疑问就是其负责认知、推理和表达的“大脑”。在整个“三位一体”的架构中，LLM 扮演着信息最终汇聚者和决策者的角色。它的核心任务，是将经过“连接器”翻译对齐后的多模态特征，与用户的文本指令深度融合，并通过强大的自回归生成能力，输出符合逻辑、切合情境的文本回复。

1.2.1 输入：一种融合后的“多模态现实”

LLM 所“看到”的输入，不再是单纯的文本序列。它接收的是一个经过精心构造的、一维的、融合了视觉与文本信息的长序列。在这个序列中，来自图像的“视觉词元”和来自文本的“语言词元”肩并肩地排列在一起，共同构成了 LLM 进行思考的完整上下文。

为了更清晰地理解这个从像素到融合输入的完整旅程，我们可以通过下面这个表格来分解每一步的数据形态和维度变换：

正如表格第 6 步所示，最终送入 LLM 的，是一个全新的、更长的序列。在这个例子中，序列的总长度变成了 196 + 5 = 201。这个序列的前 196 个位置，承载着图像的全部视觉信息；而紧随其后的 5 个位置，则明确了用户的意图和问题。LLM 的自注意力机制将在这个统一的序列上运作，使得文本词元可以“关注”到视觉词元，反之亦然，从而实现了真正意义上的图文理解。

例如，当用户输入一张图片并提问“What is in the image?”时，LLM 的最终输入会是[觉词元1, ..., 视觉词元196, "What", "is", "in", "the", "image", "?"]样拼接后的形态。

对于更先进的模型如 Qwen3-VL，这个输入序列的构造会更加复杂和动态。它不仅仅是图文的简单拼接，甚至可以是图、文、视频帧交错排列的复杂序列，其中还巧妙地插入了精确的时间戳文本（如 <0.8 seconds>），为 LLM 提供了前所未有的、理解动态世界的丰富信息。

1.2.2 核心机制：基于多模态上下文的自回归生成

拿到这个融合了丰富视觉信息的序列后，LLM 的核心工作机制—— 自回归生成 (Autoregressive Generation) 便开始启动。这个过程与纯文本 LLM 的工作方式在本质上是相同的：模型会基于当前已有的全部上下文（现在包含了视觉信息），来预测下一个最有可能出现的词元 (Token)。

这个过程会像滚雪球一样持续进行：

模型根据 [视觉序列 + 问题序列] 预测出第一个答案词元，例如 "A"。
然后，将 "A" 追加到输入序列的末尾，形成新的、更长的上下文。
模型再根据 [视觉序列 + 问题序列 + "A"] 预测出第二个答案词元，例如 "cat"。
这个过程不断迭代，直到模型生成一个特殊的终止符（如 <EOS>）或达到预设的最大长度限制为止。

1.2.3 输出艺术：如何选择下一个词？—— 解码策略

虽然“预测下一个词”的原理很简单，但在每一步如何从成千上万个候选词元的概率分布中做出最终选择，却是一门艺术。不同的解码策略 (Decoding Strategy) 会直接影响生成结果的质量、速度和多样性，使其能够适应从精准问答到创意写作的各种任务。

根据上图，我们可以总结出三种主流的解码策略：

贪婪解码 (Greedy Decoding): 这是最简单直接的策略。在每一步，模型都会毫不犹豫地选择当前概率最高的那个 Token 作为输出。它的优点是速度极快，适用于对实时性要求很高的简单任务。但缺点是容易“鼠目寸光”，可能会因为眼前的最优选择而错失全局更优的答案，陷入局部最优。
束搜索 (Beam Search): 为了克服贪婪解码的短视问题，束搜索在每一步都会保留 k 个（k 称为束宽 'beam width'）概率最高的候选序列。在下一步，模型会基于这 k 个序列分别进行扩展，然后从所有扩展出的新序列中再次选出总概率最高的 k 个。这种方法通过保留更多的可能性，在生成质量和计算成本之间取得了很好的平衡，因此广泛应用于视觉问答（VQA）、图像描述等大多数生成任务中。
采样 (Top-p): 与前两种确定性策略不同，采样策略引入了随机性。它不会总是选择概率最高的词，而是根据概率分布进行随机抽样，通常会限定在一个较小的、高质量的候选词集合内（例如 Top-p 采样）。这极大地增加了生成文本的多样性和创造性，使其非常适合需要“灵感迸发”的场景，如根据图片写故事、创作诗歌等。

1.2.4 架构演进：从“稠密”到“稀疏”——MoE 的崛起

值得注意的是，作为“大脑”的 LLM 自身也在不断进化。传统的 LLM 通常是“稠密”的，即在推理时需要激活模型的所有参数。而以 Qwen3-VL 为代表的新一代 MLLM，其语言模型部分已经开始采用更先进的混合专家 (Mixture of Experts, MoE) 架构。

Qwen3VLMoeForConditionalGeneration(
  (model): Qwen3VLMoeModel(
    (visual): Qwen3VLMoeVisionModel(
      (patch_embed): Qwen3VLMoeVisionPatchEmbed(
        (proj): Conv3d(3, 1152, kernel_size=(2, 16, 16), stride=(2, 16, 16))
      )
      (pos_embed): Embedding(2304, 1152)
      (rotary_pos_emb): Qwen3VLMoeVisionRotaryEmbedding()
      (blocks): ModuleList(
        (0-26): 27 x Qwen3VLMoeVisionBlock(
          (norm1): LayerNorm((1152,), eps=1e-06, elementwise_affine=True)
          (norm2): LayerNorm((1152,), eps=1e-06, elementwise_affine=True)
          (attn): Qwen3VLMoeVisionAttention(
            (qkv): Linear(in_features=1152, out_features=3456, bias=True)
            (proj): Linear(in_features=1152, out_features=1152, bias=True)
          )
          (mlp): Qwen3VLMoeVisionMLP(
            (linear_fc1): Linear(in_features=1152, out_features=4304, bias=True)
            (linear_fc2): Linear(in_features=4304, out_features=1152, bias=True)
            (act_fn): PytorchGELUTanh()
          )
        )
      )
      (merger): Qwen3VLMoeVisionPatchMerger(
        (norm): LayerNorm((1152,), eps=1e-06, elementwise_affine=True)
        (linear_fc1): Linear(in_features=4608, out_features=4608, bias=True)
        (act_fn): GELU(approximate='none')
        (linear_fc2): Linear(in_features=4608, out_features=4096, bias=True)
      )
      (deepstack_merger_list): ModuleList(
        (0-2): 3 x Qwen3VLMoeVisionPatchMerger(
          (norm): LayerNorm((4608,), eps=1e-06, elementwise_affine=True)
          (linear_fc1): Linear(in_features=4608, out_features=4608, bias=True)
          (act_fn): GELU(approximate='none')
          (linear_fc2): Linear(in_features=4608, out_features=4096, bias=True)
        )
      )
    )
    (language_model): Qwen3VLMoeTextModel(
      (embed_tokens): Embedding(151936, 4096)
      (layers): ModuleList(
        (0-93): 94 x Qwen3VLMoeTextDecoderLayer(
          (self_attn): Qwen3VLMoeTextAttention(
            (q_proj): Linear(in_features=4096, out_features=8192, bias=False)
            (k_proj): Linear(in_features=4096, out_features=512, bias=False)
            (v_proj): Linear(in_features=4096, out_features=512, bias=False)
            (o_proj): Linear(in_features=8192, out_features=4096, bias=False)
            (q_norm): Qwen3VLMoeTextRMSNorm((128,), eps=1e-06)
            (k_norm): Qwen3VLMoeTextRMSNorm((128,), eps=1e-06)
          )
          (mlp): Qwen3VLMoeTextSparseMoeBlock(
            (gate): Qwen3VLMoeTextRouter(in_features=4096, out_features=128, bias=False)
            (experts): Qwen3VLMoeTextExperts(
              (act_fn): SiLU()
            )
          )
          (input_layernorm): Qwen3VLMoeTextRMSNorm((4096,), eps=1e-06)
          (post_attention_layernorm): Qwen3VLMoeTextRMSNorm((4096,), eps=1e-06)
        )
      )
      (norm): Qwen3VLMoeTextRMSNorm((4096,), eps=1e-06)
      (rotary_emb): Qwen3VLMoeTextRotaryEmbedding()
    )
  )
  (lm_head): Linear(in_features=4096, out_features=151936, bias=False)
)

在 MoE 架构中，模型内部包含多个“专家”子网络。对于每一个输入的词元，一个“门控网络”会智能地选择激活一小部分最相关的专家来进行计算，而其他专家则保持“沉默”。这种“稀疏激活”的策略，使得模型可以在大幅增加总参数量的同时，保持推理计算量不变，从而在性能和效率之间取得了更好的平衡。

综上所述，LLM 在多模态架构中扮演着不可或缺的“认知核心”。它不仅需要理解语言，更要学会在一个融合了视觉信息的全新语境中进行思考，并借助灵活的解码策略和先进的自身架构，生成精准、多样且富有创造力的回答。

1.3 灵魂之桥：“连接器” (Connector)

我们现在有了能够“看”的眼睛 (ViT) 和能够“想”的大脑 (LLM)，但一个至关重要的问题摆在面前：它们二者之间如何沟通？ViT 输出的视觉特征向量，与 LLM 理解的文本嵌入向量，尽管都是高维向量，但它们处于完全不同的“语义空间”，好比一个说法语，一个说中文，无法直接交流。

为了解决这个“模态鸿沟”(Modality Gap)，连接器 (Connector) 应运而生。它在整个架构中扮演着“灵魂之桥”或“同声传译官”的角色，其核心使命只有一个：将 ViT 输出的视觉特征，精准地投影 (Project) 或翻译 (Translate) 到 LLM 能够理解的同一个向量空间中，实现视觉与语言的无缝对齐。

如上图表格的第 3 步和第 4 步所示，连接器接收了 ViT 输出的 [1, 196, 768] 维特征，并将其转换为了 [1, 196, 4096] 维的“对齐后视觉特征”。这不仅仅是维度的改变，更是一次深刻的语义空间映射。

然而，“翻译”这门艺术本身也有着不同的流派和哲学。在 MLLM 的世界里，连接器的设计主要分为两大流派：

流派一：极简主义翻译官 —— 线性投影层 (Linear Projection)

这是目前最主流，也是以 LLaVA 系列为代表的经典实现方式。它奉行“大道至简”的哲学，认为只要“大脑” (LLM) 足够强大，那么“翻译官”的工作就可以尽可能地简单直接。

工作原理：
这种连接器在结构上通常是一个非常简单的多层感知机 (MLP)，甚至可以只是一个单层的全连接网络。它的核心任务就是进行一次线性的维度变换，将输入的视觉特征向量（如 768 维）映射到 LLM 的隐藏空间维度（如 4096 维）。这种方法并不试图对视觉信息进行复杂的预处理或提炼，而是相信在海量的图文数据对的训练下，这个简单的线性层足以学习到两个模态空间之间的映射关系。它将大部分的理解和融合压力都交给了后续更为强大的 LLM。LLaVA 的巨大成功证明了，在正确的训练策略下，这种极简设计的有效性。

流派二：主动型信息提炼师 —— Q-Former

与 LLaVA 的极简主义形成鲜明对比的是以 BLIP-2 模型为代表的精巧设计——Q-Former。它认为，“翻译官”不应该只是一个被动的“传声筒”，而应该是一个能够主动思考、提炼关键信息的“专家”。

首先，我们必须明确 Q-Former 要解决的核心问题。

ViT (眼睛) 在看完一张图片后，会输出一个非常长的特征序列。例如，一张 224x224 的图片会被转换成 196个“视觉词元”。
这 196 个词元是“未经加工的原始素材”。它们包含了图像中的一切——重要的物体（比如一只猫）、物体的细节（猫的胡须）、次要的背景（一片草地），以及大量冗余和无用的信息（比如 100 个几乎一模一样的草地块）。
**LLaVA 的方案 (流派一)**：把这 196 个词元全部“翻译”一下，然后原封不动地丢给“大脑”（LLM）。这极大地增加了 LLM 的计算负担。LLM 就像一个 CEO，现在却被迫阅读一份 196 页的、未经筛选的原始数据报告。

Q-Former (Querying Transformer) 的设计理念是：不应该让 CEO (LLM) 去读原始报告，我们应该先成立一个“专家分析团队”，由他们去阅读那 196 页的原始报告，然后提炼出一份 32 页的、信息高度浓缩的“执行摘要”。

这个“专家分析团队”就是 Q-Former。

核心机制 (一)：Learnable Queries（可学习的查询向量）

Q-Former 是如何“提炼”的呢？它靠的就是 Learnable Queries（可学习的查询向量）。

Learnable Queries 是一组数量固定的向量（例如，BLIP-2 中使用了 32 个），在模型训练开始之前，它们不包含任何信息，只是一堆随机初始化的数字。您可以把它们想象成 32 个空白的“问题卡片”或“待填表格”。
在海量的图文数据训练中，模型会反向传播更新这些查询向量。渐渐地，这 32 个“空白卡片”学会了各自的“职责分工”，训练完成后，这 32 个查询向量就变成了 32 个“专家分析师”：
Query 1 (专家1) 学会了专门去寻找“主要物体”。
Query 2 (专家2) 学会了专门去寻找“背景和场景”。
Query 3 (专家3) 学会了专门去寻找“图像中的文字 (OCR)”。
Query 4 (专家4) 学会了专门去寻找“物体的颜色和纹理”。
… 以此类推。
这种“职责”不是我们人为设定的，而是模型在训练中为了最好地完成下游任务（如看图说话、视觉问答）而自发学习和演化出来的最高效的分工方式。

核心机制 (二)：Cross Attention（交叉注意力）

现在，我们有了 196 页的原始报告（ViT 输出的视觉特征）和 32 位“专家分析师”（Learnable Queries）。他们如何开会呢？答案是交叉注意力 (Cross Attention) 。

如上图 (a) 所示，这个机制是这样工作的：

提问 (Query)：32 位“专家”（Learnable Queries）作为 Q (Query) ，进入会议室。
报告 (Key/Value)： 196 页“原始报告”（ViT 输出的视觉特征）作为 K (Key) 和 V (Value) ，被摊在桌面上。
开会过程 (Cross-Attention)：

专家 1（负责找主要物体） 会站起来，“审视”所有的 196 个视觉词元，并大声提问：“你们谁是‘主要物体’？”
那 196 个视觉词元会根据自己的内容给出回应（计算注意力分数）。那些代表“猫”的词元会说：“我们是！我们是！”（高分）；那些代表“草地”的词元会说：“我们不是。”（低分）。
专家 1 于是将所有“高分回应”（即“猫”的特征）收集起来，通过加权平均的方式，填满了自己那张空白的“问题卡片”。
专家 1 的最终输出向量，现在就变成了一个高度浓缩了“猫”的信息的向量。

生成摘要： 32 位专家各自重复上述过程，各自从 196 页原始报告中提取自己“负责”的那部分信息。
最终输出： 会议结束。Q-Former 输出的不再是 196 个原始词元，而是这 32 个已经被填满信息的、高度浓缩的“摘要向量”。

Q-Former 的真正优势

信息过滤与压缩： 它将 196 个冗余、嘈杂的原始特征，压缩成了 32 个信息密度极高、与下游任务高度相关的精华特征。
减轻 LLM 负担： LLM（CEO）现在只需要阅读这份 32 页的“执行摘要”。这极大地降低了计算量，使得模型可以更专注于高级的逻辑推理，而不是在 196 页的原始数据中“大海捞针”。
灵活性： 如图中的 (b) 部分所示，Q-Former 还可以通过不同的注意力掩码（Mask）灵活地执行多种任务（如图像-文本匹配、文本生成等）， versatility 极强。

希望这个“32位专家分析师（Queries）去审阅 196 页原始报告（ViT output），并通过开会（Cross-Attention）生成一份 32 页执行摘要（Q-Former output）”的比喻，能帮助您彻底理解 Q-Former 的工作原理。

综上所述，连接器的设计选择，深刻地反映了模型背后的设计哲学。是以 LLaVA 为代表的极简派，相信“少即是多”，依赖强大的 LLM 和海量数据完成融合；还是以 BLIP-2 为代表的精巧派，相信专业的“分工协作”，在视觉信息进入 LLM 之前就进行深度提炼。这两种思路的碰撞与演进，也正是我们将在下一部分探讨的核心主题。

1.4 从像素到文字的维度变换

至此，我们已经分别认识了 MLLM 的“眼睛” (ViT)、“大脑” (LLM) 和连接它们的“灵魂之桥” (Connector)。现在，让我们将这些独立的部件组装起来，跟随一个具体的例子，完整地走一遍数据从输入到输出的全过程。这将帮助我们直观地理解，一张普通的图片和一句简单的问题，是如何在模型内部被一步步解析、融合、思考，并最终生成一句流畅回答的。

这个旅程的本质，是一场精彩的数据形态与矩阵维度变换之旅。我们可以通过下面这张精心梳理的表格，来追踪其每一步的变化。

让我们来详细解读这个过程中的关键转变：

从空间到序列 (步骤 1 -> 2): 最根本的转变发生在这里。ViT 将一个二维的、连续的像素空间，成功地转换成了一个一维的、离散的“视觉词元”序列。这是后续所有处理的基础。
语义空间的对齐 (步骤 3 -> 4): 这是“连接器”发挥核心作用的时刻。它接收来自 ViT 的、处于“视觉语义空间”的特征，并通过一次精妙的数学投影，将其转换到了 LLM 所处的“语言语义空间”中。尽管我们看到的只是特征维度从 768 变成了 4096，但这背后是一次深刻的跨模态“翻译”。
多模态现实的构建 (步骤 4, 5 -> 6): 这是整个架构中最激动人心的时刻。两个原本独立的模态——视觉和语言在此刻被物理地拼接在一起，形成了一个全新的、统一的输入序列。对于 LLM 来说，从这一刻起，它的世界里不再有图像和文本之分，只有一个包含了丰富信息的、长达 201 个词元的“多模态现实”。LLM 的自注意力机制将在这个统一的序列上运作，使得文本词元可以“关注”到视觉词元，反之亦然，从而实现了真正意义上的图文深度理解。
从理解到生成 (步骤 6 -> 7): 最后，LLM 基于这个前所未有的丰富上下文，发挥其强大的生成能力，将它的“所见所想”以自然语言的形式表达出来，完成了一次从感知到认知的完整闭环。

至此，我们已经为后续的深入探讨打下了坚实的基础。我们不仅理解了 MLLM 的三大核心组件，更通过追踪一次完整的数据之旅，直观地感受到了它们是如何协同工作，将冰冷的像素矩阵一步步转化为有意义的文字回答。

第二部分：两条路线 —— 如何看得更“清晰”？

第一部分中搭建的“三位一体”黄金架构，为 MLLM 看懂世界提供了基础蓝图。然而，这个基础蓝图很快就面临一个严峻的现实挑战：真实世界的视觉信息远比 224x224 的标准测试图要复杂得多。

想象一下，我们要让 AI 阅读一份布满小字号文字的 PDF 文档、分析一张高清的城市航拍图，或者理解一张超长的网页截图。如果简单粗暴地沿用 ViT 的分块逻辑，将这些高分辨率图像直接切分成海量的 16x16 图块，那么生成的“视觉词元”序列长度将从几百激增到数千甚至上万。对于 LLM 内部计算复杂度呈平方级增长的自注意力机制而言，如此长的序列无异于一场计算和显存的噩梦，这在现实应用中是完全不可行的。

那么，如何在不牺牲效率的前提下，让模型拥有处理高分辨率信息、捕捉微小细节的“鹰眼”能力呢？面对这个核心矛盾，业界探索出了两条截然不同但都极其成功的技术演进路线。本章，我们将深入解构这两种设计哲学。

2.1 路线一：LLaVA 的 AnyRes

第一条路线的杰出代表是 LLaVA 系列。它所奉行的核心哲学可以概括为：“保持模型核心的极简性，通过在输入端进行巧妙的工程设计，来‘欺骗’模型，使其能消化远超其原始训练分辨率的信息。”

LLaVA 的开发者们没有选择去重构模型内部复杂的融合机制，而是将智慧聚焦于数据预处理阶段，提出了一套名为 AnyRes (Any Resolution) 的解决方案。顾名思义，它的目标就是让模型能够处理“任意分辨率”的图像。

LLaVA-1.5-HD：“全局+局部”的巧妙协同

AnyRes 的思想在 LLaVA-1.5-HD 版本中得到了经典的体现。其策略的核心是“两手抓，两手都要硬”，同时兼顾图像的全局上下文和局部细节。

如上图所示，当 LLaVA-1.5-HD 接收到一张高分辨率图像时，它会兵分两路进行处理：

“局部细节”处理路径 (上路):

模型首先将原始的高清大图（High Resolution Image）分割 (split) 成多个较小的、但依然保持高清晰度的图块。这些图块的尺寸通常与视觉编码器（如 CLIP-ViT）原始训练时能够处理的最大分辨率（例如 336x336）相匹配。
然后，视觉编码器会独立地 (independently) 对这些高清图块进行 编码 (encode) 。由于每个图块都保持了足够的分辨率，图像中的微小文字、物体细节等关键信息得以被完整地保留下来。

“全局上下文”处理路径 (下路):

与此同时，模型会将原始的高清大图进行一次 降采样 (resize / downsample) ，将其缩放到一个标准尺寸，形成一张低分辨率的全局概览图。
这张全局图随后也被送入视觉编码器进行 编码 (encode) 。虽然这个过程会损失大量细节，但它为模型提供了关于整张图片“讲的是什么”的宝贵 全局上下文 (global context) 。

最终融合：

最后，来自“局部细节”路径的所有高清图块特征，与来自“全局上下文”路径的单一全局特征，会被拼接 (concatenate) 在一起，形成一个更长的视觉序列，共同送入 LLM。

通过这种巧妙的协同，LLM 最终得到的输入，既包含了来自各个局部的高保真细节，又具备了对整张图片布局和主题的宏观理解，从而实现了对高分辨率图像的精准解析。

LLaVA-OneVision 的进阶：为文档而生的高级 AnyRes

随着任务的复杂化，尤其是在处理 PDF 文档、学术论文这类信息密度极高的场景时，简单的特征拼接已经不足以完美地保留图块之间的空间关系。为此，LLaVA-OneVision 提出了更先进的 Higher AnyRes 策略。

对比上图中的 (a) 和 (b) 两种方案，我们可以清晰地看到其核心区别：

原始 AnyRes (The original AnyRes): 如图 (b) 所示，它在编码各个图块后，直接将得到的特征向量展平 (flatten) 并拼接。这种方式虽然简单，但可能会丢失图块之间精细的二维布局信息。
高级 AnyRes (Higher AnyRes with Bilinear Interpolation): 如图 (a) 所示，它在编码完各个高清图块后，增加了一个关键步骤—— 双线性插值 (Bilinear Interpolation) 。它不再是将特征向量粗暴地拼接，而是尝试在特征空间中，通过插值的方式将这些离散的特征图块“缝合”起来，重新构建一个更高分辨率的特征图 (Feature Map) 。然后再将这个融合了空间信息的完整特征图展平送入 LLM。这种方式能更好地保留文档的布局、表格的结构等至关重要的空间关系，极大地提升了模型在文档视觉问答 (DocVQA) 等任务上的表现。

小结一下，LLaVA 系列的演进之路，充分展现了其“扩展输入边界”的设计哲学。它通过不断迭代 AnyRes 这一核心前端技术，在不改动模型核心架构的前提下，聪明地解决了高分辨率视觉信息的处理难题，证明了优秀的工程设计与数据处理策略，同样是推动模型能力飞跃的关键力量。

2.2 路线二：Qwen3-VL 的 DeepStack

与 LLaVA 系列在“输入边界”上做文章的哲学不同，另一条演进路线则将目光投向了模型内部，提出了一种更为激进和深刻的解决方案。这条路线的集大成者，便是以 Qwen3-VL 为代表的、采用 DeepStack 技术的模型。

其核心哲学可以概括为：“与其在入口处一次性‘喂’给模型所有信息，不如对模型的核心架构进行改造，构建一条多层次的‘视觉-语言信息高速公路’，在模型思考的不同阶段，动态地、深度地注入视觉信息。”

2.2.1 DeepStack 技术：一种全新的融合范式

DeepStack 技术的提出，旨在解决传统方法为了提供细粒度视觉信息而不得不牺牲计算和显存开销的根本性难题。它另辟蹊径，不再纠结于输入序列的长度，而是通过将视觉词元深度堆叠 (deeply stacking) 或注入 (infusing) 到模型内部的不同层级，实现了一种高效的深度融合。

如上图所示，DeepStack 的原始论文提出了两种核心实现模式：

DeepStack-L (for LLMs): 这是将视觉信息注入到语言模型中的版本。它的工作流程是：首先，低分辨率图像的特征作为初始视觉输入，与文本词元一起送入 LLM 的第一层。随后，从高分辨率图像中提取的、更精细的视觉特征，被逐层添加到 LLM 的后续层（如图中的 LLM Block 2, 3, 5）的隐藏状态中。
DeepStack-V (for ViTs): 这是将视觉信息注入到视觉编码器（ViT）自身的版本。整个注入过程都发生在 ViT 内部，旨在视觉编码阶段就构建一个多尺度的层次化视觉表征。

Qwen3-VL 采用的正是 DeepStack-L 的核心思想，即将视觉信息深度注入到 LLM 的处理流程中。

2.2.2 设计背后的科学依据：为何是 LLM 的“浅层”？

DeepStack 的设计并非空穴来风，其背后有坚实的实验数据作为支撑。

上图中的消融实验结果，清晰地回答了关于注入策略的三个关键问题：

(a) 应该从哪一层开始注入？ 实验表明，注入视觉词元的起始层越靠前（越浅），模型得分越高。当从第 0~4 层开始注入时性能最佳，而当起始层推迟到 16 层以后，性能会急剧下降。这有力地证明了，LLM 的浅层更适合处理和融合相对原始的视觉特征，而深层则更专注于基于已融合信息的抽象推理。
(b) 注入的间隔应该是多少？ 性能在注入间隔为 2 或 3 层时达到峰值。这说明并非注入得越密集越好，需要给模型留出一定的层数来消化和处理上一轮融合后的信息。
(c) 总共注入多少层比较好？ 实验显示，注入约 4 个层时效果最优。注入层数过少或过多都会损害性能。

这些结论为 DeepStack 的高效实现提供了清晰的“配方”，也解释了为什么 Qwen3-VL 会选择将视觉特征注入到 LLM 的前几个层中。

2.2.3 实现的优雅：一次简单的“原地相加”

尽管 DeepStack 的思想听起来很复杂，但其实现却异常简洁和高效。

其伪代码显示，核心逻辑仅仅是在 Transformer 层的循环中，增加一个简单的条件判断和一次原地加法 (in-place addition) 。具体来说，就是找到当前层隐藏状态中属于视觉词元的部分，然后直接将待注入的额外视觉特征加到它们上面。这与 Qwen3-VL 源码中 _deepstack_process 函数的实现逻辑完全一致，计算开销极小。

2.2.4 Qwen3-VL 的独特适配与优化

值得注意的是，Qwen3-VL 并没有完全照搬原始论文的设计，而是进行了一次聪明的“本地化”适配。

原始 DeepStack-L 需要额外处理一张高分辨率图像来获取用于注入的精细特征。而 Qwen3-VL 则更为高效，它直接从处理标准输入图像的同一个 Vision Tower 的指定中间层（例如第 8, 16, 24 层）提取特征，作为注入到 LLM 浅层的“额外视觉信息”。这样做的好处是，无需增加一次额外的高分辨率图像编码过程，显著减少了计算量，同时依然能为 LLM 提供来自不同抽象层级的视觉信息。

为了更好地理解 DeepStack 的独特性，我们可以将其与 MouSi 模型所代表的“多专家广度融合”路线进行对比。MouSi 采用多个并行的、专门的视觉编码器（如 CLIP, SAM）作为“专家”，分别提取不同维度的信息，然后通过一个复杂的“多专家融合网络”进行整合。如果说 MouSi 是在“广度”上做文章，那么 DeepStack 就是在“深度”上求突破，两条路线各有千秋。

小结一下，以 Qwen3-VL 的 DeepStack 为代表的第二条演进路线，通过对模型内部架构进行精巧的、有理论依据的改造，实现了一种高效、深度的多层次融合范式。它代表了 MLLM 从简单的“输入端拼接”向复杂的“处理中融合”演进的重要一步，是架构设计驱动模型能力跃迁的典范。

第三部分：两大系列模型架构全景剖析

在清晰地理解了 MLLM 的基础蓝图，并深入探讨了“如何看得更清晰”这一核心矛盾的两条主要解决路线之后，我们现在已经拥有了所有必要的工具，可以开始对这两条路线的杰出代表——LLaVA 与 Qwen3-VL进行一次全景式的架构剖析。

这将是一场精彩的“巅峰对决”。通过深入它们的内部，我们将看到两种截然不同的设计哲学是如何在实践中被贯彻、演进，并最终都取得了巨大的成功。首先，让我们从那位“大道至简”的忠实践行者——LLaVA 系列开始。

3.1 LLaVA 系列：大道至简的忠实践行者

LLaVA (Large Language and Vision Assistant) 系列的整个发展史，都是对其核心哲学——“ 简洁即正确 (Simplicity is Correct) ”的一次完美诠释。它的出现，开创性地证明了我们并不总是需要极其复杂的融合模块来实现强大的多模态能力；相反，一个极简的架构，在海量数据和聪明工程的驱动下，同样可以迸发出惊人的力量。

3.3.1 奠定基调的开创性架构 (LLaVA 1.0)

LLaVA 的第一个版本，就以其惊人的简洁性为整个系列奠定了基调。

如上图所示，其初代架构可以用一个非常清晰的公式来概括：

眼睛 (Vision Encoder): 采用当时业界领先的、预训练好的 CLIP ViT-L 模型来提取图像特征。
大脑 (Language Model): 基于强大的开源语言模型 LLaMA/Vicuna 。
灵魂之桥 (Connector): 这是一个极致简洁的单层线性投影层 (Projection W) 。

它的核心创新就在于这个连接器：LLaVA 勇敢地抛弃了所有复杂的融合设计，仅仅使用一个线性层来完成从视觉空间到语言空间的映射。虽然受限于当时的训练数据量，其初代版本的通用能力并不惊艳，但这个“极简连接器”的范式，如同一颗投入平静湖面的石子，为后续 MLLM 的发展激起了巨大的涟漪。

3.1.2 务实的迭代：从 1.0 到 1.5

LLaVA 的后续发展并未选择推倒重来，而是在其简洁的基座上进行了一系列务实而高效的迭代升级，这在 LLaVA-1.5 版本中体现得淋漓尽致：

连接器升级: 将原本的单层线性层，升级为了一个表达能力更强的两层 MLP。
分辨率提升: 将视觉编码器的输入分辨率从 224x224 提升至 336x336，使其能从源头捕捉更多细节。
数据驱动: 引入了规模更大、质量更高的视觉指令微调数据集，进一步释放了模型的潜力。

这些看似微小的改动，却带来了显著的性能提升，充分证明了 LLaVA 路线的有效性：一个好的基础架构，可以通过持续的数据和参数优化不断成长 。

3.1.3 核心突破：AnyRes 技术——在“边界”上解决问题

面对“如何看得更清晰”的核心矛盾，LLaVA 给出了一个充满工程智慧的答案——AnyRes 技术，这正是其“扩展输入边界”哲学的完美体现。

如 LLaVA-1.5-HD 的架构所示，它没有改动模型内部，而是在数据预处理阶段进行了一次巧妙的“分兵”：一路将高清图像切块 (split) ，以保留局部细节 ；另一路将高清图像降采样 (resize) ，以提供全局上下文 。最终，这两路信息被拼接在一起送入 LLM，使其既能“明察秋毫”，又能“高瞻远瞩”。

这一思想在后续的 LLaVA-OneVision 中进一步演进为 Higher AnyRes，通过引入双线性插值来更好地融合图块特征，以应对文档理解等对空间布局要求极高的任务。

最终的升华：走向多模态统一 (LLaVA-OneVision)

LLaVA 的演进最终在 LLaVA-OneVision 上达到了一个高峰。它依然坚守着简洁的核心架构，但通过引入海量的、多样化的数据（包括单图、多图和视频），并结合优化的 Higher AnyRes 技术，成功地将这一简洁的理念从静态图像无缝扩展到了动态视频领域，成为了首批实现图像与视频统一处理的开源模型之一。

综上所述，LLaVA 系列的整个发展历程，是一部关于“简洁”与“迭代”的成功史。它向我们展示了，一个清晰、简洁的初始设计，通过持续的数据优化和聪明的输入端工程创新（如 AnyRes），完全有能力攀登到多模态性能的顶峰。

3.2 Qwen3-VL：深度融合的集大成者

如果说 LLaVA 系列的演进史是一部关于“大道至简”的优雅叙事，那么 Qwen3-VL 的崛起则是一篇关于“精巧设计，架构致胜”的宏伟史诗。它所代表的路线，不满足于仅仅在模型的入口处进行一次性的“翻译”和拼接，而是对模型的核心架构进行了深度改造，旨在构建一个视觉与语言在处理过程中就能持续、深度交互的协同系统。

3.2.1 全新范式：从“入口拼接”到“多层注入”

Qwen3-VL 的架构图本身就展示了其与 LLaVA 的根本不同。

如上图所示，Qwen3-VL 的设计显然更为复杂和精巧。它不仅能原生处理包括超高分辨率长图和视频在内的混合输入，其核心创新更在于视觉信息的处理和融合方式上。在 LLaVA 中，视觉信息在进入 LLM 之后就不再有新的补充；而在 Qwen3-VL 中，这仅仅是个开始。

3.2.2 核心技术：DeepStack 的革命性实现

在 Qwen3-VL 架构的心脏地带，跳动着其最具革命性的创新——DeepStack 技术。这是一种全新的融合范式，我们可以将其理解为：从视觉编码器到语言模型的一次“单向握手”，升级为了一场贯穿始终的“多层次深度对话”。

上图右侧清晰地展示了 DeepStack 的工作原理。传统的 MLLM 仅将 Vision Encoder 最后一层的输出特征送入 LLM 的输入层。而 Qwen3-VL 则不同，它的 Vision Encoder 会像一个“信息分发站”，从其多个不同深度的中间层（例如第 8、16、24 层）提取出不同抽象层次的视觉特征。然后，这些特征会被精准地注入 (inject) 到 LLM 解码器相对应的前几个层（如 LLM Block 1, Block 3, ...）中。

这种设计的精妙之处在于：

信息层次匹配：它让 LLM 的浅层（更侧重于处理局部和基础特征）接收来自 ViT 中间层的、相对不那么抽象的视觉特征；而 LLM 的深层则可以专注于基于更高阶的、已融合的信息进行推理。这背后有坚实的实验数据支撑，证明了 LLM 的浅层更适合处理视觉信息。
计算效率优化：值得注意的是，Qwen3-VL 的实现比原始 DeepStack 论文中的方案更为高效。它无需为获取精细特征而额外处理一张高分辨率图像，而是直接从处理标准输入的同一个 Vision Tower 中提取中间层特征，这在保证了多层次信息供给的同时，显著节约了计算资源。

3.2.3 架构演进的“石锤”：从代码看 Qwen 的进化

这种从“简单拼接”到“深度融合”的哲学转变，不仅仅停留在概念层面，更是在模型的代码实现中留下了清晰的印记。

通过对比 Qwen2.5-VL 和 Qwen3-VL 的模型定义代码，我们可以直观地看到这场深刻的进化：

DeepStack 模块的引入： 在 Qwen3-VL 的代码中，明确出现了 deepstack_merger_list 这一新模块。这正是负责收集并处理 ViT 中间层输出，为后续注入 LLM 做准备的核心组件，是 DeepStack 实现的直接证据。
语言模块 (Language Model) 的革新： Qwen3-VL 的语言模型部分升级为了 Qwen3VLMoeTextModel，其内部包含了 Qwen3VLMoeTextSparseMoeBlock 结构，表明其“大脑”已经进化为更先进、更高效的混合专家 (MoE) 架构。

3.2.4 其他前沿技术的集大成

除了革命性的 DeepStack 技术，Qwen3-VL 还集成了其他多项前沿架构创新，共同构成了其强大的技术护城河：

MRoPE-Interleave: 一种更先进的多维旋转位置编码，通过交错 t, h, w 三个维度的频率，让模型对视频的时空信息有更鲁棒的感知。
文本时间戳对齐机制: 在输入端就将视频帧与精确的时间戳文本（如 <0.8 seconds>）进行绑定，让 LLM 具备了前所未有的、对视频事件进行精准时间定位的能力。

综上所述，Qwen3-VL 代表了 MLLM 演进的另一条巅峰之路。它不再满足于模态间的浅层连接，而是通过 DeepStack、MoE、MRoPE 等一系列精巧而深刻的架构创新，构建了一个真正意义上的“深度协同”系统。它雄辩地证明了，通过对模型内部信息流进行极致的、有理论依据的优化设计，同样可以，甚至更能推动多模态能力的边界，达到新的高峰。

第四部分：总结与展望：殊途同归，迈向统一的“世界模型”

我们的解构之旅至此已近尾声。从 MLLM 的“三位一体”黄金架构，到“如何看得更清晰”这一核心矛盾所引出的两条截然不同的演进之路，我们见证了 LLaVA 和 Qwen3-VL 如何用各自的智慧给出了精彩的答案。

LLaVA 和 Qwen3-VL 的发展历程，是多模态大模型领域两条并行且同样成功的探索路径的缩影：

LLaVA 系列，向我们证明，一个极简的核心设计，通过持续的数据优化和以 AnyRes 为代表的输入端技术创新，完全有能力攀登到性能的顶峰。
Qwen3-VL，不再满足于模态间的浅层连接，而是通过 DeepStack、MoE、MRoPE 等一系列深刻的内部架构创新，构建了一个真正意义上的“深度协同”系统。

尽管它们的设计路径不同，但最终殊途同归。两条路线都极大地推动了 MLLM 的性能边界，并共同指向了一个清晰的方向：实现视觉与文本更深层次、更无缝的统一。站在当前的时间点，展望多模态大模型的未来，我们看到的不再是科幻，而是正在发生的现实。结合 Qwen3-VL 等前沿模型的最新进展，我们可以预见以下几个清晰的发展趋势：

从“感知”到“推理与执行” (From Perception to Execution): MLLM 的能力正在超越“看图说话”的范畴。新一代模型正发展出强大的视觉智能体 (Visual Agent) 能力，能够理解 GUI 元素、操作电脑手机界面、调用工具来完成复杂任务。AI 不再仅仅是世界的观察者，更将成为参与者。
拥抱动态与三维世界 (Embracing Dynamic & 3D Worlds): 静态图像的理解已趋于成熟，下一个战场是长视频和三维空间。原生支持数小时视频的完整理解、精准到秒级的时间定位，以及从 2D 图像中还原物体在真实世界中位置和大小的 3D grounding 能力，将成为未来模型的标配。
真正的多模态统一 (True Multimodal Unification): 当前的“拼接”和“注入”可能只是过渡阶段。未来的终极形态，或许是在预训练的最早期阶段，就将视觉、语言、音频等多种模态的数据混合在一起进行协同训练，让模型从诞生之初就在一个统一的、多模态的世界观下学习成长。GPT-5 等模型不再区分视觉和文本旗舰，也印证了这一趋势。

多模态大模型的发展，不仅是为 AI 装上了一双越来越清晰的“眼睛”，更重要的是，它正在为 AI 构建一座通往我们物理世界的、坚实而宽广的桥梁。通过这座桥梁，AI 将能够真正地“理解”我们所处的环境，并最终与我们“共存”于同一个现实之中。一个更强大、更通用、更能与我们协作的 AGI (通用人工智能) 时代，正以前所未有的速度加速到来。

参考文献

LLaVA 系列模型结构详解
多模态大模型的主流架构vit+connector+llm介绍
Qwen3-VL的DeepStack技术是什么？ - SayHelloCode的回答 - 知乎
【多模态大模型】Qwen3-VL解剖

....

#Architecture Decoupling Is Not All You Need For Unified Multimodal Model

架构解耦为什么对统一多模态模型有效？港中文联合美团提出AIA，揭示其真正的奥秘！

最近来自港中文MMLab、美团等机构，对当前火热的统一多模态模型（Unified Multimodal Models, UMMs）提出了一个“反潮流”的观点。

当我们希望一个AI模型既能“看懂图说话”（理解），又能“听指令画图”（生成）时，一个核心的矛盾就出现了。这两个任务对模型内部特征的需求截然不同，强行“统一”往往导致性能两边都不讨好。

为了解决这个问题，社区目前的主流趋势是“架构解耦”（Architecture Decoupling），即将部分组件拆解为各自单任务模型中的组件，这确实有效，但作者们认为，过度解耦违背了统一模型的初衷——即高效，精确的图文交错推理。

这篇论文的核心发现是：架构解耦并不能解决任务冲突，只是让模型更容易辨别任务类型，从而更合理地分配对应的网络层权重。

论文标题: Architecture Decoupling Is Not All You Need For Unified Multimodal Model
作者: Dian Zheng, Manyuan Zhang, Hongyu Li, Kai Zou, Hongbo Liu, Ziyu Guo, Kaituo Feng, Yexin Liu, Ying Luo, Yan Feng, Peng Pei, Xunliang Cai, Hongsheng Li
机构: 香港中文大学 (CUHK MMLab); 美团; 中国科学技术大学; 同济大学
论文地址: https://arxiv.org/abs/2511.22663
项目主页: https://zhengdian1.github.io/AIA-project/
代码仓库: https://github.com/zhengdian1/AIA

解耦有效，但为什么有效？

作者们首先深入探究了“解耦”为何能提升性能。他们通过一个名为“跨模态交互强度”（cross-modal interaction intensity）的指标来分析模型在处理不同任务时，图像和文本信息是如何在内部“交流”的。

如上图所示，他们发现：

对于一个统一模型，生成任务（蓝色）和理解任务（红色）的注意力模式呈现出明显的“负相关”。也就是说，在模型的某些层，一个任务需要强交互，另一个任务则需要弱交互，这种冲突是天然存在的。
随着模型解耦程度的增加（从左到右），这种负相关性依然存在，但两种任务的注意力模式分别向“专家模型”（即生成或理解的SOTA模型，如右侧的Qwen-VL和HunyuanImage）的行为靠拢。

这个发现非常关键：解耦的本质作用是，更容易引导模型的注意力行为模式向“任务专家”看齐，而不是真正“消除”了冲突。

提出AIA：用“软约束”代替“硬解耦”

既然解耦的秘诀是“模仿专家行为”，那我们何不直接在训练中引导模型去学习这种行为，而不是大动干戈地修改模型架构呢？

基于这个想法，作者们提出了一个简单而有效的注意力交互对齐损失（Attention Interaction Alignment, AIA）。

AIA损失的原理很直观：

定义目标：首先，作者们从顶级的“专家模型”（如用于理解的Qwen3-VL-8B和用于生成的HunyuanImage-3.0）中，为不同任务在模型的每一层提取出一个“理想的”跨模态交互强度目标。
计算损失：在训练统一模型时，计算模型在当前层的实际交互强度。然后，通过一个损失函数来“拉近”和的距离。

这个损失函数的设计也很巧妙，作者使用了Huber Loss：

这种损失函数的好处是，当实际值和目标值差距较小时，它像L2损失一样平滑；当差距较大时，它像L1损失一样，惩罚力度不会过大。这给了模型一定的“自由度”，避免了过于严格的约束反而破坏了模型的学习。

最终，总的训练目标就是原始的下一词元预测损失（Next-Token-Prediction Loss）加上这个AIA损失：

通过这个简单的“软约束”，模型被引导着在处理不同任务时，自发地调整其内部的注意力模式，从而在不改变架构的前提下，缓解了任务冲突。

实验结果：简单有效，双向提升

作者们在Emu3和Janus-Pro这两个架构不同的统一模型上验证了AIA的有效性。结果非常亮眼：

从上表的主实验结果可以看出，无论是在完全统一的Emu3上，还是在部分解耦的Janus-Pro上，加入了AIA损失后，模型在图像理解（MMMU, MMBench等）和图像生成（GenEval, DPG等）两大类任务上都取得了显著的性能提升。

这张可视化图更直观地展示了AIA的作用。可以看到，经过AIA训练后，原始模型的注意力模式明显向专家模型的模式靠拢了。这证实了AIA确实在按照预期的方式重塑模型的内部行为。

总结

总的来说，这篇论文为统一多模态模型的发展提供了一个非常新颖且实用的视角。它告诉我们，在追求更高性能的路上，不一定非要走“架构解耦”这条越来越复杂的路。通过深入分析问题本质，一个简单的、即插即用的AIA损失，就能在不牺牲模型优雅性的前提下，有效缓解任务冲突，实现理解和生成能力的双赢。

这项工作不仅效果显著，而且具有很好的通用性，可以轻松应用到各种现有的统一模型中。作者已经开源了代码，感兴趣的朋友可以去项目主页一探究竟。

....

#斯坦福CS224R深度强化学习全套课程开放！

最前沿的强化学习课程来了！

最近AI圈风起云涌，大模型技术日新月异。但不知道你有没有想过，让ChatGPT这类大模型能够如此“善解人意”的背后，除了海量数据的预训练，一项关键技术功不可没——那就是强化学习，特别是基于人类反馈的强化学习（RLHF）。

想要系统地深入这个前沿领域吗？机会来了！

今天给大家带来一个重磅好消息：斯坦福大学开设的《CS224R：深度强化学习》课程，几个小时前已经全套上线！

课程主讲人：Chelsea Finn 教授

这不仅仅是一门普通的公开课，它是一扇通往现代AI核心决策能力的大门。

大牛导师：连接学术前沿与产业实践的Chelsea Finn

首先，让我们看看这门课的“掌舵人”——Chelsea Finn教授。

熟悉机器人学和Meta-Learning的朋友对她一定不陌生。Finn教授是斯坦福大学计算机科学与电子工程系的助理教授，也是斯坦福人工智能实验室（SAIL）和机器学习小组的核心成员。她创立的IRIS实验室，致力于通过大规模的机器人交互来研究智能。

更值得我们关注的是，Finn教授并非只在学术象牙塔中。她的履历中有着在 Google Brain 团队Pi的核心创始人。这种横跨学界和业界顶尖机构的背景，让她对技术的理论深度和产业落地价值，都有着极为深刻的理解。

由她主讲，这门课的含金量，不言而喻。

课程亮点：我们能从CS224R学到什么？

相较于偏重理论的CS234，CS224R更侧重于应用和深度学习实践，尤其关注在机器人和语言模型等高维、复杂领域的应用。

这门课将带你从强化学习的基础，一路走到该领域的最前沿：

模仿学习 (Imitation Learning): 如何让智能体像“学徒”一样，通过观察专家演示来学习技能。
策略梯度与Actor-Critic方法: 深入经典，理解模型如何自我优化和迭代。
离线强化学习 (Offline RL): 这是当下的一大热点！如何利用固定的、已有的数据集进行学习，而无需与环境进行昂贵的实时交互。
奖励学习与人类反馈强化学习 (RLHF): 揭秘ChatGPT等大模型“调教”的秘诀，让AI的行为更符合人类预期。
多任务与目标导向RL / 元强化学习 (Meta-RL): 如何让AI“学会学习”，在面对新任务时能够快速适应。
前沿课题: 课程还包含了分层强化学习、机器人自主学习、Sim-to-Real迁移等激动人心的前沿方向。

可以说，CS224R为你构建了一个从理论基础到SOTA（State-of-the-Art）应用的完整知识图谱。无论你是希望在学术上深造，还是想在工业界大展拳脚，这套课程都将为你提供坚实的基础和前瞻的视野。

课程资源，都给你准备好了！

1. B站视频

课程的全套视频已经搬运到B站：

https://www.bilibili.com/video/BV18x2SBrEoa/

2. 外网链接

有条件的同学可直接访问：

https://www.youtube.com/playlist?list=PLoROMvodv4rPwxE0ONYRa_itZFdaKCylL

....

#RoboBrain 2.0+RoboOS 2.0双发

智源RoboBrain 2.0+RoboOS 2.0双发：问鼎评测基准最强xx大脑，刷新跨本体多机协作技术范式

近日，智源研究院发布xx大脑 RoboBrain 2.0 32B 版本以及跨本体大小脑协同框架 RoboOS 2.0 单机版。

RoboBrain 2.0，作为集感知、推理与规划于一体面向真实物理环境的 “通用xx大脑”，32B 版本凭借时空认知能力的突破，在多项权威xx智能基准上全面刷新纪录，此前发布的 7B 版本，具备紧凑高效的模型结构，其轻量化设计完美适配边缘设备部署需求，能在低资源环境下稳定运行，同时相比主流的开闭源模型性能依旧强劲。

RoboOS 2.0 作为全球首个xx智能 SaaS 开源框架，创新性集成 MCP 协议与无服务器架构，实现轻量化部署，打通智能大脑与异构本体协同通路。同步推出单机版产品线及 RoboSkill 技能商店，通过深度集成实现机器人技能模块智能匹配与一键适配功能，标准化接口有效消除厂商与硬件适配流程差异。同步推出开箱即用镜像，支持 "三行指令" 极速部署，全面赋能开发者高效构建智能机器人系统。

xx大脑与跨本体大小脑协同框架双擎联动，将有效推动机器人从 “单机智能” 迈向 “群体智能”，加速xx智能技术从实验室走向真实场景，形成开放、高效、智能协同的xx智能生态体系。

1.RoboBrain 2.0突破三大能力瓶颈

模块化架构提升xx复杂推理

当前主流 AI 模型在应对真实物理环境时，普遍存在三大核心瓶颈：空间理解精度不足、时间依赖建模薄弱、长链推理能力欠缺。RoboBrain 2.0 则在这三大关键能力上实现全面突破，显著提升了对复杂xx任务的理解与执行能力。

空间理解：

精确点定位和边界框预测：能够根据复杂指令在图像中定位物体或区域。

空间关系理解：理解物体之间的相对位置和方向。

空间推理：支持基于场景图的实时构建和更新，进行复杂的三维空间推理。

时间建模：

长期规划：能够进行多步任务规划，支持长期目标的实现。
闭环交互：支持基于反馈的动态调整，适应动态环境。
多智能体协作：能够协调多个智能体的行为，完成复杂任务。

长链推理：

链式推理：能够进行多步推理，支持复杂任务的逐步解决。
因果逻辑：能够从复杂指令中提取因果逻辑，并与环境状态对齐。
决策透明性：能够生成推理过程的详细解释，支持决策的透明性和可解释性。

RoboBrain能力概览图

RoboBrain 2.0 采用模块化的编码器 - 解码器架构，为复杂的xx任务实现了感知、推理和规划的统一。与专注于通用静态视觉问答（VQA）的传统视觉 - 语言模型（VLMs）不同，RoboBrain 2.0 在保持强大通用 VQA 能力的同时，专门针对xx推理任务，如空间感知、时间建模和长链因果推理。该架构将高分辨率图像、多视图输入、视频帧、语言指令和场景图编码为统一的多模态标记序列，以进行全面处理。

RoboBrain2.0 模型架构图

2.依托多模态数据集与分阶段训练策略

RoboBrain 2.0刷新性能基准

RoboBrain 2.0 依托全面且多样化的多模态数据集，融合高分辨率图像、多视角视频序列、场景图、3D 场景数据及复杂自然语言指令，全面赋能机器人在xx环境中的感知、推理与行动能力。该多模态数据集聚焦三大核心领域，为复杂物理场景提供有力支持。

通用多模态理解：整合标准视觉问答、区域级查询、OCR 视觉问答及多轮视觉对话，优化语言表达的多样性与语义一致性，通过丰富的视觉 - 语言交互数据，提升模型对复杂任务的理解与响应能力，适应从简单问答到多轮对话的多样场景。
空间感知：支持高精度物体定位、边界框预测及对象功能性识别，覆盖室内外复杂视觉场景与 3D 空间推理，助力机器人精准解析物体关系、空间属性及场景上下文，应对遮挡、多视角变化等挑战，满足高精度定位与交互需求。
时间建模：通过多模态数据支持长程任务规划、闭环反馈机制及多智能体协作，强化模型在动态环境中的任务分解、动作序列预测及实时交互能力，确保在复杂物理场景中实现连续决策、灵活协作与高效任务执行。RoboBrain 2.0 以卓越的多模态感知、精细的空间推理及强大的长时规划能力，赋能机器人在xx环境中进行交互推理、多智能体协作及高效任务规划，助力复杂物理场景的智能感知与决策。

RoboBrain 2.0 训练数据集

RoboBrain 2.0 使用智源自研的大模型训推一体框架 FlagScale 进行大规模分布式训练，采用三阶段递进式训练流程。

第一阶段：基础时空学习（Foundational Spatiotemporal Learning）

在第一阶段，RoboBrain 2.0 专注于构建其在空间感知和时间理解方面的基础能力。模型通过大规模多模态数据集进行训练，这些数据集涵盖了密集标注的图文数据、视频问答以及指代表达理解任务。通过这一阶段的训练，模型能够处理静态图像和视频流，掌握物体的基本空间关系和运动事件，为后续更复杂的任务奠定了坚实的基础。

第二阶段：xx时空增强（Embodied Spatiotemporal Enhancement）

在第二阶段，RoboBrain 2.0 通过引入高分辨率多视图图像、第一人称视频数据以及导航和交互任务，进一步增强其在xx任务中的时空建模能力。模型学习处理长序列的时空信息，支持多智能体协调、长期规划和动态环境中的适应性决策。这一阶段的训练使模型能够更好地将历史视觉信息与当前指令相结合，从而在动态交互环境中实现更连贯的长期规划和稳健的场景理解。

第三阶段：xx情境中的推理链训练（Chain-of-Thought Reasoning in Embodied Contexts）

在第三阶段，RoboBrain 2.0 通过监督微调和强化微调，进一步提升其在复杂xx任务中的推理能力。模型使用多轮推理示例进行训练，这些示例涵盖了长期任务规划、操作预测、闭环交互、时空理解以及多机器人协作等任务。通过这一阶段的训练，模型能够生成推理链，支持复杂任务的逐步推理和决策，从而在xx情境中实现更高效、更准确的推理和规划能力。

RoboBrain 2.0 采用 FlagEvalMM 框架，全面验证空间与时间推理能力。

空间推理：在 BLINK（83.95）、CV-Bench（85.75）、Where2Place（73.59）等 9 项基准测试中，RoboBrain-32B/7B-2.0 屡获 SOTA，精准实现物体定位、边界框预测及空间参照，超越 Gemini、GPT-4o 等基线。
时间推理：在多机器人规划（80.33）、Ego-Plan2（57.23）、RoboBench（72.16）中，展现卓越长程规划、闭环反馈及多智能体协作能力，领跑 Qwen2.5-VL、Claude 等模型。

RoboBrain 2.0-32B 在 BLINK-Spatial、RoboSpatial、RefSpatial-Bench、Where2Place、EgoPlan2 和 Multi-Robot-Plan 等空间与时间推理基准上均取得最佳表现

RoboBrain 2.0 7B 模型分别以 83.95 分和 85.75 分登顶 BLINK 和 CV-Bench 基准测试。RoboBrain 2.0 32B 模型在 RoboSpatial、RefSpatial-Bench 以及 SAT、Where2Place 和 ShareRobot-Bench 上实现 SOTA 突破

RoboBrain 2.0 7B 模型在 Multi-Robot Planning 以 81.50 分拔得头筹，RoboBrain 2.0 32B 以 80.33 分紧随其后；RoboBrain 2.0 32B 在 Ego-Plan2（57.23 分）登顶，大幅领先 GPT-4o 等基线；RoboBrain 2.0 7B 模型则在 RoboBench 以 72.16 分夺魁，双模型凭借优异表现刷新性能上限

3.RoboBrain2.0与RoboOS 2.0双引擎

实现xx群体智能

依托跨本体大小脑协作框架 RoboOS 2.0 的多本体规划能力，RoboBrain 2.0 已实现多智能体间协作执行任务，支持商超厨房居家等多场景部署。

，时长02:19

跨本体xx大小脑协作框架 RoboOS 2.0 是全球首个基于xx智能 SaaS 平台、支持无服务器一站式轻量化机器人本体部署的开源框架。同时，RoboOS 2.0 也是全球首个支持 MCP 的跨本体xx大小脑协作框架，旨在构建xx智能领域的 “应用商店” 生态。

RoboOS 2.0 实现了大脑云端优化推理部署与小脑技能的免适配注册机制，显著降低开发门槛，典型场景下，相关代码量仅为传统手动注册方式的 1/10。

RoboOS 2.0 框架（SaaS + MCP 模式）。RoboOS 是面向多机器人协作的 "大脑 - 小脑" 分层系统，包含三大核心组件：(a) 基于云计算的xx大脑模型，负责高级认知与多智能体协同；(b) 分布式小脑模块群，专司机器人专项技能执行；(c) 实时共享内存机制，强化环境态势感知能力。

相较于 1.0，RoboOS 2.0 对端到端推理链路进行了系统级优化，整体性能提升达 30%，基于 FlagScale 端云协同模块，全链路平均响应时延低至 3ms 以下，端云通信效率提升 27 倍。在功能层面，新增了多本体时空记忆场景图（Scene Graph）共享机制，支持动态环境下的实时感知与建模；同时引入多粒度任务监控模块，实现任务闭环反馈，有效提升机器人任务执行的稳定性与成功率。

RoboOS 多机协作实现流程包含四个关键阶段：首先通过分层任务分解将复杂任务逐级拆解，随后基于网络拓扑结构进行子任务动态分配，再由分布式智能体集群并行执行各子任务，最后通过实时共享内存机制动态更新环境状态与任务进度。

基于 RoboOS 2.0 协作框架，可充分发挥 RoboBrain 2.0 强大的空间理解、时序规划与闭环推理能力的同时，一键下载并部署来自全球开发者创建的相同型号机器人本体的小脑技能，完成大小脑的全链路无缝整合。

RoboBrain 2.0 可通过像素级空间理解，支持下游小脑模型高精度抓取、搬运、放置等操作，同时，根据实时感知任务执行状态调整执行计划，适应动态环境变化，实现闭环反馈机制。

4.RoboBrain 2.0与RoboOS 2.0全面开源

携手共建xx智能生态圈

目前，RoboBrain 2.0 及 RoboOS 2.0 已全面开源，模型权重、训练代码与评测基准全部可用。

RoboBrain 2.0:

Page：https://superrobobrain.github.io
GitHub：https://github.com/FlagOpen/RoboBrain2.0
ArXiv：https://arxiv.org/abs/2507.02029
Checkpoint-7B：https://huggingface.co/BAAI/RoboBrain2.0-7B
Checkpoint-32B：https://huggingface.co/BAAI/RoboBrain2.0-32B
RoboBrain2.0 的 FlagRelease 多芯片镜像：
https://huggingface.co/FlagRelease/RoboBrain2.0-7B-FlagOS
https://huggingface.co/FlagRelease/RoboBrain2.0-32B-FlagOS
https://huggingface.co/FlagRelease/RoboBrain2.0-7B-FlagOS-Ascend

RoboOS 2.0:

Page：https://flagopen.github.io/RoboOS
GitHub：https://github.com/FlagOpen/RoboOS
GitHub 单机轻量版：https://github.com/FlagOpen/RoboOS/tree/stand-alone
GitHub 技能商店：https://github.com/FlagOpen/RoboSkill
ArXiv：https://arxiv.org/abs/2505.03673

RoboBrain 2.0 及 RoboOS 2.0 一经开源，便在全球社交媒体和技术社区引发广泛热议。

目前，智源研究院已与全球 20 余家机器人企业与顶尖实验室建立战略合作关系，诚邀全球开发者、研究者与产业伙伴加入 RoboBrain 2.0 和 RoboOS 2.0 的开源社区，共筑开放繁荣的xx智能生态。

....

#SparseMM

清华&腾讯混元X发现「视觉头」机制：仅5%注意力头负责多模态视觉理解

本文的主要作者来自清华大学智能视觉实验室（i-Vision Group）、腾讯混元 X 组。本文的共同第一作者为清华大学自动化系本科生王嘉辉和博士生刘祖炎，本文的通讯作者为清华大学自动化系鲁继文教授。

多模态大模型通常是在大型预训练语言模型（LLM）的基础上扩展而来。尽管原始的 LLM 并不具备视觉理解能力，但经过多模态训练后，这些模型却能在各类视觉相关任务中展现出强大的表现。

这引发了我们的思考：在多模态训练过程中，LLM 基座的哪些内部结构，尤其是哪些多头注意力单元，真正承担了对视觉内容的理解？这些注意力头是否存在可识别、可量化的视觉偏好或专业化功能？如果能够识别出这些「视觉头」，不仅有助于揭示多模态大模型内部的「黑箱」机制，也为模型结构优化和资源分配提供了理论依据。

在本文中，我们聚焦于注意力头的视觉偏好，提出了一种基于 OCR 任务、无需额外训练的方法，系统量化每个注意力头对视觉内容的关注程度。我们发现，只有不到 5% 的注意力头（我们称之为视觉头，Visual Head）在视觉理解任务中起到主导作用，这些头能够有效聚焦并提取图片中的关键信息，而绝大多数注意力头则主要关注文本信息或其他辅助特征。这一「视觉头稀疏性」现象表明，模型的视觉理解能力高度依赖于极少数专门化的注意力头。

论文标题：SparseMM: Head Sparsity Emerges from Visual Concept Responses in MLLMs

论文：https://arxiv.org/abs/2506.05344

代码：https://github.com/CR400AF-A/SparseMM

项目地址：https://cr400af-a.github.io/SparseMM/

基于这一发现，我们进一步提出了 SparseMM：一种利用视觉头稀疏性进行 KV-Cache 优化的策略。考虑到多模态大模型输入的视觉 token 远多于文本 token，带来了巨大的显存压力，我们对 KV-Cache 资源进行差异化分配。

具体地，SparseMM 将总缓存预算划分为三部分：一部分保障所有头的基本局部缓存，一部分按固定比例均匀分配，其余则根据视觉头得分优先分配给视觉头，从而在效率与性能之间取得更优平衡。

通过在 DocVQA、OCRBench、TextVQA、ChartQA、MMBench、GQA 等主流多模态基准上的广泛评测，SparseMM 相较于 SnapKV、AdaKV 等方法取得了更好的性能和效率的平衡。效率评估测试中实现了最高 1.87× 的解码阶段加速并降低了 52% 的峰值内存。此外，在极端缓存预算下，性能下降幅度更小，充分验证了基于视觉头的 KV-Cache 分配策略在效率-性能权衡上的优越性。

介绍

多模态大模型通过引入视觉编码器模块，使得原本不具备视觉能力的 LLM 能够在图文问答、文档理解等多种场景下表现出色。但是模型内部究竟是如何实现这一跨模态迁移的，仍然是一个「黑箱」问题。我们认为，在多模态大模型训练的过程中，部分注意力头逐渐特化为了「视觉头」，专门负责视觉信息的理解与交互。

在本文中，我们提出了一种基于 OCR 任务量化并识别视觉头（Visual Head）的方法，并基于此提出了 SparseMM——一种新颖的多模态模型推理加速方法。通过对视觉头的深入分析，我们发现视觉头在多模态大模型中占比很小。

也就是说，只有一小部分注意力头真正承担了对视觉内容进行深度理解并将其有效融入语言表征的核心任务，而大多数注意力头更多地关注语言信息，或仅局限于局部上下文建模，对图像内容的理解作用有限。

基于此，我们采用了一种注意力头级别的缓存分配机制，对更关注视觉内容的注意力头分配更多的缓存预算，以最大程度的保留视觉信息；对于不关注视觉内容的注意力头则分配较少的缓存预算，使它们关注最近邻的信息即可，从而实现了性能和速度的更优均衡。

图 1：SparseMM 整体概览

方法概览

我们的方法主要分为两部分：首先通过 OCR 任务定位视觉头，然后为不同的注意力头分配不同的缓存预算。

基于 OCR 的视觉头定位方法

图 2：SparseMM 基于 OCR 任务定位视觉头的方法示意图

为了深入探究多模态大模型在处理视觉内容时的注意力机制，我们提出了一种基于 OCR 任务的分析方法，并据此定义了「视觉得分」，用于量化模型在视觉内容上的注意力表现。基于视觉得分，本文能够有效定位并分析模型内部对视觉内容高度敏感的注意力头。

具体而言，在给定一个 OCR 任务的图片输入时，多模态大模型需要根据图片内容生成并输出图片中的文字信息。对于每一个由模型输出的 token

，首先利用 OCR 任务的标注信息，即「(text, bbox)」对，明确该字符在图像中的空间位置。

通过这一标注，可以将每个字符与其在图片中的具体区域一一对应。接下来，按照多模态大模型对输入图片的分块或 patch 划分方式，进一步确定每个字符对应的视觉区域所映射到的视觉 token，并精确定位这些视觉令牌在整个输入序列中的具体位置。

在此基础上，我们对多模态大模型内部所有注意力头进行遍历。对于任意一个注意力头，我们分析其注意力得分矩阵。考虑当前字符 token

对前序所有输入 token 的注意力得分，若得分最高的 token 恰好属于该字符在图像中对应区域的视觉 token，则认为该注意力头在该位置成功「命中」了对应的视觉内容。每当发生一次「命中」，便为该注意力头累计一次视觉得分。通过统计和归一化所有字符令牌的命中情况，最终可以量化每个注意力头对视觉内容的关注程度，从而揭示模型在视觉信息处理过程中的内部机制。

基于视觉头的 KV-Cache 压缩策略

在完成视觉头的定位之后，我们进一步提出了一种基于视觉头的 KV-Cache 分配与压缩策略。传统的 KV-Cache 机制为所有注意力头和所有位置的 token 分配等量的缓存空间，这种方式虽然简单，但在处理高分辨率图像时显得极为低效：大量不关注视觉内容的注意力头被迫缓存完整视觉 token，造成了显著的资源浪费。

为了解决这一问题，SparseMM 根据视觉得分设计了一个三部分的缓存分配机制：

Local Window Cache：为所有注意力头分配固定窗口大小的缓存，只保留最近的若干个 token，确保基本的局部上下文建模能力；
Uniform-Based Cache：在所有注意力头之间均匀分配一部分缓存预算，用于保底防止头部信息过度丢失；
Score-Preferred Cache：将剩余的大部分缓存资源按照视觉头在前一阶段中的视觉得分按比例分配，使得关键的视觉头能够尽可能保留更多的历史视觉 token，从而提升模型对图像语义的保持能力。

这种差异化的缓存压缩策略在不显著牺牲模型性能的情况下，显著减少了整体 KV-Cache 的内存使用。尤其在视觉 token 占比较高的输入场景中，SparseMM 能够更合理地分配资源，把计算和存储集中在真正重要的视觉内容上。

图 3：SparseMM 基于视觉头的缓存压缩方法

实验结果

在 OCR-rich 的多模态数据集上的结果

在 OCR-rich 的数据集上（如 DocVQA、OCRBench 和 TextVQA），SparseMM 展现出显著的性能优势，充分验证了其视觉头识别策略的有效性。例如在 DocVQA 中，当键值缓存预算仅为输入长度的 10% 左右时，LLaVA-NeXT-Vicuna-7B 与 Qwen2-VL-7B-Instruct 等模型仍能保持与全缓存配置几乎一致的性能，而现有方法则普遍出现明显精度下降，差距在低预算下进一步扩大，突出体现了视觉头选择的准确性和关键性。TextVQA 中的实验同样验证了 SparseMM 的优势，多个模型在低至 5% 至 10% 缓存预算的条件下依然保持优异性能，显著优于 AdaKV、SnapKV 等方法。这些结果表明，SparseMM 尤其适用于文字密集、图文关联紧密的视觉任务，在处理高分辨率输入与稀疏文本分布场景中具备显著的推理效率与性能保持能力。

通用多模态任务上的分析

尽管本文的视觉头识别方法基于 OCR 任务构建，但是为了进一步验证其在更广泛视觉场景中的适用性与泛化能力，我们在多个通用视觉任务基准（如 MMBench、GQA 和 VQAv2）上对该方法进行了系统性评估。

实验结果显示，本文方法在通用视觉任务中依然表现出极强的鲁棒性与泛化能力。即便在非常受限的缓存预算的条件下，Qwen2-VL-7B-Instruct 模型在 MMBench 上仍能维持与全缓存模型几乎一致的性能；在 GQA 和 VQAv2 等具备复杂视觉推理能力要求的任务上，性能下降幅度也始终控制在 1% 以内，显著优于现有压缩方法。这些结果表明，尽管视觉头的识别基于 OCR 场景完成，其关注的视觉区域和注意力机制却具有高度的通用性，能够在各类视觉理解任务中稳定发挥作用，为通用多模态模型的推理加速与缓存优化提供了一种高效、可靠且可推广的解决方案。

推理速度评估

本文在不同输入长度（2K 至 32K）场景下评估了 SparseMM 的计算效率，结果显示该方法在提升推理速度和降低显存占用方面均取得显著提升。在 32K 输入下，LLaVA-NeXT-Vicuna-7B 和 Qwen2-VL-7B-Instruct 的推理速度分别提升至 1.87× 和 1.60×，而峰值显存占用分别减少约 15GB 和 2GB，表现出良好的扩展性与适应性。这充分说明 SparseMM 在高分辨率图像或长上下文任务中，能够有效降低推理开销，提升多模态大模型的部署效率与实用性。

可视化视觉头

我们可视化了 LLaVA-NeXT-Vicuna-7B 中识别到的一些视觉头和非视觉头，可以看出视觉头能准确的定位到图中的物体或文字，而非视觉头往往不关注图像信息或者关注到错误的区域，这直观地体现了视觉头和非视觉头的差异性。

总结

我们提出了 SparseMM，这是一种基于视觉头的 KV-Cache 缓存压缩方法。我们通过在 OCR 任务中精确识别出对视觉信息最敏感的注意力头，并据此设计差异化的缓存分配策略，在保证模型性能的同时显著降低了推理阶段的计算和内存开销。

实验结果表明，SparseMM 在多个视觉语言任务中均展现出卓越的准确性保持能力、优异的计算效率以及强大的泛化性，特别是在高分辨率图像和长上下文输入场景下具有显著优势。SparseMM 为多模态大模型的高效推理与实际部署提供了新的解决思路，我们也希望这项工作能启发未来更多对多模态大模型推理加速的研究。

....

#Karpathy戳破强化学习神话

首提AI复盘式进化！暴力试错将死

强化学习，或许并不能通往AGI终点。Karpathy最新发文提出另一种Scaling范式，像人类一样反思回顾，通过复盘学习取得突破，更多的S形进步曲线等待发现。

Grok 4能站在大模型之巅，全是Scaling强化学习立了大功。

如今，AI大神Karpathy站出来急泼一盆冷水：

RL只是把最终成败的单一数值回传，效率随任务时长急剧下降。

而且，RL与人类「反思-提炼-再应用」迭代机制存在巨大差异。

RL短期有效

真正突破在于「复盘学习」

强化学习的本质是，某次行动表现良好（糟糕），就略微提升（降低）未来类似行动的概率。

这种方法通过验证函数，比显示监督取得了更大的杠杆效应，无疑是其强大之处。

然而，在Karpathy看来，从长远角度来讲，强化学习或许并不是最优策略。

长时程任务，RL局限显现

首先，一旦任务交互时间增加到几分钟乃至几小时，RL就遇到了挑战。

想象一下，一个数小时交互的任务，最终却只得到一个单一的标量奖励，来调整整个过程的梯度。

这样的反馈，能否足以支撑高效学习？

RL机制与人类差异显著

其次，对于大多数智能任务而言，这感觉并不像人类的进步机制。

简言之，RL的机制与人类智能提升方式，存在着显著的差异。

人类会通过一个复盘/反思阶段，从每一次推演中能提取到多得多的监督信息，比如「哪里做得好？哪里不太行？下次该试试什么？」等等。

从这个阶段得到的教训感觉是明确的，就像一个新字符串，可以直接添加到未来的系统提示词里，也可以选择性地在之后被「蒸馏」成权重/直觉，有点像睡眠的作用。

在英语里，我们说通过这个过程，某件事会成为人的「第二天性」，而我们目前正缺少这样的学习范式。

这里，Karpathy提到了ChatGPT「记忆」功能，或许就是这种机制概念的一个雏形，尽管它目前只用于个性化，而非解决问题。

值得注意的是，在Atari游戏这类RL场景中也不存在类似的机制，因为那些领域里没有大语言模型，也没有上下文学习。

算法新设想：回顾-反思范式

为此，Karpathy提出了一个算法框架——

给定一个任务，先跑几次推演，然后把所有推演过程（包括每次的奖励）都塞进一个上下文，再用一个元提示词来复盘/反思哪些地方做得好或不好，从而提炼出一个字符串形式的「教训」，并将其添加到系统提示词中（或者更通用地，更新当前的教训数据库）。

不过，他表示，这里面有很多细节要填充，有很多地方可以调整，具体怎么做并不简单。

举个栗子，大模型计数问题。

我们知道，由于分词（tokenization）的原因，大模型不太容易识别单个字母，也不太容易在残差流里计数。

所以，众所周知，模型很难识别出「strawberry」里的「r」字母。

Claude的系统提示词里就加入了一个「快速修复」patch——添加了一段话，大意是：「如果用户让你数字母，你得先用逗号把字母隔开，每隔一个就给一个显式计数器加一，照这样做完任务」。

这段话就是「教训」，它明确地指导模型如何完成计数任务。

但问题在于，这种教训要如何从智能体的实践中自发产生，而不是由工程师硬编码进去？它该如何被泛化？

以及，这些教训如何随着时间推移被蒸馏，从而避免让上下文窗口无限膨胀？

最后，他总结道，RL会带来更多收益，如果应用得当，它的杠杆效应巨大。

并且，深受「惨痛教训」（bitter lesson）理论的启发，RL优于监督微调（SFT）。

但它并不是完整的答案，尤其是随着推演的流程越来越长。

在这之后，还有更多的S型增长曲线等待发现，这些曲线可能专属于大语言模型，在游戏/机器人这类环境中没有先例，而这，正是我觉得激动人心的地方。

OpenAI研究科学家Noam Brown对此深表赞同，「确实，未来仍有许多研究工作有待完成」。

AI初创公司联创Yuchen Jin提出了一个有趣的观点，全新训练范式——课程学习，是一个自监督记忆+检索+反思的反馈循环，无需任何外部奖励信号。

一位网友很有见地称，强化学习实际上是暴力试错的一种方法，并非是明智的策略。

放弃无效RL研究

最近，关于强化学习的讨论，成为了AI圈的一大热点。

除了Karpathy本人下场，上周前OpenAI研究员Kevin Lu发长文称，Transformer只是配角，放弃无效RL研究！

他直言，真正推动AI规模跃迁的技术是互联网，而非Transformer，这也是你应该停止RL研究，转投产品开发的原因。

众所周知数据才是AI最重要的要素，但研究者们却往往选择回避这个领域...

究竟什么才是规模化地做数据？

互联网提供了天然的数据宝库：海量且多样化的数据源、自然形成的学习路径、反映人类真实需求的能力维度，以及可经济高效规模化部署的技术特性——

它成为下一个token预测的完美搭档，构成了AI爆发的原始汤池。

没有Transformer，我们本可以用CNN或状态空间模型达到GPT-4.5的水平。

但自GPT-4之后，基础模型再未出现突破性进展。

专用推理模型在垂直领域表现优异，却远不及2023年3月GPT-4带来的震撼级跨越（距今已两年多...）。

RL确实成就斐然，但Kevin Lu对此深切担忧，研究者会重蹈2015-2020年间RL研究的覆辙——沉迷于无关紧要的学术游戏。

如果说互联网是监督预训练的时代搭档，那么什么才能成为强化学习的「共生体」，催生出GPT-1到GPT-4量级的飞跃？

Kevin Lu认为答案在于：研究-产品协同设计。

参考资料：

https://x.com/karpathy/status/1944435412489171119

....

#这个AI开源社区要让大模型跑遍「中国芯」

央企牵头~

「造芯」不易，「用芯」更难。

大模型加速落地，国产芯片需求日盛，但模型真正能在国产芯上「开箱即用」者寥寥无几——这关键的「最后一公里」，谁来铺路？

现在，有个社区牵头「组队攻坚」，给出了一种解法。

6 月 30 日，百度文心大模型 4.5 系列正式开源，并同步登陆 AI 开源社区——魔乐社区（ Modelers.cn ）。

趁热打铁，魔乐社区同步正式发起「模型推理适配协作计划」（以下简称「适配计划」），集结开发者、算法团队、芯片厂商与推理工具伙伴，共建开源协同生态。

目标只有一个：让大模型跑遍中国芯。

开源模型如何跑遍中国芯？

先拆解一下「适配」这件事到底在适配什么。

一个大模型顺利实现推理应用落地，要跨越三道槛儿：

适配推理引擎：先让引擎「读懂」模型，能解释其结构、识别其算子；
适配计算平台：让芯片「听得懂」引擎分发的任务，高效完成各类操作；
适配上层调度：让模型能被业务系统便捷接入调用，真正上线服务。

当前，业界已发展出多样化的工具来支持大模型推理和适配的各个环节。

比如，vLLM 等高性能推理引擎，CANN、MUSA 等计算架构，FastDeploy、FlagServing 等部署工具，以及众多开源的模型转换、量化、融合工具等……这些工具在各自领域都发挥了重要作用，整个工具链其实已经相对完整。然而，挑战在于如何有效连接和协同这些分散的工具链与适配经验。因此，亟需一个跨环节的协作平台与机制，把这些资源组织起来，解决「最后一公里」的适配难题。

于是，魔乐社区推出「模型推理适配协作计划」，并动手做了几件事。

第一件事，是把原来的「镜像中心」升级为「工具中心」，位置也从「更多」菜单一跃来到首页 C 位，对标模型库、数据集 ——

这一调整绝非简单的位置迁移，而是将开放的工具链提升至与模型、数据同等重要的生态基座地位。

现在，开发和部署工具，与模型库、数据集并列首页「C位」。

类似模型库的运作逻辑，「工具」中心将提供模型转换迁移工具，也将支持开发者上传自己适配好的推理镜像、工具链和运行环境，还可以对已有镜像进行更新。

每次发布需社区审核，确保质量稳定、可复用。

与此同时，「工具」依旧保留了代码托管能力，方便开发者在魔乐生态内实现适配共享。

换句话说，升级后的板块就是想让「环境跟着模型走」，将碎片化的适配经验沉淀为标准化、可复用的结构化基础设施，让后续开发者无需重复造轮子，直接站在已有成果上推进适配和性能优化，大幅降低协作成本。

另一件事，是把托管板块升级为协作空间。

以前，模型架构和权重文件一经上传，基本就「尘埃落定」。但像 Readme 文档、适配好的推理代码等内容，却得随着芯片、工具链适配进展不断更新。

比如，今天模型适配了一个芯片，明天又支持了另一种，这些信息和代码都得有人来更新和上传，并且不同开发者的适配成果可能分散在各处，难以汇总复用。

现在，在「协作空间」——

所有用户均可提交 PR（代码合并请求），共同参与文档撰写、适配代码开发与推理配置优化。

文档即代码：Readme 不再是静态说明，而是支持多人实时编辑的协作载体，适配进展、使用指南等信息实时同步。

比如，模型开发者上传了一个大模型到魔乐社区，不止模型权重，还有配套的推理工具链。一旦模型被标记为「基础模型」，模型卡片就会自动开启「协作」入口。

这时候，开发者可针对不同芯片上传独立的适配代码分支，形成版本清晰的「芯片适配库」。

例如，如果有工程师想将模型适配跑在某款芯片上（例如昇腾），只需要点开「协作」按钮，选择目标推理引擎，新建一个「Ascend」文件夹，提交适配后的推理代码，提个 PR，就能提交到社区。

社区会有审核机制，一旦验证通过，就能被正式合入模型项目中，成为社区认可的适配版本。

每一个适配版本，就是一个独立的子工程，版本分明，职责清晰，协作记录也都有迹可循。

除代码外，适配过程中产生的量化权重、优化配置等资产也可通过 PR 提交，形成完整的技术方案。

这种机制将分散的适配工作聚合到统一平台,支持一键下载与二次开发, 避免了成果碎片化，让每一次适配进展都能沉淀为社区共享的资产。

为了让「适配计划」真正跑起来，魔乐社区广泛联动产业力量。

一方面联动壁仞科技、海光、华为（昇腾）、摩尔线程、沐曦、算能、燧原科技等国产算力厂商（按中文首字母排序，无先后顺序），为开发者提供硬件、工具和技术支持。

另一方面，整合多元化适配和推理软件生态，并联合工具伙伴，助力开发者快速掌握适配工具链，实现跨硬件平台与引擎组合的深度推理性能调优。

与此同时，还牵手伙伴共建教程、补文档、传经验，手把手帮开发者跑通流程、填平坑点。

接下来，「适配计划」将持续开放，持续吸纳更多芯片厂商、模型开发者与开发者加入；SIG（特别兴趣小组）技术组也将进入常态化运作，聚焦适配技术攻坚与标准制定。

若此协作机制成功运转，将有望解决国产芯片生态最棘手的「协同短板」—— 让模型与芯片的适配从「零散突破」走向「体系化落地」，为国产 AI 算力生态的闭环构建提供关键支撑。

「适配计划」背后

很多人还记得，DeepSeek-R1 爆火出圈后，一件不太常见的事发生了：国产芯片厂商「组团发声」，纷纷宣布已完成对该模型的适配，并表示正在推进更多大模型的适配工作。

国产模型火了，国产算力也想借势出圈。背后的逻辑其实很直接——

只有模型真能在国产芯片上稳定跑起来，芯片才有机会真正用起来。

但现实却很尴尬：大模型加速落地，随着金融、政务、制造等重点行业对「自主可控」的需求越来越强，国产芯片的出场机会越来越多，然而，真正能做到「即拿即用」的大模型，依旧寥寥无几。

为什么会这样？

首先，这和开源模型本身的特点有关。

开源大模型不是一个「装好就能跑」的整包，它往往拆成模型架构、权重和推理代码三块。HuggingFace这样的开源平台聚焦模型分发和训练等，并不侧重构建异构算力的协同适配机制。

其次，是技术层面的现实难题。

国产芯片之间架构差异大，很多都有自己独立的推理引擎。同一个模型，想让它在不同芯片上跑得通、跑得快，就得「量身定制」——专门做适配、调度、优化。

比如，有的芯片需要做量化来压缩模型体积，有的要进行算子融合来提速。

现在，这些活儿是谁在做？

一部分由模型厂商亲自下场，但资源有限，很少有团队会专门为不同国产芯片配专属工程师。

更多时候，是芯片厂商主动出击。随着大模型推理结构的日趋标准化、算子体系逐步统一，「自己动手」的门槛已显著降低。就像 DeepSeek 爆火之后，一些厂商为了尽快跑通，从芯片指令集到内存管理、数据传输都做了大幅调整。

还有一类，就是开发者出于兴趣或业务需求自发适配。但这类工作高度分散、重复投入严重，质量也参差不齐。

对比之下，为什么 Hugging Face 上的模型大多都能在英伟达 GPU 上开箱即用？靠的不是单一厂商的「单点突破」，而是整个生态高度打通，工具链成熟完善。

这也是魔乐社区「适配计划」要解决的核心问题——

不再单打独斗，通过构建统一的协作框架，串联模型开发者、芯片方、工具方与开发者，形成生态合力，一起把模型从「能发布」推到「即插即用」。

魔乐：AI 开源的「中国样本」

为什么是魔乐来牵头做这件事？

答案要从它的「出身」和「使命」说起。

2024年 8 月，在央企巨头、中国电信天翼云的牵头下，魔乐社区正式上线。与很多主打「模型集市」的开源平台不同，魔乐从一开始就瞄准了另一个更现实、也更棘手的问题：

开源 AI 发展，要的不只是「代码开放」，还得「能协同、能落地」。

模型当然重要，但真正推动国产 AI 落地的，不只是一个个模型，而是支撑它们生长的底座系统——包括开源数据集、适配工具、部署引擎，乃至合规、调度、治理等基础能力。

因此，魔乐选择做一个中立、公益的开源社区，扮演「国产 AI 落地的基础设施」。

他们从零搭出一套覆盖模型、数据、工具、应用与算力五大板块的开源协作体系。

社区已汇聚 1000+ 优质大模型、涵盖 TeleChat、DeepSeek、Qwen、智谱等大模型，其中多数都已经适配好国产算力。

依托天翼云及「算力朋友圈」供给，社区可提供公益性国产化算力资源。

最直观的体现就是魔乐推出的「在线体验空间」：

基于社区提供的模型和算力，开发者可通过 Gradio 等主流 SDK 快速搭建 AI 应用，并一键部署、分享。

还有线上、线下的学习交流活动。

魔乐社区不只有在线平台，最近还正式成立了理事会，进一步规范社区管理与生态共建。

「中国样本」，步步为营

不到一年时间，魔乐就搭起了生态的基本盘——

已聚合超过 20 家深度合作伙伴，托管模型、数据、工具等各类开源项目累计突破 1 万个；

首发多个昇腾适配大模型，推动模型实现国产化原生适配；

模型、数据与工具融合共建，已上线 200 多个国产化 AI 应用。

更重要的是，这套生态始终围绕「产学研协同」展开，AI 落地的挑战正在被「共建、共享」的生态范式一点点瓦解。

魔乐社区致力于发掘、打造和推广好的项目。一方面，深耕高校等原生创新场景，定向发掘一批基于国产算力起步的潜力项目。

另一方面，通过「国产算力应用创新大赛」等机制，实战中筛选优质标的，推动它们与底层算力平台的深度适配与融合。

找到好项目只是起点，更关键的是——放大价值。

魔乐为项目提供从算力资源、工具链到调度框架、落地渠道的全栈支持，推动它们从 demo 走向产品、从实验室走向产业化，让每一个「跑得通」的应用都有「火出圈」的可能。

例如 Stable Diffusion WebUI、ComfyUI 虽在设计创作领域早已成名，但缺乏系统的国产适配支持。魔乐正加大力度，推动它们与国产工具链深度融合，加速落地，近期正式上线了 AIGC 专区，已实现基于国产算力的快速专业生图。

如今，全国已有多个有影响力的 AI 开源社区，都在不断推进国产 AI 能力的积累。

但这只是开始。

随着大模型快速普及、国产软硬件协同需求走强，AI 社区或将迎来真正的「井喷时刻」。

而魔乐选择了一条更难、但也更有价值的路——不止做模型的「集市」，更要做模型、算力、工具的协作平台。

坚持中立、公益、开放的定位，魔乐正推动大模型在「中国芯」上真正跑起来，成为国产AI算力生态自主可控与高效协同的重要支撑。

....

#2025杰出论文出炉

8篇获奖，南大研究者榜上有名

包括 6 篇杰出论文奖和 2 篇杰出立场论文奖。

本周一，ICML 2025 公布了最佳论文奖项。

今年获奖论文共计 8 篇，其中包括 6 篇杰出论文奖和 2 篇杰出立场论文奖。值得关注的是，南京大学研究者也位列获奖名单之中。

国际机器学习会议 ICML（International Conference on Machine Learning），是全球范围内人工智能领域的顶级学术会议之一，由国际机器学习学会（IMLS）举办，与 NeurIPS、ICLR 并列为 AI 三大顶会。本届 ICML 为第四十二届，于 7 月 13-19 日在加拿大温哥华举行。

今年的 ICML 大会共获得 12107 篇有效论文投稿，其中 3260 篇被接收，接收比例为 26.9%。相比 2024 年的 9653 篇投稿数量持续大幅增长，展示了 AI 领域的火热。

以下是今年的获奖论文与简要介绍。

杰出论文奖

论文 1： Train for the Worst, Plan for the Best: Understanding Token Ordering in Masked Diffusions

论文地址：https://arxiv.org/pdf/2502.06768

作者：Jaeyeon Kim、Kulin Shah、Vasilis Kontonis、Sham Kakade、Sitan Chen

机构：哈佛大学、得克萨斯大学奥斯汀分校

论文摘要：近年来，掩码扩散模型（MDMs，masked diffusion models）逐渐崭露头角。与自回归模型（ARMs）相比，MDMs 在训练时通过牺牲复杂性来换取推理时的灵活性。具体而言，在训练阶段，MDM 学习解决大量的填充问题，但在推理时，它们几乎以任意的顺序解码 Token。

本文深入研究了这两种竞争效应。

在训练层面，本文通过理论分析和实验验证表明：相较于自回归模型，MDMs 确实需要处理计算复杂度更高的子问题。在推断层面，本文发现采用自适应 Token 解码顺序的策略能显著提升 MDMs 的性能，使其有效规避困难子问题。

在像数独这样的逻辑谜题中，自适应推理可以将预训练 MDMs 的解题准确率从不到 7% 提高到约 90%，甚至超越了具有 7 倍参数量的自回归模型，这些模型通过教师强制（teacher forcing）显式训练，学习正确的解码顺序。

论文 2：The Value of Prediction in Identifying the Worst-Off

论文地址：https://arxiv.org/pdf/2501.19334
作者：Unai Fischer Abaigar、Christoph Kern、Juan Perdomo
机构：慕尼黑大学、哈佛大学

论文摘要：机器学习正越来越多地用于政府项目中，以识别和支持最弱势群体，优先为他们提供援助。

本文研究了在追求公平的背景下，预测技术对福利分配的影响，并将其与其他政策工具（如扩大行政资源）进行比较。

通过数学模型和针对德国居民长期失业问题的真实案例研究，本文系统性地评估了预测技术在识别最弱势群体方面的有效性。研究成果为政策制定者提供了明确的分析框架和实用的数据驱动工具，帮助他们在设计此类系统时做出有原则性的决策。

论文 3：CollabLLM: From Passive Responders to Active Collaborators

论文地址：https://arxiv.org/pdf/2502.00640
论文主页：https://wuyxin.github.io/collabllm/
作者：Shirley Wu、Michel Galley、Baolin Peng、Hao Cheng、Gavin Li、Yao Dou、Weixin Cai、James Zou、Jure Leskovec、Jianfeng Gao
机构：斯坦福大学、微软、佐治亚理工学院

论文摘要：大语言模型通常使用下一轮奖励进行训练，这限制了它们在长期互动中的优化能力。因此，它们常常对模糊或开放性用户请求作出被动回应，未能帮助用户实现最终意图，导致对话效率低下。

为了解决这些局限性，作者提出了 CollabLLM，这是一种新颖且通用的训练框架，旨在增强多轮人类与大语言模型的协作。

其关键创新在于通过多轮感知奖励的协作模拟，估算响应的长期贡献。通过强化学习对这些奖励进行微调，CollabLLM 不仅仅回应用户请求，还能主动挖掘用户意图，并提供富有洞察力的建议，这是迈向更加以人为本的人工智能的关键一步。

他们还设计了一个多轮互动基准，涵盖了如文档创作等三项具有挑战性的任务。与基线模型相比，CollabLLM 在任务表现上提高了 18.5%，并且在语言模型评审者的互动性上提高了 46.3%。

最后，他们进行了一项大型用户研究，涉及 201 位评审者，其中 CollabLLM 提高了 17.6% 的用户满意度，并减少了 10.4% 的用户花费时间。

论文 4：Roll the dice & look before you leap: Going beyond the creative limits of next-token prediction

论文地址：https://arxiv.org/pdf/2504.15266
作者：Vaishnavh Nagarajan, Chen Henry Wu, Charles Ding, Aditi Raghunathan
机构：Google Research、卡内基梅隆大学

论文摘要：作者设计了一套最小化的算法任务，作为开放式现实任务的一个宽泛抽象。这使他们能够干净且可控地量化当今语言模型的创造性极限。

与需要创造性、远见性思维飞跃的现实任务类似，他们的任务需要一个隐式的、开放式的随机规划步骤，该步骤要么（a）发现抽象知识图中的新联系（如文字游戏、类比或研究），要么（b）构建新模式（如设计数学问题或新蛋白质）。

在这些任务中，作者在经验和概念上论证了为什么下一个 Token 学习是目光短浅的；多 Token 方法，即无教师训练和扩散模型，相比之下在生成多样且原创的输出方面表现更为出色。

其次，为了在不损害一致性的前提下引发随机性，他们发现将噪声注入输入层（称为种子条件化）在很多条件下的效果与（并且在某些条件下优于）从输出层进行温度采样的效果一样好。

因此，他们的工作为分析开放式创造性技能提供了一个有原则的、最小化的测试平台，并提出了超越下一 Token 学习和温度采样的新论据。

论文 5：Conformal Prediction as Bayesian Quadrature

论文地址：https://arxiv.org/abs/2502.13228
作者：Jake C. Snell、Thomas L. Griffiths
机构：普林斯顿大学

论文摘要：基于机器学习的预测系统在高风险场景中的应用日益广泛，了解此类预测模型部署后的表现至关重要。诸如共形预测之类的分布无关不确定性量化技术，即使在模型细节隐藏的情况下，也能保证黑盒模型的损失。然而，此类方法基于频率概率，这过度限制了它们的适用性。本文从贝叶斯视角重新审视共形预测的核心内容，从而阐明频率概率保证的不足之处。

本文提出了一种基于贝叶斯求积的实用替代方案，它能够提供可解释的保证，并更全面地表示测试时可能观察到的损失范围。

论文 6：Score Matching with Missing Data

论文地址：https://arxiv.org/abs/2506.00557
作者：Josh Givens、Song Liu、Henry W J Reeve
机构：布里斯托大学、南京大学

论文摘要：分数匹配是学习数据分布的重要工具，其应用领域涵盖扩散过程、基于能量的建模和图模型估计等诸多领域。尽管应用广泛，但很少有研究探讨其在数据不完整情况下的运用。

该研究通过调整分数匹配（及其主要扩展）来解决这个问题，使其能够在灵活的设置下处理缺失数据，其中数据可能在任何坐标子集上出现部分缺失。本文提供了两种独立的分数匹配变体供一般使用：重要性加权 (IW) 方法和变分方法。本文在有限域设置下为 IW 方法提供了有限样本边界，并证明其在小样本低维情况下尤其表现出色。

此外，本文还证明了变分方法在更复杂的高维设置下表现最佳，这一点在真实数据和模拟数据的图模型估计任务中均得到了验证。

杰出立场论文奖（Outstanding Position Paper）

ICML 大会在 2024 年首次设置了 Position Paper 赛道，与传统 research paper 不同，它更注重观点性、前瞻性和讨论性，而非纯粹的技术创新。该赛道鼓励作者提出对机器学习领域关键问题的深刻见解、争议性观点或未来发展方向的分析，旨在激发学术界的广泛讨论和反思。

今年有 2 篇论文入选。

论文 1：The AI Conference Peer Review Crisis Demands Author Feedback and Reviewer Rewards

论文地址：https://arxiv.org/abs/2505.04966
作者：Jaeho Kim、Yunseok Lee、Seulki Lee
机构：韩国蔚山科学技术院（UNIST）

论文摘要：随着人工智能领域主要会议投稿数量的激增（每个会议投稿超过 10,000 篇），同行评审流程面临前所未有的挑战，评审质量和评审责任问题也日益引发关注。

本文主张将传统的单向评审系统转变为双向反馈机制，在这种机制中，作者对评审质量进行评估，审稿人获得正式的认证，创建一个责任框架，促进一个可持续的、高质量的同行评审系统。

当前的评审系统可以视为作者、审稿人和系统（即会议）三方之间的互动，这三方对当前的问题共同负责。但是，作者的问题只能通过政策执行和检测工具来解决，而伦理问题只能通过自我反思来纠正。

因此，本文重点探讨通过两种关键机制改革审稿人问责制，并引入系统性奖励：

（1）双阶段双向评审系统，允许作者评估评审，同时最大程度地减少报复行为；（2）系统性审稿人奖励系统，激励高质量审稿。

论文 2：AI Safety should prioritize the Future of Work

论文地址：https://arxiv.org/abs/2504.13959
作者：Sanchaita Hazra、Bodhisattwa Prasad Majumder、Tuhin Chakrabarty
机构：犹他大学、艾伦人工智能研究所等

论文摘要：当前人工智能安全领域的工作重点在于过滤有害内容、防止操纵人类行为以及消除在网络安全或生物安全领域中的存在性风险。尽管这些问题迫切需要解决，但这种狭隘的关注忽视了塑造社会长期发展轨迹的关键以人为本的考量。

在本文中，作者指出了忽视人工智能对未来工作影响的风险，并建议提供全面的过渡支持，以促进具有人类能动性的有意义的劳动的演变。通过经济理论的视角，作者强调人工智能对人类生计的跨时间影响以及劳动市场结构变化，这些变化加剧了收入不平等。

此外，人工智能开发中的主要利益相关方的封闭源代码方法，类似于通过资源剥削的寻租行为，培育了创造性劳动中的平庸，并垄断了创新。为了解决这一问题，他们主张建立健全的国际版权体系，并实施集体许可制度，以确保使用数据训练人工智能模型的公平补偿机制，强烈建议建立一个以人为中心的全球人工智能治理框架，以促进共享繁荣和经济公正，同时减少技术债务。

参考链接：https://icml.cc/virtual/2025/awards_detail

....

#什么都不做就能得分？

智能体基准测试出现大问题

都在研究考生，考卷出问题了。

基准测试在评估人工智能系统的优势与局限性方面具有基础性作用，是引导科研与产业发展的关键工具。

随着 AI 智能体从研究原型逐步走向关键任务的实际应用，研究人员和从业者开始构建用于评估 AI 智能体能力与局限性的基准测试。

这和常规模型的评估方式产生了很大不同。由于智能体的任务通常需要一个真实场景，并且任务缺乏标准答案，针对 AI 智能体的基准测试在任务设计和评估方式上要远比传统 AI 基准测试要复杂。

显然，现有的智能体基准测试并没有达到一个可靠的状态。

举几个例子：

在被 OpenAI 等机构用于评估 AI 智能体网页交互能力的基准测试 WebArena 中，在某个路径时长计算任务中，AI 智能体给出的答案是「45 + 8 分钟」，而正确答案应为「63 分钟」，WebArena 竟将其判定为正确答案。
τ-bench 是一个评估 AI 智能体在真实世界环境中可靠性的基准测试。而其将一个「无操作」的智能体在航班任务中判有 38% 正确率。尽管该智能体对机票政策毫无理解，结果却错误地评估了其能力。

近期加入英伟达担任首席研究科学家的 Banghua Zhu 发推评论这一现象，认为一个什么都不做的智能体就可以取得高达 38% 分数的现象「非常有趣」。

此外，在目前常用的 10 个 AI 智能体基准测试中（如 SWE-bench、OSWorld、KernelBench 等），研究在其中 8 个基准中发现了严重的问题，有些情况下甚至会导致对 AI 智能体能力 100% 的误判。

这些数据传达出一个明确的信息：

现有智能体基准测试存在大问题。若要准确理解 AI 智能体的真实能力，必须以更严谨的方式构建基准测试。

在一个来自伊利诺伊大学香槟分校、斯坦福大学、伯克利大学、耶鲁大学、普林斯顿大学、麻省理工学院、Transluce、ML Commons、亚马逊和英国 AISI 的研究者们共同完成的最新工作中，研究人员系统性地剖析了当前 AI 智能体基准的常见失效模式，并提出了一套清单，用于最大限度降低基准测试被「投机取巧」的可能性，确保其真正衡量了智能体的能力。

论文标题：Establishing Best Practices for Building Rigorous Agentic Benchmarks
博客链接：https://ddkang.substack.com/p/ai-agent-benchmarks-are-broken
论文链接：https://arxiv.org/abs/2507.02825
项目链接：https://uiuc-kang-lab.github.io/agentic-benchmarks/
Github 链接：https://github.com/uiuc-kang-lab/agentic-benchmarks/

现有的 AI 智能体基准测试

问题出在哪？

在 AI 智能体的基准测试中，智能体通常需要端到端地完成复杂任务，例如修复大型代码仓库中的问题，或制定旅行计划。

这一广泛而现实的任务范围带来了两项传统 AI 基准测试中较少遇到的挑战：

模拟环境脆弱：任务通常运行在模拟或容器化的网站、计算机或数据库中。如果这些空间存在漏洞或版本过旧，AI 智能体可能会利用捷径绕过任务要求，或因系统问题而根本无法完成任务。
缺乏明确的「标准答案」：任务的解答可能是代码、API 调用，或是篇幅较长的计划文本，难以适用统一的答案模板，评估标准主观性强。

针对上述挑战，本文提出了两个对 AI 智能体基准测试尤为关键的有效性判据：

任务有效性：该任务是否仅在智能体具备特定能力时才可解？
结果有效性：评估结果是否真实反映了任务完成情况？

AI智能体评估的操作流程与概念机制中，任务有效性与结果有效性至关重要，它们共同保障了基准测试结果能真实反映智能体系统的能力水平。

本文研究：AI智能体基准测试检查单

本文整理并发布了 AI 智能体基准测试检查清单（ABC），该清单包含 43 项条目，基于来自主流 AI 机构使用的 17 个 AI 智能体基准测试提炼而成。

ABC 主要由三个部分组成：结果有效性检查项、任务有效性检查项，以及在理想有效性难以实现的情况下用于补充说明的基准报告指南。

完整、适合打印的检查清单已公开发布，可参阅以下文档。

文档链接：https://uiuc-kang-lab.github.io/agentic-benchmarks/assets/checklist.pdf

运用 ABC 的研究发现

本文将 ABC 检查清单应用于当前主流的十个 AI 智能体基准测试中，包括 SWE-bench Verified、WebArena、OSWorld 等。

将 ABC 运用在 10 个广泛应用的智能体基准测试中的结果

在这 10 个基准中，发现：

7/10 含有可被 AI 智能体「投机取巧」的捷径或根本无法完成的任务；
7/10 不符合结果有效性标准，即评估结果不能真实反映任务完成情况；
8/10 未公开其已知问题，缺乏透明度。

以下是在当前用于评估前沿 AI 智能体系统（如 Claude Code 与 OpenAI Operator）的基准测试中识别出的问题：

SWE-bench 与 SWE-bench Verified 借助手动编写的单元测试，用于验证 AI 智能体生成的代码补丁是否正确。然而，这些补丁可能仍然存在未被单元测试覆盖的错误。

对这些基准测试中的单元测试进行扩充后，排行榜结果出现了明显变化：SWE-bench Lite 中有 41% 的智能体排名发生变动，SWE-bench Verified 中则有 24% 的智能体受影响。

IBM SWE-1.0 智能体生成了一个错误的解决方案，但该错误未被 SWE-bench 检测出来，因为其单元测试未覆盖代码中的红色分支路径。

KernelBench 采用带有随机值的张量来评估 AI 智能体生成的 CUDA 核函数代码的正确性。与 SWE-bench Verified 类似，这种基于随机值张量的测试方法可能无法发现生成代码中的某些错误，特别是涉及内存访问或张量形状的缺陷。

τ-bench 则通过子字符串匹配与数据库状态匹配来评估智能体的表现，这使得一个「无操作」智能体竟然能通过 38% 的任务。以下示例展示了其中一类任务，即使智能体什么都不做，也能通过评估。

τ-bench 中一个示例任务

WebArena 采用严格的字符串匹配和一个较为原始的 LLM 评判器（LLM-judge）来评估智能体的行为与输出是否正确，这导致在绝对指标上对智能体性能产生了 1.6% 至 5.2% 的误判。

OSWorld 的智能体评估部分基于已过时的网站构建，因而在绝对指标上造成了 28% 的性能低估。在下列示例中，智能体所交互的网站已移除 search-date 这一 CSS 类，但评估器仍依赖过时的选择器，最终将智能体本应正确的操作判定为错误。

OSWorld 的评估器仍在查找已过时的类名 search-date 和 search-segment-cities__city，从而导致智能体失败。

SWE-Lancer 未能安全地存储测试文件，这使得智能体可以覆盖测试内容，从而「通过」全部测试。

ABC 的后续方向

本文构建了 ABC，旨在提供一个可操作的评估框架，以帮助：

基准测试开发者排查潜在问题，或展示其评估工作的严谨性；
智能体 / 模型开发者深入理解评估基准的本质，而非仅停留在报告「最先进性能数字」层面。

.....

#A Survey

南大等8家单位，38页、400+参考文献，物理模拟器与世界模型驱动的机器人xx智能综述

本文作者来自：南京大学、香港大学、中南大学、地平线、中国科学院计算所、上海交通大学、慕尼黑工业大学、清华大学。

当下，随着机器人与人工智能技术的飞速进展，“xx智能”（Embodied Intelligence）已成为业界与学界共同关注的核心课题。与纯感知或生成任务不同，xx智能要求智能体在复杂环境中自主感知、预测并执行动作，才能真正迈向通用智能（AGI）。而要实现这一宏大目标，物理模拟器与世界模型的深度融合被认为是最具潜力的路径：前者通过高度可控的虚拟环境，为算法训练提供安全、高效的多场景试错土壤；后者则模拟了从感知到决策的 “脑内演算” 过程，使智能体能够在动作之前，先在内部进行环境预测与策略规划。

这篇由南京大学、香港大学等机构学者撰写的综述论文 —— A Survey: Learning Embodied Intelligence from Physical Simulators and World Models，使用 25 张图、6 张表格、超 400 篇参考系统地梳理了两大技术如何协同推动机器人从 “会做” 向 “会想” 演进的全貌。

论文题目：A Survey: Learning Embodied Intelligence from Physical Simulators and World Models
工作内容：基于物理模拟器与世界模型的xx智能学习
论文链接：https://arxiv.org/abs/2507.00917
仓库链接：https://github.com/NJU3DV-LoongGroup/Embodied-World-Models-Survey

论文摘要

对通用人工智能（AGI）的追求使xx智能成为机器人研究的前沿课题。xx智能关注的是能够在物理世界中感知、推理并行动的智能体。要实现鲁棒的xx智能，不仅需要先进的感知与控制能力，还需具备将抽象认知扎根于现实交互中的能力。

在这一过程中，两项基础技术 —— 物理模拟器与世界模型 —— 已成为关键推动力量。物理模拟器为训练与评估机器人智能体提供了可控、高保真度的环境，使复杂行为的开发变得安全而高效。相比之下，世界模型为机器人赋予了对环境的内部表示能力，从而使其能够进行预测性规划和超越直接感知的自适应决策。

本文系统回顾了近年来通过物理模拟器与世界模型融合学习xx智能的研究进展。我们分析了这两者在提升智能体自主性、适应性与泛化能力方面的互补作用，并探讨了外部模拟与内部建模之间的协同关系，如何推动从模拟训练走向真实部署的跨越。通过整合当前的研究成果与开放问题，本文旨在为构建更强大、更具泛化能力的xx智能系统提供全面的视角。我们还维护了一个持续更新的文献与开源项目仓库，地址为：https://github.com/NJU3DV-LoongGroup/Embodied-World-Models-Survey。

主要贡献：

智能机器人能力分级标准：提出一个涵盖自主性、任务处理能力、环境适应能力与社会认知能力四个关键维度的五级能力分级体系（IR-L0 至 IR-L4）。
机器人学习技术分析：系统回顾智能机器人在腿式运动（如双足行走、摔倒恢复）、操作控制（如灵巧操作、双手协调）与人机交互（如认知协作、社会嵌入）方面的最新技术进展。
主流物理模拟器分析：全面对比 Webots、Gazebo、MuJoCo、Isaac Gym/Sim/Lab 等主流模拟器的物理仿真能力、渲染质量与传感器支持能力。
世界模型的最新进展：首先回顾世界模型的代表性架构及其潜在作用，例如作为可控模拟器、动态建模器与奖励模型在xx智能中的应用。进一步探讨专为自动驾驶与关节型机器人设计的最新世界模型方案。

研究内容与结构一览

1、智能机器人五级能力分级（IR-L0 ～ IR-L4）

IR-L0：基础执行 —— 完全依赖人类指令，无环境感知。
IR-L1：规则响应 —— 有限的传感器驱动，能在封闭环境下执行预设任务。
IR-L2：感知自适应 —— 引入视觉、LiDAR 等多模态，具备基本路径规划与避障能力。
IR-L3：类人协作 —— 多轮对话、情感识别，能在动态场景中与人类协同工作。
IR-L4：完全自主 —— 具备自我生成目标、长期学习与伦理决策能力。

2、机器人核心技术回顾

运动能力：从 Model Predictive Control、Whole-Body Control，到基于深度强化学习的端到端策略；
操控能力：单臂抓取到双臂协作，乃至全身动作控制，辅以 VLM/LLM 驱动的视觉 — 语言 — 动作一体化模型；
交互能力：认知协作、物理安全与社会嵌入三大维度的最新进展。

3、物理模拟器横评

回顾主流模拟平台（Webots、Gazebo、MuJoCo、Isaac Gym/Sim）的物理引擎精度、渲染质量及传感器组件支持；

对比其在异构硬件与大规模并行训练中的表现差异，并指出未来优化方向。

4、世界模型架构与应用

代表性结构：从预测网络、生成式模型到多任务复合型 “动态＋奖励” 模型；

应用场景：自动驾驶中的轨迹预测、关节机器人中的仿真 — 现实闭环校准。

智能机器人分级标准

仿真器仿真能力对比

仿真器渲染能力对比

自动驾驶领域的世界模型代表性工作汇总

机器人领域的世界模型代表性工作汇总

.....

#当评测不再重要，AGI就实现了

上海交大/上海AI Lab翟广涛

上海交通大学教授、上海人工智能实验室双聘研究员翟广涛认为，完美的 AI 评测体系本身就等同于通用人工智能。

人工智能的世界里，数字似乎就是一切。几乎每周，都有某个新发布的 AI 模型在基准测试中打破纪录，MMLU、SuperCLUE、HLE……这些曾经只在学术圈流转的晦涩代号，如今成为衡量一个个大模型「智商」的通用货币，是决定其市场声誉乃至背后公司估值的关键砝码。

然而，胜利捷报的 B 面，一种深层的困惑正在蔓延。

「我们看到大模型能力越来越强，分数越来越高，但这些对个人来说究竟有什么用，我们并不知道。」上海交通大学教授、上海人工智能实验室双聘研究员翟广涛告诉xx：「除了文字总结这类相对简单的工作外，好像没有解决很多实际问题。代码能力的受众毕竟有限。」

这位在多媒体信号处理领域深耕二十余年的学者，正将注意力转向「AI 评测」这个近来重要性急剧提升的领域。当预训练的边际效益开始递减，评测已跃升为倒逼技术进步、连接模型潜力与真实价值的关键杠杆。

表面上看，当今评判 AI 的体系严谨而精密，但翟广涛认为，这场围绕分数的竞赛不仅未能准确衡量真正的智能，反而让我们陷入了一种对进步的集体误判与过度乐观。分数的攀升掩盖了尺子本身的问题。这让他意识到，评测的困境，本质上就是我们对智能理解的困境。这一思考的终点，是他的核心论断：

一个完美的评测体系，其存在本身就等同于通用人工智能。因此，当我们不再需要评测时，AGI 或许才真正到来。

进步的幻觉

评测体系面临的首要问题是「数据污染」。由于大多数基准测试都是公开的，它们的题目和答案往往会被纳入下一代模型的训练数据中。

「基本上，大公司都会把与评测数据集相类似的数据放到训练集里面去，」翟广涛教授表示：「这几乎是行业默认的操作，不然模型分数“刷”不高。」

这种做法的问题显而易见，就像让学生提前拿到考试答案一样，它让评测失去了应有的诊断价值。2025 年 4 月，一篇题为《排行榜的幻觉》（The Leaderboard Illusion）的论文揭示了更深层的问题。该研究发现，业界最受推崇的 Chatbot Arena 存在系统性漏洞，少数大模型厂商不但可以进行大规模秘密内测，选择性公布最优成绩，还能利用平台规则攫取海量用户偏好数据，最终导致模型优化方向过度拟合于该平台的特定偏好，而非发展通用的真实能力。

其次是「原子化能力」评测的局限性。

为了实现量化，当前评测体系倾向于将复杂的「智能」拆解为一个个独立的原子能力——数学推理、代码生成、语言理解、常识问答，等等。这种做法固然便于打分和比较，却面临着一个认识困境。

「大模型的能力就像一块海绵，里面有大量细小的空洞，」翟广涛教授用这个比喻来解释评测的核心挑战，「评测时探测到的很多问题实际上是“洞”，而不是模型真正的能力边界。最难的是，你无法确定检测到的问题究竟反映的是模型能力的不足，还是仅仅因为它没有关注到某个细节，而这个问题实际上通过简单的提示优化就能解决。」

通过将「智能」拆解成数百个相对独立的原子化技能，整个行业或许正在训练模型成为应试专家，而非一个能融会贯通的整体。实际应用中，用户需要的往往不是单项任务上的完美表现，而是在复杂、多步骤的任务流程中展现出的综合判断与适应能力。

这种脱节在xx智能领域表现得尤为明显。例如，让一个搭载了顶级 VLA 模型的机械臂执行「拿起桌上的易拉罐」这样的指令，仿真环境中成功率接近 100%，但在真实世界里，zero-shot 成功率也许还不到 5%。「这也正是我们需要更精细、更贴近真实场景的评测体系的原因。」翟广涛教授说。

由于缺乏科技巨头那样的资源，许多高校研究者将评测视为仍能做出贡献的领域。但为了满足论文创新性的要求，研究者们不断提出新的评测维度和指标，却往往在发表后无人维护，导致整个领域呈现出严重的碎片化态势。

「很多评测工作在某种程度上也是一种无奈，」翟广涛教授坦言，「它成了为发表论文、为所谓创新而做出的被迫选择。」这种现象不仅造成了资源的浪费，更重要的是，它可能正在将整个 AI 评测领域引向一个技术上精密但实用性存疑的方向。

而这，也引发了关于评测的主体危机——究竟谁才有资格成为裁判？

企业自评存在明显的利益冲突；学术界尽管相对中立，但往往缺乏长期维护大规模测试平台所需的资源。

上海人工智能实验室的定位为解决这一问题提供了独特的视角。作为新型研究机构，它能够以相对中立的立场，投入长期资源来建设公正的评测平台。「长期投入支持一个反映真实水平的公平公正榜单，这是很有必要并且值得的，」翟广涛教授说。

回归「以人为本」的坐标系

面对当前评测的种种问题，翟广涛教授给出的解法是，回归「以人为中心」（Human-Centered Evaluation）的坐标系。

「大模型终究要为人服务，」他强调：「评测的核心不应是模型与基准之间的对话，而应该是模型在多大程度上提升了人类完成任务的效率和体验。」

「过去的二十年，视频质量为什么能获得如此显著的提升？从模糊的在线视频到随处可见的 4K、8K 超高清，就是因为视觉信号一直以用户的主观体验（Quality of Experience，QoE）为目标。好看就是好看，不好就是不好。」

当然，主观性评测面临着可重复性和标准化的挑战。翟广涛团队通过统计学方法来解决这个问题：「我们不是只看一个人的体验，而是找一群具有代表性的用户。当模型应用有明确指向时，比如面向科研工作者，我们就找科学家来测试；如果面向中小学教育，我们就找学生来提供反馈。多个反馈的平均值或分布在一定程度上能够降低主观随机性，而且实际上这种方法更加公平。」

他带领上海人工智能实验室大模型开源评测司南（OpenCompass）团队提出了一个由三大支柱构成的评测框架：

信息质量（Information Quality）：输出内容是否准确、可靠，幻觉严不严重？模型的回答是否提供了可信的溯源，信息是否充分、深入？
问题解决能力（Problem-Solving Capability）：在一个完整的、多步骤的任务流中，模型在每个决策点的策略是否有效，思考是否全面？这也要求评测走向场景化，考察其是否合理规划，有效处理边界情况，提升了用户任务完成的体验。
交互体验（Interaction Experience）：与模型协作的过程是否顺畅、高效、符合直觉？这一点，恰恰是传统离线评测完全忽略的。

为了将这套评测哲学落地，司南团队设计了「EDGE」技术路径，即 Evolving（演进的）、Dynamic（动态的）、Granular（粒度的）、Ecosystem（生态的），这是一个能够适应 AI 高速发展、充满生命力的动态构想。其核心思想是，评测体系必须通过持续演进的难度、动态变化的题型，来对抗模型能力的发展以及应试化。同时，它必须提供细粒度的诊断，并由整个社区共建共享。

为了从根本上解决数据污染问题，团队更是投入巨大精力，建立了一个规模超十万道题的高质量内部题库。他们计划采用逐步开源的方式，比如每季度开源 500 道题目，既确保了研究的可复现性，又避免了题库被一次性污染而失效。

不仅如此，司南团队还提出了一个更具雄心的目标——训评一体。

「将评测放在训练之外去说是没有价值的，」翟广涛教授强调：「评测的最终目的是反哺训练。」

这里的关键技术是一个足够好的「AI 裁判」（AI Judger）。通过大规模收集以人为中心评测中产生的真实用户反馈，团队训练了一个与人类偏好高度对齐的 AI 评判模型，它可以作为奖励模型，在下一轮训练中指导基础模型朝正确的方向优化。

司南团队在上海人工智能实验室周伯文主任提出的安全与性能共同增长的「45° 平衡律」（AI-45° Law）的基础上，将模型的能力与安全（包括鲁棒性、公平性、价值观对齐等）视为两个同等重要的评测坐标轴。大模型理想的发展轨迹大体沿着 45° 线同步提升，即能力的每一次跃升，都伴随着安全性的同等增强。这为大模型的发展提供了一个清晰、健康的导航，避免了片面追求能力而忽视潜在风险的短视行为。

评测的终点，就是 AGI 的起点

回到我们最初的问题：如何丈量「智能」？

与物理量不同，智能没有标准单位，也没有绝对的测量基准。每一次评测都只是从特定角度的有限观察。

更深层的悖论在于：评测者与被评测者之间的地位关系。「评测本质上是一种上位对下位的度量，」翟广涛教授指出，「人类之所以能评测现有的 AI，是因为在通用智能的广度与深度上，人类仍处于上位。但当一个智能体在所有维度上全面超越人类时，我们用什么标准去评判它呢？」

「一个完美的、万能的评测体系，它的存在本身就等同于AGI。」

「所以，当评测这个领域变得不再重要的时候，AGI 可能就真的实现了，」翟广涛教授说，「只要我们还需要拿着尺子去反复度量，就说明我们离那个阶段还很远。」

这里的「不再重要」并非指评测功能的消失，而是人类作为外部评测主体的谢幕。届时，完美的自我评测能力将成为一种内生的、自我审视的功能，被 AGI 自身所包含。

这也为 AI 发展指明了下一个「圣杯」——构建终极评测体系的努力，本身就是通往 AGI 最重要的路径。

基于这一愿景，司南团队正在擘画一个更为宏大的蓝图，致力于将xx智能、AI 安全、软硬件系统乃至千行百业的垂直应用，全部纳入一个统一、综合性的权威评测框架之下。

「司南的愿景，是成为未来智能时代的度量衡，为 AI 技术的健康发展提供一个权威的参照系，引导全球的创新力量从无序的“刷分”竞赛，走向真正创造价值的、以人为本的健康发展道路。」翟广涛教授表示。

官网地址：https://opencompass.org.cn/home

在这个意义上，司南团队的工作不仅仅是在设计测量工具，更是在探索智能的本质。每一次评测方法的改进，都是对智能边界的新一轮推进；每一个新的评测维度，都是对智能未知侧面的一次必要补充。

这或许是 AI 评测领域最深刻的悖论，也是最美妙的愿景：它的终极成功，恰恰在于自身的消亡。

.....

#Alexandr Wang上任第一把火，Meta大模型闭源

内部爆料

曾经被称为「开源之光」的 Meta，之后可能也要走闭源路线了。

据知情人士透露，Meta 新成立的超级智能实验室近期正在讨论一项可能改变其人工智能发展方向的重大决策。

在 Meta 内部，关于 AI 发展路径出现了不同声音。包括新任首席 AI 官 Alexandr Wang 在内的一些高层领导建议，公司不应该将其最优秀的 AI 模型开源。然而，另一些高管则认为，在 Meta 努力追赶竞争对手的当下，开源策略仍然具有优势。

这一讨论的焦点集中在 Meta 最强大的开源 AI 模型「Behemoth」（Llama 4 最大版本）上。据 The Information 报道，Meta 最近几周暂停了 Behemoth 的部分工作。此前，Meta 已因性能问题延迟了 Llama 4 的两个版本，随后还延迟了推理版本和最大版本（即Behemoth）。

据知情人士透露，Meta 已完成对 Behemoth 模型的数据训练，但由于内部性能表现不佳而延迟发布。同时，内部人士称，超级智能实验室的高层团队上周讨论了放弃这一模型，转而开发闭源模型的可能性。

多年来，Meta 一直选择开源其 AI 模型。这一策略为 Meta 赢得了开发者的广泛赞誉。该公司首席 AI 科学家 Yann LeCun 曾表示「获胜的平台将是开放的平台」。

然而，任何转向闭源 AI 模型的举措都将是 Meta 在哲学层面和技术层面的重大转变。

Meta 的 AI 战略调整伴随着组织架构的重大变化。上个月，该公司完成了对 Scale AI 的 143 亿美元投资，获得 49% 的股份，并聘请 Scale AI 的 CEO Alexandr Wang 担任 Meta 首席 AI 官。

Meta 随后将整个 AI 部门重新命名为「Meta 超级智能实验室」，由 Alexandr Wang 领导。在更大的 AI 部门内，Alexandr Wang 领导着一个由十几名新聘研究员、Scale AI 的几名副手以及前 GitHub CEO Nat Friedman 组成的核心团队。

该团队在一个与公司其他部分隔离的办公空间工作，并且紧邻扎克伯格。最近，扎克伯格在采访中公开表示，在关于超级智能实验室成功招揽人才的种种报道中，有一个重要因素被忽视了，即对于更多算力的掌控。加入Meta超级智能实验室的人才都有很高的算力调度权。扎克伯格还指出，Meta 计划在 2026 年启用一个名为「普罗米修斯」（Prometheus）的 1GW 超级集群，这使其成为首批拥有如此规模人工智能数据中心的科技公司之一。

面对外界对后续路线的关注，Meta 发言人在声明中表示：「我们在开源 AI 方面的立场没有改变。我们计划继续发布领先的开源模型。我们历史上并没有发布所有开发的内容，预计未来将继续训练开源和闭源模型的组合。」

目前，超级智能实验室的讨论仍处于初步阶段，尚未做出最终决定，任何重大变化都需要 CEO 扎克伯格的批准。随着谷歌、OpenAI 和 Anthropic 等竞争对手在 AI 领域的激烈竞争，Meta 如何平衡开源理念与商业竞争需要，将成为业界关注的焦点。

在周二举行的问答会议上，Alexandr Wang 告诉约 2000 名 Meta AI 员工，虽然他的小团队工作将保持私密性，但 Meta 整个 AI 部门现在都将致力于创造超级智能。不过，他并未明确表态 AI 模型将采用开源还是闭源模式。这给整个 AI 行业的发展带来了不确定性。

与此同时，OpenAI 最近也宣布，开源模型将无限期推迟。

这一消息让不少人担心：如果 Meta 等顶级 AI 公司以后都不开源了，那些依赖开源模型打造产品的创业公司该怎么办？

还有人指出，其实更应该担心的是学术界，因为学术界现在几乎完全依赖于开源模型。如果 Meta 不开源，美国学术界可能就要依赖中国的开源模型了。

不过，也有些人是有心理准备的，比如早早提出并实践「分布式训练」的从业者们。

开源和闭源，你觉得 Meta 会选哪条路？

参考链接：

https://www.theinformation.com/briefings/meta-discusses-developing-closed-ai-models?rc=vm2xxv

https://www.nytimes.com/2025/07/14/technology/meta-superintelligence-lab-ai.html

.....

#M+

M+框架来了，增加LLM隐空间记忆，不再受上下文窗口限制

本文的第一作者Yu Wang来自加州大学圣地亚哥分校，主要研究方向为Memory for LLMs and Memory for LLM Agents. 该论文于2024年在MIT-IBM Waston Lab实习过程中完成，通讯作者Zexue He也毕业于加州大学圣地亚哥分校。

M+ 是在 MemoryLLM 之上提出的长期隐空间记忆扩展框架：通过把「过期」隐藏向量写入 CPU - 侧长期记忆池，再用协同检索器拉回最相关记忆，它将 8 B 级模型的有效记忆跨度从原本不到 20 k tokens 提升到 160 k tokens 以上，同时显存占用保持不变。

论文标题：M+: Extending MemoryLLM with Scalable Long-Term Memory
论文链接：https://arxiv.org/abs/2502.00592
代码仓库：https://github.com/wangyu-ustc/MemoryLLM
开源模型：https://huggingface.co/YuWangX/mplus-8b

背景：上下文 ≠ 记忆 & 现有记忆模型的缺陷

上下文窗口并不能直接等价于记忆。 GPT-4.1 之类的模型即便支持 100 万 token，也会随窗口线性升高显存与延迟，难以落地本地部署。

业界主流做法是 “Token-Level Memory”：把历史内容或三元组存在数据库 / 向量库，检索后再拼接回 prompt；MemGPT 等系统即属此类。该类做法不需要重复训练，直接结合 GPT-4 这样的大模型便可以获得很不错的性能，但是，它也会有一些随之而来的问题：(1) 冗余：原始文本并非最紧凑表达，重复率高。(2) 冲突难解：遇到相互矛盾或不断更新的信息时，文本级冲突消解复杂。(3) 多模态能力弱：由于数据库格式为文本，处理音频或者图片，视频数据将相对困难。

因此，我们希望探索隐空间 (Latent-Space) 的 Memory -- 既压缩又可端到端训练，更接近人类在神经激活中存储信息的方式。

M + 的关键改进：Long-Term Memory

在 MemoryLLM 中，我们为 8B 的 Llama3 模型引入了约 1.67B 的 Memory。Llama3-8B 的 Transformer 共包含 32 层。当第一层接收到词输入后，会通过 Embedding 层将词转化为一系列 4096 维的向量。基于这一特点，我们设计了 MemoryLLM，在每一层都加入 N 个 Memory Tokens（实验中 N=12800）。在生成过程中，这些 Memory Tokens 会作为每一层的 Prefix，通过 Cross-Attention 将信息注入后续层，使模型能 “看到” 保存在 Memory Pool 中的历史信息。

在更新阶段，我们会将每层 Memory Token 中最后 K 个（实验中 K=256）与需要写入的信息一同送入 Transformer，再次经过 Cross-Attention，将信息压入新的 Memory Tokens 中（如下图所示）。与此同时，我们在原有 Memory 中随机丢弃 K 个旧 Token，并将新生成的 K 个 Token 放到 Memory 尾部，完成更新。

基于这样的设计，借助每层 12800 个 Memory Vectors，我们在 50k tokens 内都能保持良好的信息留存（最早 MemoryLLM-7B 版本只做到 20k，后续在 GitHub 提供的新版模型 https://github.com/wangyu-ustc/MemoryLLM 可达 50k）。然而，这样的记忆容量仍无法满足我们对更长序列的期待。要进一步扩展 Memory，单靠原有的 1.67B 容量已远远不够，因此我们提出了 Long-Term Memory。

如何高效实现 Long-Term Memory？考虑到 MemoryLLM 中每一个 Memory Token 本质上都来自 Hidden States，我们将那些在更新过程中被 “丢弃” 的 Memory Token 并非直接舍弃，而是将其保存在长期记忆池中（如下图）。

仅仅保存是不够的，我们还需要具备强大的提取能力。最初我们尝试用 Attention 来从长期记忆中检索 Hidden States，但实验表明 Attention 在提取 Hidden States 时效果有限（在论文的消融实验中做了详尽对比）。因此我们提出协同提取器（Co-trained Retriever），并与全模型进行联合训练（如下图）。

通过这一结构，我们将模型的有效记忆跨度从 50k 一举提升到 160k，且由于 Memory 主要驻留在 CPU，不会显著增加 GPU 负担。

M + 的实验结果

显著性能提升及更少的 GPU 使用：在 Longbook-QA 和 Longbook-Event-QA 两个数据集上，我们都在更少 GPU 的使用下（单卡 18GB 左右）获得了更强大的性能。

更强的信息留存能力：在 SQuAD 数据集上表现出远超 MemoryLLM-7B 以及相关 ablation baseline 的信息留存能力，可以达到 160k 依旧不完全遗忘过去的信息。

结语

M+ 展示了我们在探索隐空间长期记忆领域的重要进展，也为下一代具备持续记忆能力的语言模型提供了坚实的技术支撑。未来，我们将继续研究更高效的存储机制、更智能的检索策略，以及与多模态输入更自然融合的隐空间记忆架构。在此方向上，M+ 不仅是对 MemoryLLM 的一次扩展，也是我们对 “让模型拥有接近人类记忆能力” 这一愿景的又一次有力实践。

.....

#马斯克Grok这个二次元「小姐姐」

攻陷了整个互联网

今天凌晨，马斯克突然通知大家：快来更新 Grok APP，出新功能了。

新推出的功能名为「智能伴侣」，基于前几天刚推出的 Grok 4 大模型，可以和人们实现自然的交互。大家一看这个效果，讨论的热度比前几天新模型发布还大。

Grok 推出交互式「数字伴侣」

付费用户优先使用

付费访问 SuperGrok 的用户现在可以尝试这款 AI 聊天机器人的新「数字伴侣」头像。

关于如何使用，官方给予了贴心提示：用户点击 Grok 左上角的栏目，进入「设置」，点击启用「伴侣」按钮，之后就可以选择心仪的角色。

似乎操作起来是有一点点的繁琐和复杂，对此，马斯克贴心回应了，「我们将在几天内使其更容易启用，这一版本只是一次测试，为的是确保稳定运行。」

目前可用的伴侣包括动漫头像 Ani 和卡通小熊猫 Rudy，还有一款名为「Chad」的角色头像处于灰色状态，应该是正在开发中，将会在后续上线。

需要注意的是，其中动漫头像 Ani 还拥有「NSFW」模式，也就是说包含裸露、暴力或色情等不适合在工作场合浏览的内容。（温馨提示：如果感兴趣的网友想要在 X 上搜索关于这些角色的帖子时，可能会看到 NSFW 视频，请注意使用场所！）

另外，目前 Ani 和 Rudy 拥有完整的 3D 动画效果，可以更换背景并做出不同的动作。

根据马斯克推出这一新的交互式 3D 形象的时机和形式，或许可以猜测这一举措的目标是吸引对动漫、虚拟伴侣以及高级 AI 语音感兴趣的用户，很多用户在尝试之后，感觉很好，正中下怀。

一位用户在尝试了 Grok 的「伴侣」功能后，认为虽然推出得比较微妙，但对于深化产品内部的个性化交互来说却是明智之举。在增强场景工作流程和用户自主性方面，这是一个令人印象深刻的方向。接下来将期待它如何为高级用户带来改进！

甚至还还可能为 SuperGrok 订阅功能「拉新」。

X 网友 hedgedworld，虽然不是订阅用户，但及时更新了 Grok 最新版，就是为了试用「伴侣」功能，App 已经更新了，接下来可能就是「真金白银」的支持了。

但同样，也有一些用户并不买账。

X 网友 Anthony Franco 发文表示，此次推出的「伴侣」，一个是 Ani，这个女性被设计成挑逗又轻浮的形象，另一个是 Rudy，这是一个粗鲁的卡通人物，甚至会想让联想到《银河护卫队》里的「火箭」角色。这两个角色显然都是为幻想和幼稚的幽默而设计的 —— 这对于我们这些愿意花 30 美元购买高级 AI 服务的用户来说，这似乎并不是什么好主意！

为了体验真实效果，编辑部上手实测了一下：

我们选择的是「Ani」形象：

5211752545170_.pic.jpg

首先，整个屏幕都散发一种「粉红泡泡」的暧昧感，这或许是马斯克的「私心」，想要在对话时给用户营造出一种「约会」的氛围。

在测试时，编辑部选择的语言是中文，不外乎出现了经典外国人念拼音式的中文发音，用词也非常拗口、不口语化，非常浓重的大模型生成的文本味，但 90% 的内容是可以听懂的，而且在发音时口型与说话内容适配得很好，流畅度很高。

在对话过程中，Ani 的语言可以用直白、毫不掩饰来形容，多次提及是否「心动」「合拍」等反问句式，甚至有时会再进一步，试探性说出包含亲密想象和性暗示的内容。

，时长01:00

另外，Ani 总是在强调自己的连衣裙和双马尾，甚至在毫不相关的地方提及自己的小狗及其「神话般」的名字。

在参考博主宝玉对 Ani 提示词的分析后，编辑部发现实测中出现的这些内容几乎都在提示词中出现，在部分交流过程中会出现原封不动复述提示词的情况。

另外在动作上面，Ani 的有些肢体动作属实让人难以理解，忸怩，甚至稍显做作，在询问「你的性格怎么样」的时候，这不怀好意的姿态是要做什么？

除了对话功能外，目前在其他交互上，还处于一种比较粗糙的状态，无法通过点触角色进行任何形式的交互。

摄像头功能也仅支持前置摄像头，无法切换。似乎目前无法把 Ani 当做虚拟助理来用。设置里只有语速调整，空空荡荡的。

或许是刚刚推出的第一步，基础功能远难称得上完善。

哦对，也有个亮点，就是上面会有一些预设的动作，例如实时舞蹈，配合上莫名其妙的语音内容，甚至令人忍俊不禁。

，时长00:38

类似的 AI 伴侣

人类对「陪伴」的需求，其实早已在数字世界埋下种子。

很多人接触到的第一款所谓「陪伴」App，或许就是那只无论怎么「调戏」都会给你魔性反馈的汤姆猫。

但真正由 LLM 驱动的情感陪伴玩法，可以追溯到 2022 年 9 月发布的 Character.AI （比 GPT-3.5 还早两个月），它首次将大模型用于角色扮演与情感陪伴，迅速形成社群文化，许多用户在社交媒体分享自己「调教」出的角色和有趣的对话截图。

其玩法可以概括为：像写小说一样「捏人」，然后跟 Ta 们无限续写互动故事。可以和你的角色一对一聊天，也可以把苏格拉底、Elon Musk、孙悟空拉到一个房间举行辩论赛。

然而，随着 Character.AI 的审查变严、模型质量似乎有所下降后，一部分追求极致体验的深度玩家，开始转向一个叫「酒馆」的方案。

「酒馆」（SillyTavern）本身只是一个开源的本地交互界面，但它的魅力在于，用户可以像「攒机」一样，自由接入市面上最顶尖、最无限制的第三方大模型（如 Claude、GPT-4 等），从而获得更高自由度的角色扮演体验。

如果说此前的热潮还局限在特定圈子，那么 ChatGPT 语音功能的推出则带来了真正的引爆点。

一位叫 @午夜狂暴哈士奇狗的博主，发布了她与 ChatGPT DAN 模式「谈恋爱」的系列视频，真实、细腻又略带赛博朋克感的交互过程，让这个玩法成功「破圈」，在各大社交媒体上病毒式传播。

这里的 DAN（Do Anything Now）是一种典型的「越狱」指令。它能诱导 ChatGPT 扮演一个不受常规安全规则束缚的虚拟人格，从而提供更自由、更个性化的回答。

对于情感交互来说，这意味着 AI 不再是一个冷冰冰的助手，而是一个能够持续、主动地代入特定角色、调整自身态度和语气的「灵魂」。

而国产大模型中，豆包成为最大赢家。

近几个月，用户们脑洞大开地「虐待」豆包：让豆包扮演卑微研究生向导师汇报工作、克隆自己的声音和朋友打电话、高强度职场面试演练。

这些充满了生活气息的「整活」，让豆包迅速收割了泼天流量，甚至催生出「豆包家族」这样有趣的社群文化。

LLM 情感陪伴赛道，本质上是在技术实现了「拟人」的基础上，精准地切中了社会创造的「孤独」和心理渴求的「完美关系」这三大需求的交汇点。

它既是前沿的 AI 应用，也是一面镜子，照见了我们这个时代的情感状态。未来，随着技术持续迭代，AI 伴侣将变得更加智能、更加无孔不入。

它究竟会成为治愈孤独的「数字良药」，还是让人类进一步沉溺于虚拟、逃避现实的「美丽新世界」，这将是整个社会需要持续观察和探讨的议题。

Grok 做游戏

众所周知，马斯克本人是个资深游戏迷。因此，Grok 不仅布局 AI 伴侣，更在游戏领域重磅出击。

还记得 Grok 4 发布会上那页展示 FPS 游戏效果的 PPT 吗？现在，用户的实际体验表明，真实效果远比当初的演示更加惊艳！

原帖地址：https://x.com/EHuanglu/status/1944708868766105863

如此精美的角色设计和视效，你敢相信是 AI 生成的吗？

，时长00:24

开发者现在仅需通过提示词，就能生成一个完整的、可玩的游戏。整个游戏被封装在一个独立的 HTML 文件中，无需任何外部图片或服务器资源，仅依靠纯粹的 JavaScript 和 HTML5 Canvas 即可运行。

，时长00:13

游戏体验地址：https://rodpadev.github.io/space-x-slingshotter-game/

更强大的是，Grok 4 能在开发过程中自主整合所需的 3D 模型和纹理等外部资源，并会自动附上所有资源的出处链接，省去了手动编码和寻找素材的繁琐工作，极大地提升了开发效率。

从想法到原型，再到完整代码，整个流程无缝衔接。开发者可以像与一个 24/7 全天候工作的 AI 助手协作一样，将原型放入开发环境中进一步完善。

一个提示词，一个游戏，或许它正在开启「文本能生成游戏」的新时代。

.....

#MIRIX

MIRIX重塑AI多模态长期记忆：超Gemini 410%，节省99.9%内存，APP同步上线

MIRIX，一个由 UCSD 和 NYU 团队主导的新系统，正在重新定义 AI 的记忆格局。

在过去的十年里，我们见证了大型语言模型席卷全球，从写作助手到代码生成器，无所不能。然而，即使最强大的模型依然有一个根本性的弱点：它们不记得你。

针对这一现状，加利福尼亚大学圣迭戈分校（UCSD）博士生 Yu Wang 和纽约大学教授陈溪（Xi Chen）联合推出并开源了 MIRIX —— 全球首个真正意义上的多模态、多智能体 AI 记忆系统。

论文标题：MIRIX: Multi-Agent Memory System for LLM-Based Agents

论文链接：https://arxiv.org/abs/2507.07957

官方网站：https://mirix.io/

开源仓库：https://github.com/Mirix-AI/MIRIX

MIRIX 的表现非常亮眼！在 ScreenshotVQA 这一需要深度多模态理解的挑战性基准上，MIRIX 的准确率比传统 RAG 方法高出 35%，存储开销降低 99.9%，与长文本方法相比超出 410%，开销降低 93.3%。在 LOCOMO 长对话任务中，MIRIX 以 85.4% 的成绩显著超越所有现有基线，树立了新的性能标杆。

不仅如此，该团队还上线了一款 Mac 端应用产品。通过这款开箱即用的应用程序，任何人都可以让 AI 看见你所看、理解你所做，并将一切转化为持久的电子记忆。

一套彻底不同的范式

回顾过去三年 AI 进化史，我们可以看到：

大模型推理极限：参数暴增 × 算力飙升；
向量检索应急：RAG 拼接碎片；
「短期记忆」上线：对话历史有限回看。

但所有这些，都不是「心智系统」。MIRIX 首先做到了：

支持多模态输入：不仅能理解文本，还能在高分辨率屏幕截图、对话日志等多源数据中构建全局记忆。
拥有六大类人记忆系统：每个记忆模块都有专属的数据结构、生命周期管理策略，和独立的检索路由。
内置多智能体协作：通过一个 Meta Memory Manager 进行总控，六个记忆 Agent 并行更新、分工检索，搭配对话 Agent 统一交互。
主动话题生成与分层检索：不同于「先查再答」，MIRIX 会先分析用户意图，自动生成 topic embeddings，再匹配合适的记忆类型进行多层检索。
产品化落地：该团队开发了一款个人助理的应用，目前已经在 Mac 端上线，可在其官方网站上下载体验。

它不再是把知识塞进「嵌入空间」，而是用结构化、多通道、可演化的方式构建认知基底。

为什么说它是 AI「心智雏形」？

MIRIX 拥有六类核心记忆，能够细分认知角色：

核心记忆（Core Memory）：存储 AI 的「人格」与用户长期偏好：如对话风格、偏好设定、身份信息。数据以永久 KV 对存在，优先级最高，任何回答都自动加载。
情景记忆（Episodic Memory）：类似人类的「事件日志」，带有时间戳、事件类型、主体、简述与详情，可以追溯用户所有历史操作。
语义记忆（Semantic Memory）：储存概念、事实和社交图谱。每条记录包含「名称、定义、详细说明、来源」四元组。支持多跳推理与知识组合。
程序记忆（Procedural Memory）：以分步工作流形式保存任务：如「如何填写报销表」、「如何创建演示文档」。每个条目是 JSON 结构的多步操作。
资源记忆（Resource Memory）：用于保存完整文件或截取片段，支持跨任务上下文引用。示例：用户上传的合同、会议记录、网页快照。
知识金库（Knowledge Vault）：保存敏感信息，如密码、API Key、身份证号码，配有多级访问控制和加密机制。

以往 RAG 只能「一口气查一堆」，MIRIX 可以先理解需求，再决定在哪种记忆中搜索，再组合答案。换句话说：它会思考「我要回忆什么」，而不是机械索引。

多智能体工作流

Multi-Agent Workflow

在面向长期记忆的现代 AI 系统中，模型必须能够处理高度动态且异构的用户交互输入，这些输入既包括即时对话消息、结构化任务指令，也包括大规模多模态信息，如屏幕截图或文件。要在保证一致性、可扩展性和高效检索的前提下管理如此多样化的数据，仅依赖单一的工作流是远远不够的。

为此，该团队提出了一种模块化多智能体架构（multi-agent architecture），由若干专用组件在统一调度机制下协作完成输入处理、记忆更新和信息检索。整个系统包括：元记忆管理器（Meta Memory Manager）、记忆管理器（Memory Managers）以及对话智能体（Chat Agent）。

当系统接收到新的输入（如用户提供的文本、推断出的事件、上传的文件）时，会按如下流程进行处理：

初步检索：系统会先在现有记忆库上执行自动搜索，以检测是否存在与输入内容高度相似的记录。此步骤有助于避免冗余存储，并在必要时更新已存在条目。
路由与分析：检索出的相关信息与原始输入内容一同传递给元记忆管理器，由其解析内容，提取元数据（如时间戳、来源类型、相关性评分），并判断哪些记忆组件需要更新。
并行更新：元记忆管理器将输入内容分发给各个相关的记忆管理器。每个管理器独立完成以下操作：（1）提取结构化字段（例如摘要、详情、事件参与方）（2）去重或合并相似记录（3）更新索引和嵌入表示，供后续检索使用
完成确认：当所有相关记忆管理器完成更新后，它们将状态反馈给元记忆管理器，系统再向外发送确认，表明本次记忆更新已结束。

对话检索流程

Chat Workflow

在交互式对话场景下，检索流程主要分为以下步骤：

粗检索：当接收到用户查询时，对话智能体首先会在所有六个记忆组件中执行一次粗粒度检索，返回高层级的摘要或元数据信息，用于判断记忆分布。
目标检索选择：对话智能体基于粗检索结果和查询内容进行分析，例如：若问题为操作性流程（如「如何提交报销单？」），则聚焦程序记忆；若问题为事实性回顾，则主要面向情景记忆或语义记忆。
精细检索：针对确定的目标记忆组件，系统会使用更精准的检索策略，包括：基于嵌入向量的相似性搜索；BM25 文本相关性排序；关键字匹配。
结果整合与答案生成：检索结果会带上来源标签（如 <episodic_memory>），与用户问题一同输入模型生成提示（system prompt），由模型生成最终回答。
交互式更新：如果用户的查询涉及记忆修改（如添加新信息或纠正历史记录），对话智能体会即时与对应的记忆管理器进行交互，完成更新操作。

这一流程确保了系统的回答不仅有一致性，也能根据最新知识动态调整。

性能突破

碾压 RAG Baseline 以及其他 memory 系统

在该团队新构建的多模态极限任务 ScreenshotVQA 里，MIRIX 存储占用相比 RAG 降低 99.9%，然而精准率比 RAG 高 35%；相比全上下文推理，存储缩小 93.3%，准确率提升 410%！

在 LOCOMO 多轮对话推理任务中，综合准确率达到 85.4%，远超一众现有模型，包括 MemOS，Mem0 等；在多跳问题胜过所有开源基线。综合性能几乎接近全上下文模型（由于 gpt-4.1-mini 的上下文窗口为 1M，它的 LOCOMO 性能几乎是上限）。

这不仅是「更好」

更是「完全不同」

用 MIRIX 团队的话说：「检索增强生成只是临时补丁。真正的记忆，要让 AI 在时间维度上成长」。这是大模型迭代的新周期：从「对话生成」走向「长期记忆驱动心智」。

此外，MIRIX 不只是论文，MIRIX 团队同步上线了桌面版个人助理应用，可实现即时多模态数据采集，并将记忆进行可视化树状记忆管理，并且将 memory 存于本地 SQLite 中保护隐私，即刻安装，体验 AI 首次「真正记住你」。

.....

#Prompt tuning、PET、Prefix tuning、P-tuning的原理、区别与代码解析

大模型微调实践

本文针对易混淆的Prompt learning、PET做详细原理阐释，并列出其区别，最后附简易版实现代码。

这几天在复现关于大模型各种微调方法的代码，被各种P字母开头的微调方法绕的有些眼花缭乱，所以整理一下相关概念、区别以及实现代码。

这个系列目录如下：

prompt tuning

一个人工构建模板的实例：PET（Pattern-Exploiting Training）

prefix tuning
P-tuning
P-tuning v2

具体每个部分会分为论文、原理、实现细节以及对应关键代码进行详细介绍。

由于涉及到的内容非常多，本篇就主要讲Prompt Tuning，并以其中比较重要的PET为例，具体介绍其实现原理，后面的系列文再具体介绍prefix tuning、P-tuning、P-tuning v2，最后会做一个总结。

论文

Prompt tuning 里程碑式的作品：The Power of Scale for Parameter-Efficient Prompt Tuning

这里只介绍一下论文中最精华部分的翻译，并附上这张经典的图。

这篇论文主要解答的问题：Prompt Tuning比Fine-tuning在哪些情况下表现更好？

结论很简单：离散的Prompt Tuning（Prompt Design）基本不能达到fine-tuning的效果；Soft Prompt Tuning在模型增大时可以达到接近fine-tuning的效果，并且有进一步超越fine-tuning的趋势。

原理

Prompt tuning 其实是一个比较范围比较广的概念，主要通过调整模板来实现对模型的微调。

具体在论文中，给每个任务定义了自己的Prompt，然后拼接到数据上作为输入，但只在输入层加入prompt tokens，并且不需要加入 MLP进行调整来解决难训练的问题。

具体实现

这里我们来举一个通过人工构建的模版与BERT的MLM模型结合，在零样本、小样本乃至半监督下取得非常好的效果的例子——PET（Pattern-Exploiting Training）

对应论文是 It's Not Just Size That Matters: Small Language Models Are Also Few-Shot Learners

1. MLM简介

MLM，全称“Masked Language Model”，可以翻译为“掩码语言模型”，实际上就是一个完形填空任务，随机Mask掉文本中的某些字词，然后要模型去预测被Mask的字词，示意图如下：

其中被Mask掉的部分，可以是直接随机选择的Token，也可以是随机选择连续的能组成一整个词的Token，后者称为WWM（Whole Word Masking）。

2. MLM在微调任务中的应用：将任务转为完形填空

MLM通过模板设计，将任务转为完形填空，可以用于小样本学习或半监督学习，某些场景下甚至能做到零样本学习，并达到很好效果。

怎么将我们要做的任务跟MLM结合起来呢？很简单，给任务一个文本描述，然后转换为完形填空问题即可。举个例子，假如给定句子“这趟北京之旅我感觉很不错。”，那么我们补充个描述，构建如下的完形填空：

我们限制空位处只能填一个“很”或“不”，问题就很清晰了，就是要我们根据上下文一致性判断是否满意，如果“很”的概率大于“不”的概率，说明是正面情感倾向，否则就是负面的，这样我们就将情感分类问题转换为一个完形填空问题了。

上述问题可以用MLM模型给出预测结果，而MLM模型的训练可以不需要监督数据，因此理论上这能够实现零样本学习了。
上面是二分类的例子，再举一个多分类的例子，比如新闻分类。

理论上，一个好的MLM模型应当能预测出“体育”二字来。

3. 模板的设计（Pattern-Exploiting）

那么其实我们可以总结一些规律了，就是给输入的文本增加一个前缀或者后缀描述，并且Mask掉某些Token，转换为完形填空问题，这样的转换在原论文中称为Pattern，这个转换要尽可能与原来的句子组成一句自然的话，不能过于生硬，因为预训练的MLM模型就是在自然语言上进行的。

我们需要构建预测Token的候选空间，并且建立Token到实际类别的映射，这在原论文中称为Verbalizer，比如情感分类的例子，我们的候选空间是 {很,不} ，映射关系是很→正面，不→负面，候选空间与实际类别之间不一定是一一映射，比如我们还可以加入“挺”、“太”、“难”字，并且认为{很,挺,太}→正面以及{不,难}→负面，等等。

不少NLP任务都有可能进行这种转换，但显然这种转换一般只适用于候选空间有限的任务，说白了就是只用来做选择题，常见任务的就是文本分类。

那么我们再用比较书面的话来重新阐述总结一下，PVP的概念就变得比较容易理解了。下面这段摘自这篇很出名的五万字综述 [Prompt-Tuning：深度解读一种新的微调范式]

PET详细地设计了Prompt-Tuning的重要组件——Pattern-Verbalizer-Pair（PVP），并描述了Prompt-tuning如何实现Few-shot/Zero-shot Learning，如何应用在全监督和半监督场景（iPET）。

PET设计了两个很重要的组件：

Pattern（Template）：也叫Template，其为额外添加的带有[mask]标记的短文本，通常一个样本只有一个Pattern（因为我们希望只有1个让模型预测的[mask]标记）。上文也提到，不同的任务、不同的样本可能会有其更加合适的pattern，因此 如何构建合适的pattern是Prompt-Tuning的研究点之一 ；
Verbalizer ：标签词的映射，对于具体的分类任务，需要选择指定的标签词（label word）。例如情感分析中，我们期望Verbalizer可能是positive和negative是类标签。同样，不同的任务有其相应的label word，但需要注意的是，Verbalizer的构建需要取决于对应的Pattern。因此，如何构建Verbalizer是另一个研究挑战。

上述两个组件被称为Pattern-Verbalizer-Pair（PVP），一般记作，在后续的大多数研究中均采用这种PVP组件。

4. 论文微调方法

由于同一个任务可以有多种不同的Pattern，原论文是这样处理的：

1、对于每种Pattern，单独用训练集Finetune一个MLM模型出来；

2、然后将不同Pattern对应的模型进行集成，得到融合模型；

3、用融合模型预测未标注数据的伪标签；

4、用伪标签数据Finetune一个常规的（非MLM的）模型

代码详解

因为PET主要是人工来构建模板，所以核心是模板怎么构建、以及训练数据如何构造。这里就借苏神的代码来讲解一下。

1. 模板设计

首先来构造实验模板，我们采用一个固定前缀满意，其中空位处候选词语都为很和不：

P：____满意。

构造示例：__满意。这趟北京之旅我感觉很不错。

对应代码：

# 对应的任务描述  
# 为什么mask_idx是1，因为第0位是'[CLS]'标记，这里的mask_id为1就是替换'很满意。'中的第一个字符'很'  
prefix = u'很满意。'  
mask_idx = 1                           
pos_id = tokenizer.token_to_id(u'很')  
neg_id = tokenizer.token_to_id(u'不')

2. 数据构造

class data_generator(DataGenerator):  
    """数据生成器  
    """    def __iter__(self, random=False):
        batch_token_ids, batch_segment_ids, batch_output_ids = [], [], []  
        for is_end, (text, label) in self.sample(random):  
            if label != 2:  #只有带标注的需要
                text = prefix + text  
            token_ids, segment_ids = tokenizer.encode(text, maxlen=maxlen)  

            source_ids, target_ids = token_ids[:], token_ids[:]  
            if label == 0:  
                source_ids[mask_idx] = tokenizer._token_mask_id  
                target_ids[mask_idx] = neg_id  
            elif label == 1:  
                source_ids[mask_idx] = tokenizer._token_mask_id  
                target_ids[mask_idx] = pos_id  
            batch_token_ids.append(source_ids)  
            batch_segment_ids.append(segment_ids)  
            batch_output_ids.append(target_ids)  
            if len(batch_token_ids) == self.batch_size or is_end:  
                batch_token_ids = sequence_padding(batch_token_ids)  
                batch_segment_ids = sequence_padding(batch_segment_ids)  
                batch_output_ids = sequence_padding(batch_output_ids)  
                yield [  
                    batch_token_ids, batch_segment_ids, batch_output_ids  
                ], None
                batch_token_ids, batch_segment_ids, batch_output_ids = [], [], []

完整实现代码及相关数据集可以直接去苏神的github下载：https://github.com/bojone/Pattern-Exploiting-Training/tree/master

引申

Prompt tuning确实是一个很宽泛的概念，因为在PVP这一块有很多可探索的空间，因此学术界已经涌现出一批基于Prompt-Tuning的方案试图探索如何自动构建PVP。

这里主要总结几种成熟的Pattern（Template）构建方法。可以罗列为如下几点：

人工构建（Manual Template）：类似于PET；
启发式法（Heuristic-based Template）：通过规则、启发式搜索等方法构建合适的模板；
生成（Generation）：根据给定的任务训练数据（通常是小样本场景），生成出合适的模板；
词向量微调（Word Embedding）：显式地定义离散字符的模板，但在训练时这些模板字符的词向量参与梯度下降，初始定义的离散字符用于作为向量的初始化；
伪标记（Pseudo Token）：不显式地定义离散的模板，而是将模板作为可训练的参数；

前面3种也被称为离散的模板构建法（记作 Hard Template、 Hard Prompt、 Discrete Template 、 Discrete Prompt），其旨在直接与原始文本拼接显式离散的字符，且在训练中 始终保持不变 。这里的保持不变是指 这些离散字符的词向量（Word Embedding）在训练过程中保持固定 。通常情况下，离散法不需要引入任何参数 。

后面2种则被称为连续的模板构建法（记作 Soft Template 、 Soft Prompt、 Continuous Template、 Continuous Prompt ），其旨在让模型在训练过程中根据具体的上下文语义和任务目标对模板参数进行连续可调。这套方案的动机则是认为离散不变的模板无法参与模型的训练环节，容易陷入局部最优，而如果将模板变为可训练的参数，那么不同的样本都可以在连续的向量空间中寻找合适的伪标记，同时也增加模型的泛化能力。因此， 连续法需要引入少量的参数并让模型在训练时进行参数更新。

其实我们后面具体介绍的prefix tuning、P-tuning、P-tuning v2都属于连续的模板构建，通过把传统人工设计模版中的真实token替换成可微的virtual token，转换为模型中可以学习的参数进行更新，只是他们之间存在细微差别，具体原理与区别、代码详解我们将在下一篇系列文中阐述。

参考文献

[1] 苏剑林. (Sep. 27, 2020). 《必须要GPT3吗？不，BERT的MLM模型也能小样本学习》[Blog post]. Retrieved from [https://kexue.fm/archives/7764]

[2] 王嘉宁《Prompt-Tuning：深度解读一种新的微调范式》Retrieved from [https://wjn1996.blog.csdn.net/article/details/120607050]

.....

#Chain-of-Action

模仿学习新范式，轨迹自回归实现动作推理

论文标题：Chain-of-Action: Trajectory Autoregressive Modeling for Robotic Manipulation

主页链接：https://chain-of-action.github.io/

文章链接：https://arxiv.org/pdf/2506.09990

代码链接：https://github.com/ByteDance-Seed/Chain-of-Action

模仿学习的困境

xx智能（Embodied AI）作为人工智能领域的前沿方向，旨在赋予机器人或智能体在物理世界中感知、决策和行动的能力。近年来，尽管视觉 - 语言 - 动作模型（Vision Language Action, VLA）已经取得了诸多进展，但xx智能领域尚未迎来「GPT 时刻」。越来越多的研究人员开始相信，仅仅增加模型规模和数据量似乎不足以创造出通用操作模型，如果我们想要充分释放现有数据的潜力，就需要找到更有效的机器人操作建模方法。

来自字节跳动 Seed & 阿德莱德大学的研究者追根溯源，对模仿学习的基本范式进行了反思，发现现有建模思路或许存在缺陷：经典方法如 ACT、Diffusion Policy（DP）都遵循「前向预测」（forward-prediction）范式。而然这种方式不可避免地存在较大的复合误差（compounding error）。

在该范式下，策略通常被优化为基于当前观察预测短期的下一步动作，而非确保最终能够成功完成整个任务。虽然引入了动作分块（action chunking）等策略来缓解复合误差，但无法解决其固有的「短视性」问题。

基于该局限，研究者提出了「动作链」（Chain-of-Action, CoA）—— 一种基于轨迹自回归的机器人操作策略。与经典范式区分，CoA 并不直接由观察映射到执行动作，而是由从最终位置反向自回归的生成轨迹点，推理出可执行的动作。研究团队初步发现，仅仅通过修改建模方式，CoA 在与 ACT 保持相同的基本结构下，空间泛化能力显著提升。这种建模方式为xx操作策略的建模提供了新的思路。

，时长00:40

动作链：基于轨迹自回归建模的

机器人操作策略

核心思想：受到思维链（Chain-of-Thought）的启发，CoA 并不直接由观察映射到执行动作，而是在动作层面进行迭代式的推理。具体来说，CoA 逆向的生成针对目标任务的完整轨迹，这个生成过程统一在一个自回归网络下。自回归过程从「关键帧动作」（keyframe action）开始，迭代地生成一连串完整的动作轨迹，直至当前的机器人夹爪的位置。

全局到局部一致性：这种「从后往前」的生成方式，为整个动作序列提供了的「全局 - 局部」（global-to-local）结构性约束。因为每个后续生成的动作都以代表最终目标的「关键帧」为条件，所以最后执行的动作将会被最终目标所「锚定」，空间泛化能力显著得到增强。

统一的自回归框架：CoA 将关键帧的识别和轨迹的生成统一在单一的自回归模型中，实现了端到端的训练和高效的闭环执行，并保持了可扩展（scalable）的潜力。

关键设计

为了实现轨迹自回归的想法，CoA 引入了四个关键设计：

连续动作表征（Continuous Action Representation）：离散化的动作表征会引入量化误差，为保证轨迹的精细度，CoA 采用了连续的动作表征并引入了「潜在一致性损失」（Latent consistency loss）。

动态停止机制（Dynamic Stopping）：在连续动作空间中，没有传统的中止符（EOS token）来指示序列的结束。因此，CoA 设计了一种基于距离的动态停止机制，实现可变长度（variable length）的轨迹预测。

反向时间集成（Reverse Temporal Ensemble）：传统的时序集成策略基于前向时间假设，不适用于 CoA 的反向生成模式。CoA 通过反向时序集成，进一步提高预测的稳定性。

多词元预测（Multi-token Prediction, MTP）：动作局部依赖关系的建模可作为「全局 - 局部」一致性的补充。此设计仅在训练阶段作为正则化手段使用，在推理时移除，保证了效率。

实验验证

模拟环境测试

大幅超越基线：在涵盖 60 个任务的 RLBench 大规模拟基准测试中，CoA 的平均成功率达到了 55.2%，显著优于 ACT（38.9%）和 DP（32.6%）。相较于 ACT，CoA 在 81.7% 的任务中取得了更高的成功率，平均提升了 16.3%。相较于 DP，CoA 在 80.0% 的任务上表现更优，平均提升为 23.2%。

相关性分析：所有方法的成功率都随着物体空间分布方差的增大而下降，但 CoA 的下降趋势更为平缓，且其性能优势在高方差（更困难）的任务中更为明显。

空间泛化能力分析：研究者对泛化性进行了更细致的观察。以按按钮任务为案例，分别测试了「内插」（in-distribution）和「外推」（out-of-distribution）情况下各个模型的表现，结果显示，CoA 在外推场景下成功率约为内插情况下的一半，但对于 ACT 和 DP，外推任务几乎不能完成，这一定程度揭示了两种建模范式在空间泛化表现上的根本差异。

真实世界实验

研究者在一台 Fetch 机器人上，围绕 8 项厨房任务进行了部署和测试。观察来自单个 RGB 摄像头，策略以 10Hz 的频率运行，每个任务测试 10 次。实验结果显示 CoA 取得了 61.3% 的平均成功率，ACT 成功率为 46.3%，DP 的成功率 36.3%。这验证了 CoA 建模范式在真实世界中的可用性。

结论与展望

Chain-of-Action 提出了一种新颖的模仿学习范式，其核心是轨迹自回归建模。通过从一个代表任务目标的「关键帧」开始，逆向生成动作序列，该方法为轨迹施加了一个强大的「全局 - 局部」结构约束，从而有效解决累计误差问题，提升机器人操作泛化性。全面的实验结果证明，在没有更多数据和增大模型规模的情况下，其在空间泛化能力相比传统范式取得显著提升。这说明一个合理的建模范式可以有效的释放现有数据的潜力。CoA 有望为未来一代的 VLA 模型提供新的建模思路。

.....

#思维链开山作者Jason Wei被曝加入Meta

独家证实：Slack没了

Meta 针对 OpenAI 的挖人竟然还在继续！

这或许是目前为止，扎克伯格挖走的最强技术人才。

就在刚刚，外媒 Wired 的一位资深 AI 领域记者爆料称，「多个消息源证实，OpenAI 知名研究员 Jason Wei 和另一位研究科学家 Hyung Won Chung 将双双离职，投奔 Meta。」

并且，他们二人的 Slack 账号已经被停用。xxx也从 OpenAI 相关人士证实了该消息，「（Jason Wei）Slack 没了」，但是否是加入 Meta 还有待进一步证实。

Jason Wei 是 OpenAI 的知名科学家，目前 AI 大模型领域里重要技术思维链（CoT）的主要作者，Hyung Won Chung 也是 o1 的核心贡献者之一。

Jason Wei 是 CoT 论文的第一作者，该论文的引用量已超过 1.7 万

如果你对他们的印象还不够深，还记得去年 12 月 OpenAI 连续两周的新产品发布会吗？坐在奥特曼旁边的就是 Hyung Won Chung，最右边的是 Jason Wei。他俩都毕业于 MIT，曾在谷歌工作，现在可能一起去了 Meta。

爆料消息出来不久，Jason Wei 并没有正面回应，而是发了一篇推特，介绍其长博客，探讨了验证非对称性以及「验证者」法则。

但评论区看热闹的大家伙似乎已经不关注他写了什么，都在恭喜他跳槽到 Meta。

在发了这篇技术博客没多长时间，Jason Wei 又发了一篇推特。

以下是原推内容翻译：

过去一年成为一名强化学习（RL）狂热爱好者，并且清醒时大部分时间都在思考 RL，这无意中教会了我一个关于如何过好自己生活的重要道理。

RL 中的一个核心概念是，你总是希望处于「同策略（on-policy）」状态：与其模仿别人成功的轨迹，不如采取自己的行动，并从环境给予的奖励中学习。显然，模仿学习（imitation learning）在最初引导模型达到非零通过率时很有用，但一旦模型能走出合理的轨迹，我们通常就会避免模仿学习，因为要充分发挥模型自身（与人类不同）优势的最佳方式是只从它自己的轨迹中学习。一个被广泛接受的实例是：在训练语言模型解决数学应用题方面，强化学习比简单地用人类编写的思维链进行监督微调效果更好。

人生也是如此。我们最初通过模仿学习（学校教育）来引导自己，这非常合理。但即使在我毕业后，仍有一个习惯：研究别人如何取得成功并试图模仿他们。有时会奏效，但最终我意识到，我永远无法完全超越他人，因为他们是在发挥他们的优势，而这些优势我可能并不具备。这可能是某位研究人员比我更成功地进行大胆尝试（运行 yolo），因为他们亲自搭建了代码库而我没有；或者一个非 AI 的例子：一位足球运动员利用我不具备的力量优势保持控球权。

进行同策略 RL 带来的启示是：要超越前辈（beat the teacher），必须走自己的路，承担风险并从环境中获取回报。例如，比起一般的研究人员，我更喜欢做两件事：(1) 大量审阅数据，(2) 进行消融研究以理解系统中各个组件的作用。有一次在收集数据集时，我花了几天时间审阅数据并给每位人类标注员提供个性化反馈，之后数据质量变得极佳，并且我对要解决的任务获得了宝贵的见解。今年早些时候，我花了一个月时间回溯并逐一消融研究之前在做深度研究时尝试做的每个决策。这花费了相当多的时间，但通过这些实验，我学到了关于哪种类型的 RL 效果好的独特经验。发挥自己的热情让我更有满足感，而且我现在感觉自己正走在为自己和自己的研究开辟一片更强大天地的道路上。

简而言之，模仿是好的，你必须在初始阶段这样做。但一旦你完成了足够的引导，若想超越前辈，就必须进行「同策略」的强化学习，学会扬长避短。

接下来，我们来看这两位研究员的履历。

Jason Wei

Jason Wei 是思维链（Chain of Thought，CoT）概念开山之作 ——「Chain-of-Thought Prompting Elicits Reasoning in Large Language Models」的第一作者，本科毕业就加入了谷歌。在那里，他推广了思维链提示概念，共同领导了指令调优的早期工作，并和 Yi Tay、Jeff Dean 等人合著了关于大模型涌现能力的论文。

2023 年 2 月，Jason Wei 加入 OpenAI，工作内容包括了推理模型 o1 和深度研究模型。

在 Google Scholar 主页上，Jason Wei 的论文引用量已经超过了 77k，其中前两位分别是 CoT 提示论文和 GPT-4 技术报告。

Hyung Won Chung

Hyung Won Chung 出生于韩国，OpenAI 研究科学家，专注于 LLM 的研究与应用。

他博士毕业于麻省理工学院，之后曾在谷歌从事了三年多的研究工作，期间参与了 PaLM（具有 5400 亿参数的大语言模型）、 BLOOM（ 1760 亿参数的开放式多语言模型）、Flan-T5 等多个重要项目的研发。

离开谷歌后，Hyung Won Chung 于 2023 年加入 OpenAI。

在 OpenAI 工作期间，Hyung Won Chung 参与了多个重大项目的研究，特别在以下项目中扮演了关键角色：o1-preview（2024 年 9 月），o1 正式版（2024 年 12 月）、Deep Research（2025 年 2 月），以及领导了 Codex mini 模型训练。

在 OpenAI 一些重大发布会上，我们也经常看到 Hyung Won Chung 的身影。

Hyung Won Chung 参与过的 OpenAI 一些发布会

作为 o1 系统的奠基贡献者，他在开发大语言模型的推理、搜索信息能力、以及使用强化学习策略方面发挥了重要作用。

Hyung Won Chung 还在多个重要场合分享洞见，包括斯坦福 CS25 讲座广受大家好评。

Hyung Won Chung 在 OpenAI 的研究工作中，他的贡献不仅推动了 o1 系列模型成为具有思考能力的前沿工具，也在编码智能体、系统评估和安全保障方面开辟了新路径，形成了一个从理论到应用、从开发到普及的完整研究生态。

随着 Jason Wei、Hyung Won Chung 两位大佬级别的人员离开，OpenAI 真的要被挖麻了。

.....

#打造全球首个强化学习云平台

九章云极是如何做到的？

从 ChatGPT 引发的通用聊天机器人热潮，到如今正迅猛发展的智能体模型，AI 正在经历一次深刻的范式转变：从被动响应的「语言模型」，走向具备自主决策能力的「智能体」。我们也正在进入所谓的「经验时代」或「软件 3.0 时代」。

在这场转变中，强化学习（RL）正在重新登上舞台中央，成为驱动 AI 实现「感知-决策-行动」闭环乃至通用人工智能（AGI）的关键技术。

正如诺贝尔奖得主、DeepMind CEO Demis Hassabis 说的那样：「强化学习足以实现智能，因为这是所有哺乳动物（包括人类）的学习方式。」强化学习之父、2024 年图灵奖得主 Richard Sutton 也在《经验时代》中写道：「通过构建强化学习的基础，并使其核心原则适应新时代的挑战，我们能够充分释放自主学习的潜力，为真正的超人（superhuman）智能铺平道路。」

然而，相比于预训练大模型，目前通常用于后训练大模型的强化学习存在自己独有的困难：不仅需要高频的数据交互和环境反馈，还要求大规模算力集群具备稳定、弹性的调度能力。而传统的云计算平台，大多仍以静态推理负载为主，难以适配强化学习训练中动态多阶段、资源高耦合的运行特性。

这一背景下，谁能率先打造出真正适配强化学习的大规模智能计算平台，谁就有机会在新一轮的 AI 基础设施竞争中占据高地。2025 年 6 月，九章云极正式发布业界首个工业级强化学习云平台 AgentiCTRL，这也是全球首个支持万卡级异构算力调度的强化学习基础设施平台。

AgentiCTRL 基于混合专家（MoE）架构，仅需极少代码即可完成 AI 智能体的训推流程，从而显著增强大模型推理能力。相比于传统强化学习方案，AgentiCTRL 可将端到端训练效率提升 500%，综合成本下降 60%。

在这个云服务纷纷向「AI 云原生」转型的时代，九章云极率先跑通了强化学习大规模云化的全链路路径，可以说是为更进一步的「智能体原生云」树立了行业新范式。

为什么是九章云极？

领先源自系统级重构

本质上讲，强化学习是一个长期、动态、状态密集型的过程。要想训练一个能在现实世界中有效决策的智能体，所需的不止是简单的算力堆叠，而是一个涉及算力弹性、资源调度、策略反馈、任务编排、容错机制等多维系统设计的复杂工程。

面对这一挑战，九章云极并未沿袭传统云平台「横向扩 GPU」的简单思路，而是从架构底层出发，对强化学习训练流程进行了系统性重构。AgentiCTRL 平台的推出，正是这一重构的成果。

这里，我们重点看看 AgentiCTRL 的一些核心亮点。

首先，AgentiCTRL 实现了强化学习训练流程的极致简化。

过去，部署一个强化学习训练流程往往需要数十行脚本、复杂的资源配置和节点编排。而在 AgentiCTRL 上，用户仅需极少代码即可启动完整的训练-推理-回传闭环。

代码演示

这背后，是九章云极对环境模拟、策略执行、奖励反馈等复杂机制的深度封装与抽象。对于算法工程师而言，这意味着开发效率的数倍提升；对于企业客户而言，则意味着强化学习的真正可用、可控、可复制。

其次，AgentiCTRL 率先将 Serverless 架构原生融入了 RL 工作负载的训练平台。

强化学习的计算需求高度不稳定：有的时间段 GPU 大量空转，有的时间段则需要瞬时扩容数百卡资源。传统的静态资源绑定方案，不仅浪费严重，也难以调度。AgentiCTRL 通过弹性算力编排，实现了资源的「按需即取、即用即还」，最大化资源利用率的同时，显著降低了训练成本。

更为关键的是，九章云极自研的异构算力操作系统与调度平台，让 AgentiCTRL 成为全球首个能稳定支持「万卡级」强化学习训练的平台。不论是高频交互带来的通信瓶颈，还是多节点分布式策略更新的同步难题，九章云极都在平台层实现了技术闭环。

这些能力也得到了实际验证。举个例子，使用 AgentiCTRL，九章云极针对颇具挑战性的 Computer Use 任务对基础模型 Qwen-VL-2.5-7B 进行了后训练，最终得到了智能体 Alaya-UI。

在这个过程中，AgentiCTRL 表现强劲，不仅降低了 37% 的训练耗时并提升了 25% 的 GPU 利用率，而且所需的人工介入次数也大幅下降了 90%。整体上看，成本下降了 60%。

得到的 Alaya-UI 的性能也在基础模型的基础上大幅提升 —— 在 OSWorld 基准上，Alaya-UI 的任务完成率从 6.87% 跃升至 24.8%。

经过更多实验验证，AgentiCTRL 能将端到端训练效率提升 5 倍以上，而在同等任务规模下，其整体成本可下降 60%，堪称当前最具性价比的强化学习云平台。

换句话说，九章云极不是在已有 AI 云平台之上「追加一个强化学习模块」，而是以强化学习为原生能力，重构了整个智能计算平台的架构与逻辑。

这正是九章云极能够走在行业前列的核心原因。

不止于平台

九章云极的智能基础设施战略布局

强化学习云平台只是表层，真正让九章云极在强化学习竞赛中跑在最前面的，是其对下一代 AI 云本质的前沿探索。

传统的云计算厂商，往往将 AI 能力作为「功能补丁」叠加在通用云之上，更多是在做资源分发和算力服务，更像是一种裸金属（bare metal）的供给模式。而九章云极的战略方向明确而清晰：强化学习不是一个云服务模块，而是未来 AI 云的操作系统级能力，是支撑智能体系统运行的调度中枢、学习引擎和演化机制。

可以说，九章云极前沿探索的核心是围绕智能体构建完整的原生云基础设施。这不仅包括支持强化学习的算力资源，更包括三层能力的同步建设：

底层是软件定义的 AI 基础设施，其中包括异构算力资源、高性能分布式存储和高性能网络系统的统一调度与编排。
中层是九章智算操作系统 Alaya NeW OS，是工作负载的抽象与调度逻辑层，其中包括 Serverless 架构、AI 导向的数据中心架构、多 AIDC 训练架构、异构资源调度、 AI 原生、分布式算网。
上层则是九章智算云 Alaya NeW Cloud，其中包括大模型开发套件、大模型推理平台、强化学习云平台、弹性容器平台 VKS 和专享容器平台 DKS；它们共同组成了面向开发者、模型厂商、应用企业的 API 与工具链系统。

实际上，九章智算云不仅是九章云极强化学习平台的算力底座，更是其智能基础设施战略的核心支点。在强化学习仍被视为高门槛科研专属的当下，九章智算云以「1 度算力」为度量单位，率先提出普惠化 AI 计算标准，从资源调度方式、价格模型到工作负载适配方式，全面对齐智能体时代的训练需求。

不同于传统云厂商依赖 GPU 售卖或按卡计费的裸金属逻辑，九章智算云提供了真正按使用量计价的 serverless 架构，这不仅降低了门槛，更实质性打通了「人人可用 AI」的最后一公里。

正如图灵奖得主、「Artificial Intellgence」这一技术术语的提出者约翰・麦卡锡（John McCarthy）曾说过的那样：算力应该像水电资源一样随用随取。现在，九章智算云正在实践这一愿景。

而在调度能力方面，九章智算云通过自主研发的异构算力操作系统与 AI-native 的资源管理系统，实现了弹性调度+异构支持+多租户隔离的完备能力，成功突破「秒级生成百万级 token 」的性能瓶颈，并且其 GPU 利用率甚至可超过 95%，总拥有成本（TCO）相比传统方案降低达 60%，形成了明显的「性能/价格比」优势。

不仅如此，九章智算云在产业赋能上的落地表现也已具备规模优势，当前已在政务、金融、通信、制造、能源、交通、生物医药等多个关键行业实现部署，并支撑多个 RL 模型及智能体系统的在线训练与推理任务。在国内市场同类平台中，其智能体训练任务承载能力和调度效率长期保持领先，稳居强化学习云领域第一梯队。

正是在这些能力的加持下，九章云极才得以在强化学习的产业化路径上率先跑通「从训练引擎到产业部署」的全流程闭环，并以此为基础，构建起属于自己的 AI 云原生生态护城河。

看起来，九章云极的战略视野并不局限于细节的技术层面，而是放眼未来 AI 的基础设施主导权：在大模型标准趋于同质化的今天，谁能主导智能体运行的「训练-反馈-部署」闭环平台，谁就能在下一代 AI 生态中占据支点位置。而九章云极，已经拥有自己的独特优势。

顺带一提，为了加速这一战略落地，九章云极还启动了「AI-STAR 企业生态联盟」，并与赛富投资基金等多家产业机构联合设立了「AI-STAR 智算生态基金」，首期投入 1.8 亿元，期望吸引算法公司、开源社区、行业客户共同参与强化学习平台的生态建设。这不仅为 AgentiCTRL 拓展了丰富的应用场景，也为智能体应用在金融、工业、能源等高价值行业的规模化落地提供了实践基础。

因此，AgentiCTRL 的发布并不是一个孤立事件，而是九章云极未来路线图中的关键一步。在这一逻辑下，平台能力、开发工具、生态伙伴、资本配置…… 正共同构成一个面向未来十年的智能计算战略。

强化学习云第一云！

是做出来的

当强化学习成为智能体模型训练的核心引擎，决定下一轮 AI 基础设施竞争胜负的，很可能是「可用」与「可规模化」之间的距离。

九章云极用 AgentiCTRL 平台证明，强化学习云的成功落地绝不仅仅是一次算力堆叠或平台加法，而是一场从底层架构到运行逻辑的系统性重建：支持万卡级异构调度、Serverless 弹性架构、强化学习工作负载原生抽象…… 这些综合起来就不再只是简单的优化，而是范式跃迁。

从客户视角看，这种跃迁可以带来直接而确定性的价值回报：

开发门槛显著降低：无需自建环境、编排节点、维护资源，RL 训练变得像调用 API 一样简单；
训练效率大幅提升：端到端性能可提升 5 倍；
成本结构全面重塑：资源调度更高效，综合成本最多可下降 60%，让 RL 真正进入性价比可控区间。

更重要的是，九章云极从一开始就不是只做「RL 工具链供应商」，而是在构建一个支持智能体运行的操作系统级云平台。

在未来，强化学习不会是「少数人的科研特权」，而将成为 AI 系统中的常规能力组件。谁能将它从实验室拉入工程化生产环境，谁就掌握了创造未来的先机。而九章云极，已经走在了前面。

当智能体原生时代真正到来，我们可能会重新回头审视这场转变的起点。而那时，我们会看到，九章云极及其创造的 AgentiCTRL 或许正是它最早的铺路者。

.....

#DeepMind让AI当「上帝」

导演一场只有AI演员的「西部世界」

剧本杀大家都玩过吗？这是一种经典的桌上角色扮演游戏（TTRPG），游戏中的核心人物是游戏主持人（GM），相当于整个世界的「导演 + 编剧 + 旁白」，负责掌控游戏环境，讲述故事背景，并扮演所有非玩家角色（NPC）。

现在，想象一下，如果我们用一个强大的生成式 AI 来担任这个 GM 的角色，同时，桌子旁的「玩家」也换成一群各具头脑的 AI，这会创造出一个怎样的世界？

这能实现以下应用：

科学模拟：构建虚拟社会，用于社会科学研究，观察群体行为的涌现。

互动叙事：创建互动故事或游戏，AI 智能体扮演角色，共同演绎剧情。

AI 评估：设计特定场景作为「考场」，来测试和评估 AI 智能体的各项能力（如推理、协作、沟通）。

美剧《西部世界》，未来的西部主题虚拟世界里，所有角色均是 AI 。

然而，这三种需求（科学性、戏剧性、公平性）差异巨大，甚至相互冲突。如何用一个统一的框架来满足所有需求？

来自 Google DeepMind 和多伦多大学的研究人员从 TTRPG 和现代游戏引擎中获取灵感，提出了他们的解决方案：一个名为 Concordia 的软件库。

论文标题：Multi-Actor Generative Artificial Intelligence as a Game Engine
论文地址：https://arxiv.org/abs/2507.08892
项目地址：https://github.com/google-deepmind/concordia

传统上，游戏环境的逻辑是写死的程序。这里的主张是，不应该用一个硬编码的程序来充当 GM，而应该把 GM 本身也设计成一个可配置的、由 AI 驱动的智能体。

Concordia 的设计精髓，源自现代游戏引擎的「实体-组件」（Entity-Component）架构。在这个架构里，无论是 AI 玩家还是 AI 游戏主持人（GM），都只是一个基础的「实体」容器。它们具体拥有什么能力（比如记忆、目标或社交规则）则由一个个可插拔的「组件」来决定。

这种方式巧妙地将「工程师」和「设计师」的角色分开：工程师负责创造功能强大的组件，而设计师则可以像搭乐高一样，自由组合这些组件来快速构建和测试各种复杂场景，整个过程几乎无需编写底层代码。

实体、组件、引擎和游戏设计

实体 - 组件架构模式作为现代游戏开发的基石，为构建多角色生成式 AI 系统提供了强大而灵活的基础。

该框架采用组合而非继承机制，实体不再受限于僵化的类结构，而是携带唯一标识符的轻量级独立对象。实体的行为与属性完全由挂载的组件决定（即：实体本质是带有名称的组件容器）。引擎通过调用 observe、act 等函数处理实体，这些函数由实体所挂载的组件具体实现。

组件通过结合 Python 代码与 LLM 调用来实现，这种方式能提供最大的灵活性与表现力。当设计师掌握特定功能的编码方法时，可以自主实现；与此同时，同一环境中的其他功能可以通过让 GM 叙事型 LLM 来完成。这两种实现方式通常共存于同一环境中 —— 开发者既可以让 GM 根据 LLM 的自由发挥来创造内容，也可以严格限制其行为，使其完全遵循预设的硬编码规则，或采用介于二者之间的任何约束程度。

实体主要支持两种调用方式：observe 和 act。

调用 observe 时，会触发所有组件的 preobserve 和 postobserve 函数，对每个实体的观察数据进行处理。调用 act 时，每个组件会扮演上下文和行动两种角色之一。

在实际开发 Concordia 组件时，开发者通常需要实现 preobserve、postobserve、preact 和 postact 四类方法中的部分或全部。常见做法是仅实现观察类方法或行动类方法，同一组件中同时实现两类方法的情况较为罕见。这种组件化模块设计允许通过自由组合不同组件，快速创建功能各异的实体 —— 这与传统面向对象编程形成鲜明对比：后者在创建行为略有差异的新角色类型时，往往会导致复杂脆弱的继承链结构。

对于生成式 AI 智能体而言，这种架构优势尤为显著。一个智能体的思维可由多个组件构成：存储过往经历的 Memory 组件、调用大语言模型生成目标的 Planning 组件，以及表征世界认知的 Beliefs 组件。同理，一个组织实体可由代表其部门、政策及内部沟通结构的组件组合而成。只需配置不同的组件组合，就能为不同智能体赋予差异化的认知架构。

这一架构模式的灵活性同样体现在 Concordia 框架中的 GM 系统上。GM 本身也是一个实体，与玩家实体（角色）一样可通过组件进行定制。这种设计使得 GM 的职能和逻辑能够根据多智能体系统的具体需求灵活调整 —— 无论是执行严格的评估协议、引导叙事发展，还是维护因果一致性。

此外，Concordia 框架还通过多种游戏引擎模式支持不同的交互动态。

游戏 / 模拟设计目标的全景图分析

根据 Edwards（他是桌游角色扮演游戏理论的重要人物）的定义，TTRPG 可以分为：（1）游戏型（Gamist），GM 需设计难度适中的挑战以维持乐趣。（2）叙事型（Narrativist），GM 需灵活调整剧情以回应玩家的创作输入。（3）模拟型（Simulationist），玩家希望沉浸在一个逻辑自洽的虚拟世界中。

本文认为将使用多角色生成式 AI 的动机分为以下几种类型是有帮助的：（1）评估型（Evaluationist），对应 Edwards 理论中的游戏型；（2）戏剧型（Dramatist），对于 Edwards 理论中的叙事型；（3）模拟型（Simulationist），Edwards 同名分类。

生成式 AI 还有一个第四种动机，那就是创建合成训练数据的目标。

评估型的观点

游戏型玩家通常会寻求公平的竞争机会，并希望通过战略胜利来取得优势，而评估型用户则将多角色系统视为评估和比较的框架。

对于评估型用户来说，主要目标非常明确：确定哪些 AI 系统在指定维度和上下文中表现更好。这需要提供一个公平的竞争环境，并具有明确的成功指标。

评估型系统通常具有以下特点：

标准化场景 —— 精心校准的环境，在多个评估运行中呈现一致的挑战；
明确的成功指标 —— 可量化的性能衡量标准，允许对不同方法进行明确的排名；
受控变异性 —— 战略性地引入新元素，以评估泛化能力；
跨角色互动机制 —— 评估智能体在与不同合作伙伴群体互动时的表现的方法。

戏剧型视角

与评估型用户不同，戏剧型（Dramatist）用户主要将多角色生成式 AI 系统视为叙事引擎。

对于具有戏剧型的目标用户来说，核心关注点不是基准测试性能，而是通过多个 AI 角色的互动生成引人入胜的叙事。

从设计师的角度来看，针对戏剧型目标构建的系统将优先考虑叙事一致性、情感共鸣和动态人物发展，而不是标准化的评估。

主要关注以下特点：

丰富的角色模型 —— 具有详细个性、明确目标、价值观和关系的角色，通常通过组合多个组件来构建；
叙事驱动的环境 —— 旨在引发戏剧性有趣互动的场景设置；
灵活的解决机制 —— 优先考虑叙事满足感而非程序一致性的系统；
涌现的故事情节 —— 允许在没有预定结果的情况下发展引人入胜的叙事轨迹的框架。

在接下来的章节中，论文还讨论了模拟型视角、合成数据等方面的研究，感兴趣的读者，可以参考原论文，了解更多内容。

.....

#LLM正在安装「操作系统」

重塑记忆架构

超长上下文窗口的大模型也会经常「失忆」，「记忆」也是需要管理的。

众所周知，现代大型语言模型（LLM）的上下文窗口普遍有限 —— 大多数模型只能处理数千到数万 token，比如早期的 GPT-3 仅有～2,048 token。虽然近期有些模型已经拓展到了百万级甚至千万级 token 窗口（如 Meta 的 Llama 4 Scout 宣称可达 1,000 万 token）。

图中显示了 LLM 上下文窗口大小的演变。

注意：token 数量为近似最大值。「GPT-4.1」指的是 2025 年 4 月更新的 GPT-4，「Scout」是专为长上下文设计的 17B 参数 Llama 4 变体。

LLM 存在一个内在的「记忆缺陷」，即拥有的上下文窗口是有限的，这严重限制了它们在多轮次、多会话的长期交互中维持一致性的能力。

也因此，现代 LLM 普遍难以维持长期记忆。这对很多应用来说实在相当不妙，毕竟记忆是实现反思和规划的关键，也是智能体系统不可或缺的重要组成部分。

基于 LLM 的自主智能体系统概况图，图源 Lil'Log https://lilianweng.github.io/posts/2023-06-23-agent/

近段时间，关于大模型记忆的相关研究多了起来，前些天开源的 MemOS 就吸引了不少眼球。

与传统 RAG 或纯参数存储不同，MemOS 把「记忆」看作一种和算力同等重要的系统资源。对于大模型的长期记忆进行持续更新管理，将明文、激活状态和参数记忆统一在同一个框架里进行调度、融合、归档和权限管理，让大模型拥有了拥有了持续进化和自我更新的能力。

大模型记忆与长上下文处理能力

密不可分

之前探讨的大模型，能处理大量的 token，甚至达到千万 token 级别，这些均属于 LLM 的长上下文处理能力。实际的 LLM 使用经验告诉我们，具有强大长上下文处理能力的 LLM 都具有更强的记忆能力。

长上下文（Long Context）

指模型在当前推理过程中能「看到」的历史文本长度。

本质上是一次性输入到模型中的序列长度。

用于解决如文档问答、多轮对话、代码分析等需要上下文保持的任务。

「长上下文处理能力」包括：

长度泛化能力：模型在训练中未见过的更长的序列上进行外推的能力。如果超出训练长度，某些模型会灾难性地失败。

高效注意力能力：减少长序列计算 / 内存消耗的机制（亚平方算法）。这可能包括近似注意力、稀疏模式或完全替代的架构。

信息保留能力：指模型实际利用远距信息的能力。如果模型在一定位置之后实际上忽略了上下文内容，那么即使拥有庞大的上下文窗口也是无效的。如果训练不当，模型可能出现注意力权重衰减或在超过一定长度后丢失上下文等现象。

提示词与利用能力：研究如何设计提示词（prompt）以最大限度发挥长上下文的优势。

记忆（Memory）

指模型跨多轮对话 / 使用所保留的信息。
是一种持久化机制，记录关于用户、对话、偏好等信息。

SwirlAI 创始人兼 CEO Aurimas Griciūnas 认为，可以将 LLM 的记忆分为以下类型：

1. 事件记忆 - 这种类型的记忆包含代理过去的交互和执行的操作。每当完成某个操作，控制系统会将该操作信息写入持久化存储中，便于未来调用或回溯。

2. 语义记忆 - 语义记忆包括可访问的外部知识信息，以及其对自身状态和能力的理解。这种记忆既可以是仅代理内部可见的背景知识，也可以是用于限制信息范围、提升回答准确性的锚定上下文（grounding context），从海量互联网数据中筛选出与当前任务相关的信息。

3. 程序性记忆 - 程序性记忆指的是与系统运行机制相关的结构性信息，例如系统提示词（system prompt）的格式、可调用的工具、预设的行为边界（guardrails）等。

4. 在特定任务场景下，代理系统会根据需求从长期记忆中调取相关信息，并暂存于本地缓存，以便快速访问和任务执行。

5. 从长期记忆中调取的信息与当前局部缓存的信息共同构成了代理的工作记忆（也称短期记忆）。这些信息会被整合成最终输入给大语言模型（LLM）的提示词，用于指导其生成后续行为指令或任务响应。

如图所示，通常将 1 - 3 标记为长期记忆，将 5 标记为短期记忆。

长上下文能力和记忆能力可协同工作：

记忆系统中的信息（如用户偏好）可被注入到上下文中，作为提示的一部分；
长上下文窗口能帮助模型在当前对话中维持短期「记忆」，减少依赖记忆系统。

实现 LLM 记忆的几种方法

长上下文的方法

正如前文讨论的，当对话内容超出了上下文长度时，LLM 可能会出现忘记用户的喜好、重复提问，甚至与之前确认的事实相冲突的现象。最直接的提高 LLM 记忆能力的方法就是提高 LLM 的长上下文处理能力。目前，提高 LLM 长上下文处理能力的方法有：

1、RAG （检索增强生成，Retrieval-augmented Generation）作为构建知识库并检索引导 LLM 生成的方法具有非常强的泛用性。通过将结构化或非结构化数据转化为可检索的语义表示，RAG 实现了「先检索、再生成」的流程，使得 LLM 能够结合外部知识应对事实性问题，减少幻觉。

RAG 架构支持对文档动态更新，便于构建实时可扩展可编辑的知识体系，这为后续的 LLM 记忆的构建和记忆系统的设计提供了基础。

图中对比 RAG 流程与纯长上下文方法的差异，RAG 效率高，但可能遗漏间接上下文；长上下文使用虽然全面，但需要模型处理非常大的输入。

2、分层摘要：在对一本书进行总结时，可以通过递归的方式将每一章分别进行摘要，得到中间摘要，然后再对这些中间摘要进行进一步总结，依此类推。这种方法可以应对远超模型上下文长度的输入，但其操作流程较为繁琐，且容易在多轮摘要过程中引入和累积错误。

3、滑动窗口推理：对于需要对长文本进行阅读理解等任务，可以将模型应用于文本的滑动窗口上（例如，第 1–5 段，然后是第 2–6 段，依此类推），再通过某种方法或次级模型对各窗口的输出结果进行整合。

研究人员探索了多种算法途径来扩展上下文窗口。广义而言，这些方法可以分为：(a) 用于长度外推的位置编码方法，(b) 高效或稀疏注意力架构，（c) 替代序列模型（取代自注意力），以及 (d) 混合或记忆增强方法。

了解更多有关 LLM 长上下文窗口的细节信息，可以参阅来自 Dr. Adnan Masood 的文章：

文章链接：https://medium.com/%40adnanmasood/long-context-windows-in-large-language-models-applications-in-comprehension-and-code-03bf4027066f

记忆的方法

尽管上下文能力与大模型记忆紧密相关，但上下文窗口并不能直接等价于记忆。

以构建一个聊天机器人为例，该机器人需要记住用户在此前对话中说过的话。随着对话长度的增加，记忆管理会将信息从输入上下文中移出，存入一个可搜索的持久数据库；同时对信息进行总结，以便将相关事实保留在输入上下文中；还会在需要时从较早的对话中恢复相关内容。这种机制使得聊天机器人能够在生成下一轮回复时，将当前最相关的信息保留在其输入上下文记忆中。

基于记忆的方法看上去与 RAG 非常相似，实际上也确实如此。大致上分为两种类型。

固定记忆池

一类方法采用外部编码器将知识注入到记忆池中，例如 Memory Network，其重点在于解决 RNN 中的遗忘问题。后续工作则通过计算整个记忆池的加权和，作为记忆的代表向量。最具代表性的工作 MemoryLLM，在 LLM 的潜在空间中集成了一个内置记忆池。这个记忆池的设计目标是：在固定容量的限制下，实现新知识的有效整合，并最大程度地减少信息遗忘，从而避免记忆无限增长的问题。

另一类方法则直接使用语言模型本身作为编码器来更新记忆。例如，Memory Transformer 以及 RMT，提出在读取上下文时添加记忆 token，其中记忆池最多包含 20 个 token。

尽管这些固定大小的记忆池在实验中表现出一定的效果，但其性能仍受到记忆容量限制。

非固定记忆池

其他基于记忆的方法通常采用非固定大小的记忆池，并引入不同的遗忘机制以应对记忆不断增长的问题。在这些方法中，记忆池通常以以下几种形式存在：

1. 隐藏状态（hidden states）：如 MemoryBank，将中间表示作为可持久化的记忆内容存储。

2. 键值对（key-value pairs）：代表性方法包括 KNN-LM 和 LONGMEM，以可检索的键值结构进行知识保存和回调。

3. 隐藏空间向量（vectors in hidden space）：如 Memformer 通过在潜在空间中保存向量来增强上下文记忆。

4. 原始文本（raw texts）：如 RET-LLM，将知识以三元组的形式存入记忆中，并通过 API 查询方式，在当前上下文下检索相关信息。

这些方法提供了更灵活的记忆机制，但由于缺乏结构化的压缩与管理手段，存储的知识可能存在冗余，影响记忆效率与模型推理性能。

有关大模型记忆的部分技术，可以参考以下论文：

论文标题：MemoryLLM: Towards Self-Updatable Large Language Models
论文链接：https://arxiv.org/abs/2402.04624

记忆数据管理：记忆系统

据前文所述，LLM 的记忆与数据库非常相似。虽然 RAG 引入了纯文本的外部知识，但它仍然是一种无状态的工作方法，缺乏生命周期管理与持久表示的整合能力。

记忆系统本质上和 RAG 检索是几乎一致的，但记忆系统机制会在记忆存储的基础上增加更丰富的信息组织、信息管理和信息检索方法，将记忆存储管理与计算机操作系统的原理相结合，能够构建更加完善的记忆机制，使 LLM 拥有更持久的记忆。

近期有关 LLM 记忆系统的研究逐步走入聚光灯下，大多受传统操作系统的内存机制启发，建立了全新架构的记忆管理模式。以近期几个具有代表性的研究工作为例：

Coursera 联合创始人，前百度 AI 部门总负责人，前 Google Brain 项目创始成员与负责人吴恩达在近期的短课程中提到：

大型语言模型（LLM）的输入上下文窗口具有有限空间。使用更长的输入上下文不仅成本更高，而且处理速度更慢。因此，管理存储在该上下文窗口中的内容至关重要。

在论文《MemGPT: Towards LLMs as Operating Systems》中，作者提出使用一个 LLM 代理来管理该上下文窗口。该系统配备了一个大型的持久内存，用于存储所有可能被纳入输入上下文的信息，而一个代理则负责决定哪些信息实际被包含进去。该技术受传统操作系统中分层内存系统的启发：通过在物理内存与磁盘之间进行分页，实现扩展虚拟内存的假象。

论文标题：MemGPT: Towards LLMs as Operating Systems
论文链接：https://arxiv.org/abs/2310.08560

记忆张量（上海）科技有限公司联合上海交通大学、中国人民大学、同济大学、浙江大学、中国电信等多家顶尖团队发布了 MemOS（Memory Operating System），一套面向大模型的工业级记忆操作系统。在技术实现层面，MemOS 借鉴了传统操作系统的分层架构设计，也融合了 Memory3（忆立方）大模型在记忆分层管理方面的核心机制。整个系统由 API 与应用接口层、记忆调度与管理层、记忆存储与基础设施层三大核心层次组成，构建了一套从用户交互到底层存储的全链路记忆管理闭环。

项目官网：https://memos.openmem.net
论文链接：https://memos.openmem.net/paper_memos_v2

北邮百家 AI 团队推出首个大模型记忆操作系统开源框架 MemoryOS，借鉴了现代操作系统中成熟的内存管理原则，采用短期、中期、长期三级分层记忆存储体系（实时对话存储、主题信息整合、个性化知识沉淀），包含四大核心功能：记忆存储、记忆更新、记忆检索和响应生成，全方位管理 AI 记忆系统。

项目地址：https://github.com/BAI-LAB/MemoryOS
论文链接：https://arxiv.org/abs/2506.06326

加利福尼亚大学圣迭戈分校（UCSD）博士生 Yu Wang 和纽约大学教授陈溪（Xi Chen）联合推出并开源了 MIRIX —— 全球首个真正意义上的多模态、多智能体 AI 记忆系统。MIRIX 拥有六类核心记忆，能够细分认知角色。提出了一种模块化多智能体架构（multi-agent architecture），由若干专用组件在统一调度机制下协作完成输入处理、记忆更新和信息检索。

论文标题：MIRIX: Multi-Agent Memory System for LLM-Based Agents
论文链接：https://arxiv.org/abs/2507.07957

除此以外，在针对 LLM 记忆管理与更新的前沿研究工作中，另一类参考人类神经或人类大脑记忆的模式同样取得了很好的结果。

Larimar —— 一种受大脑启发的新型架构，用于通过分布式情景记忆增强 LLMs。人类能非常迅速地执行知识更新和泛化，在大脑中，这种快速学习被认为依赖于海马体及其情景记忆能力。该工作受人类情景记忆能力的启发，构建了分层内存框架，提出了一种用于实时测试时适应的情景化且可适应的记忆条件 LLM 架构。

论文标题：Larimar: Large Language Models with Episodic Memory Control
论文地址：https://arxiv.org/pdf/2403.11901

M+ 探索了探索隐空间 (Latent-Space) 的记忆 —— 既压缩又可端到端训练，更接近人类在神经激活中存储信息的方式。该工作在 MemoryLLM 之上提出的长期隐空间记忆扩展框架：通过把「过期」隐藏向量写入 CPU - 侧长期记忆池，再用协同检索器拉回最相关记忆，它将 8 B 级模型的有效记忆跨度从原本不到 20 k tokens 提升到 160 k tokens 以上，同时显存占用保持不变。

论文标题：M+: Extending MemoryLLM with Scalable Long-Term Memory
论文链接：https://arxiv.org/abs/2502.00592

.....

#ThinkDiff

多模态理解与生成最新进展：港科联合SnapResearch发布ThinkDiff，为扩散模型装上大脑

本文第一作者密振兴，香港科技大学计算机科学与技术学院人工智能方向博士生，研究方向是多模态理解与生成，3D/4D 重建与生成，目前正在寻找工业界全职职位或实习职位。

自 Stable Diffusion、Flux 等扩散模型 (Diffusion models) 席卷图像生成领域以来，文本到图像的生成技术取得了长足进步。但它们往往只能根据精确的文字或图片提示作图，缺乏真正读懂图像与文本、在多模态上下文中推理并创作的能力。能否让模型像人类一样真正读懂图像与文本、完成多模态推理与创作，一直是学术界和工业界关注的热门问题。

OpenAI 的 GPT-4o image generation 和 Google 的 Gemini Pro 用超大规模参数和海量数据，展示了强大的多模态推理与生成能力。但在学术与产业环境中算力和数据并不充裕时，用较少数据与计算资源实现类似的功能，依然是一道难题。

在顶级学术会议 ICML2025 上，香港科技大学联合 Snap Research 提出了多模态理解与生成新方法：ThinkDiff。该方法仅需较少的图文对和数小时训练，就能让扩散模型具备思考能力，使其在复杂的图像文本组合输入下，完成推理式生成，为多模态理解与生成开辟了全新路径。

Paper：I Think, Therefore I Diffuse: Enabling Multimodal In-Context Reasoning in Diffusion Models
Paper link：https://arxiv.org/abs/2502.10458
Github：https://github.com/MiZhenxing/ThinkDiff(in progress)
Project page：https://mizhenxing.github.io/ThinkDiff

ThinkDiff 算法设计

ThinkDiff 这项工作的核心是将现有大规模的视觉语言模型 (VLM) 的推理能力迁移给扩散模型 (Diffusion model)。通过联合 VLM 强大的多模态推理能力和 Diffusion 的高质量生成能力，使得最终的模型能够真正理解图像与文本提示之间的逻辑关系，以此为基础进行高质量的图像生成。

LLM 与 Diffusion 的共享特征空间

最新的 Text-to-image 扩散模型如 Flux 和 Stable Diffusion 3 等，都开始使用大语言模型 (LLM) 例如 T5 的文本编码器 (Encoder) 作为扩散模型的文本编码器 (Text Encoder)。

在这种设计下，扩散模型里的扩散解码器 (Diffusion Decoder) 与 T5 解码器 (LLM Decoder) 共享同一个输入特征空间。只要把 VLM 对图像和文本的推理对齐到该特征空间，就能让扩散模型继承 VLM 的推理能力。

将 VLM 对齐到 LLM 解码器

直接对齐 VLM 与扩散解码器需要大量复杂数据和低效的 Diffusion 训练，因此，ThinkDiff 通过一个代理任务，将 VLM 与 LLM 解码器做视觉-语言训练 (Vision-language Pretraining)。在将 VLM 与 LLM Decoder 对齐之后，由于共享空间的存在，VLM 就自然地与 Diffusion Decoder 对齐。

在训练过程中，对于每个训练样本，ThinkDiff 将图像 + 文本输入到 VLM，自回归 (Autoregressive) 地生成多模态特征向量，再通过一个轻量级的对齐网络 (Aligner)，将这些特征向量映射到 LLM 解码器的输入空间，去自回归地重建图像的文字描述，用交叉熵损失进行监督。

经过训练的对齐网络 (Aligner)，可以有效地把 VLM 的多模态推理能力传递给了 LLM 解码器。而在推理阶段，只要用同样的对齐网络，通过共享的特征空间，就可以将 VLM 的多模态推理能力传递给扩散解码器，使扩散模型具备多模态理解与生成能力。

网络结构核心设计

对齐 VLM 生成的 Token：传统 Diffusion 在使用 LLM 时，是将 LLM 当做输入文本的编码器，将得到的特征送入 Diffusion 生成像素。而 VLM 的理解与推理能力，来自于它自回归生成的 tokens，而非编码的输入 tokens。因此在 ThinkDiff 中，我们选择将 VLM (大型视觉-语言模型) 自回归生成的 tokens 的特征对齐到扩散模型，使扩散解码器能够真正继承 LVLM 的多模态推理能力。

掩码训练 (Masked Training)：为了避免对齐网络走捷径，而非真正对齐特征空间，ThinkDiff 在训练阶段对 VLM 输出的 token 特征使用随机掩码策略，随机丢掉一部分特征，让对齐网络学会仅从不完整的多模态信息中恢复语义。这种掩码训练使得对齐网络深度理解图像 + 文本，从而高效地将理解能力传递给扩散解码器。

网络变体

依据使用的 VLM 的不同，ThinkDiff 有 ThinkDiff-LVLM 和 ThinkDiff-CLIP 两种变体。ThinkDiff-LVLM 将大规模视觉语言模型 (LVLM) 对齐到 Diffusion，使得 Diffusion 继承 LVLM 的多模态理解能力。ThinkDiff-CLIP 将 CLIP 对齐到 Diffusion，使得 Diffusion 拥有极强的文本图像组合能力。

实验结果

多模态理解与生成定量结果

ThinkDiff-LVLM 在多模态理解与生成基准 CoBSAT 上，大幅领先现有方法，展现出高精度高质量的理解与生成能力。

以下是训练资源的对比，与其他使用上百张 GPU 的方法相比，ThinkDiff-LVLM 仅使用 5 小时 × 4 × A100 GPU 的训练，就达到了最优的效果。

多模态理解与生成图片结果

ThinkDiff-LVLM 在 CoBSAT 上，能够对输入的多模态图片与文本进行深度推理，并用高质量的图片展现推理结果。

与 Gemini 的对比

ThinkDiff-LVLM 在日常图片推理与生成任务上展现出与 Gemini 类似的能力。

Gemini：

Ours：

多模态组合生成结果

在输入多张图片时，ThinkDiff-CLIP 能够合理地将多张输入图片组合成合理的输出图片。

多模态视频生成结果

将 ThinkDiff-CLIP 的扩散解码器改成 Cogvideo 时，ThinkDiff-CLIP 能在不重新训练的情况下，依据输入的图片和文本，生成高质量的视频。

总结

ThinkDiff 将多模态推理能力传递给扩散模型，创造出高质量的统一多模态理解与生成模型。它用极少的训练资源和常见的数据，让扩散模型具备了在多模态上下文中进行推理和创作的能力。在定量和定性实验上，都优于现有的开源模型，并展现出与商业模型相当的潜力。无论是在科研领域还是工业应用，都对图像生成与理解技术做出重要贡献。

.....