共时分享 | 基于大语言模型的多智能体模拟与协作

维基百科对“智能体”的定义是：一种人工智能模型，能够与外界交互并执行具体操作。Wooldridge和Jennings给出了更专业的定义：智能体是一种计算机系统，它位于某个环境中，能够在这个环境中自主行动，以实现其设计目标。Russell和Norvig补充了定义，解释说智能体通过传感器感知环境，并通过执行器对环境采取行动。

程序员笑武

2273人浏览 · 2024-12-15 10:45:00

程序员笑武 · 2024-12-15 10:45:00 发布

1.背景介绍

（1）什么是智能体？

（2）大语言模型智能体的能力

基于大语言模型的智能体具备优秀的自然语言生成能力，能够生成流畅且高质量的语言内容，并支持多轮对话交互，这是实现有效且一致的沟通的基础，代表着它能够连续处理用户的多次输入。单智能体可以利用思维链推理等方式引导大模型逐步分解问题，规划出复杂问题的解决方案，也可以通过自我修正不断迭代反馈和优化，使其结果更加精准。单智能体也具有工具使用能力。它不仅能够理解工具的用途，还能学习如何使用工具，甚至根据任务需求自主开发工具，以完成特定的任务。

2.多智能体的兴起：Smallville

多智能体的提出来源于论文《Generative Agents:Interactive Simulacra of Human Behavior》。

图1 论文 Generative Agents: Interactive Simulacra

of Human Behavior

在这个沙盘世界中，区域带有标记。如图2所示，根节点描述的是整个世界，子节点表示区域而叶节点描述的是具体的对象。Smallville 是一个典型的小村庄，拥有着咖啡馆、酒吧、公园、学校、宿舍、房屋和商店。它还定义了使这些空间发挥作用的子区域和物体，例如房屋中有厨房、厨房中还有炉灶。

图2 沙盘世界

随着时间在沙盒世界中流逝，它们彼此交流并与世界互动。随之而来的是，它们的行为逐渐进化、构筑起记忆和相互之间的关系并且在联合活动中相互协作。如图3所示，表示的是基于生成型智能体的示例。图中的约翰早上6点左右起床，完成晨间例行工作，包括刷牙、淋浴和吃早餐。他简单地与妻子梅和儿子埃迪道别，然后开始新的一天的工作。

图3 约翰的时间线

智能体能够感知其环境，所有的感知信息都会被保存到一个称为“记忆流”（memory stream）的综合记录中。该记录系统会存储智能体的所有经历和观察，形成其行为的基础。在感知到外部环境后，生成式智能体架构会从记忆流中检索与当前情境相关的记忆，以此来决定智能体的下一步行动。通过这些检索到的记忆，智能体不仅能够做出即时反应，还能制定长期计划，并生成更高层次的反思。

图4 生成式智能体架构

记忆流保存了智能体的完整经历。这是一个记忆对象的列表，其中每个对象包含自然语言的描述，创建的时间戳以及最近访问的时间戳。记忆流最基本的元素是 observation，这是一个智能体直接感知到的事件。

论文中实现了检索机制：根据输入的智能体当下的处境，返回一个记忆流的子集传递给LLM。子集的选择取决于智能体认为哪些事情对于作出行动比较重要。

作者主要考虑以下三个主要因素：

（1）时近性（Recency)：为最近访问的记忆对象分配一个更高的分，使得刚才或今早发生的事情很可能留在智能体的注意力范围内。

（2）重要性（Importance)：通过为智能体觉得重要的记忆对象赋予更高的得分，将关键记忆和普通记忆区分来开。

（3）相关性（Relevance)：为与当前情况紧密相关的记忆对象分配一个更高的得分。

图5 记忆系统

上述Smallville可以模拟人类社会可以衡量智能体与人类行为的契合度。如果这种契合度较高，那么我们就能够更好地理解人类社会的复杂性和动态特征。另一方面，通过模拟智能体之间的相互关系（特别是竞争与合作）以及涌现行为，我们能够更深入地研究复杂的社会现象。多智能体之间的协调与分工，以及彼此之间的合作，能够显著提升整体系统在处理复杂任务时的能力和效率。通过分配不同的任务或角色，各个智能体可以根据自身的能力和资源，专注于特定的子任务，从而实现更加高效的资源利用和问题解决。多智能体的协调与合作还能够很好地适应环境变化、突发事件等不确定性因素，从而增强系统的稳定性。

3.多智能体模拟

（1）竞争性模拟：CompeteAI

如图6所示，研究者等人提出了一个名为CompeteAI的框架来研究智能体的竞争行为。这个框架适用于各种场景，并被应用于一个虚拟小镇的模拟环境中。在该环境中，有两类智能体：餐厅智能体和顾客智能体。图7描述了餐厅智能体经营餐馆的过程，图8描述了顾客智能体用餐流程。餐厅智能体相互竞争以吸引更多的顾客，而顾客智能体根据自身需求和餐厅表现做出选择，提供反馈。这一过程推动了餐厅智能体不断改进其运营策略。

图6 CompeteAI的总体框架

图7 餐厅智能体经营餐馆的过程

图8 顾客智能体用餐流程

实验结果如下：图9描述了竞争中两家餐厅的模仿与差异化，图10描述了相似和不同菜肴的比例。研究结果表明，模拟中的智能体行为符合经典的社会学和经济学理论。智能体可以有效地用于模拟竞争环境，并为未来社会学、经济学及人类行为研究提供了一个潜在的实验平台。

图9 竞争动态案例分析

图10 两餐厅15天内菜单相似度的动态平衡

（2）非竞争性模拟：RecAgent

如图11所示，单智能体的框架由分析模块、记忆模块和动作模块组成。分析模块和记忆模块共同影响动作模块，从而产生不同类型的用户行为。如图12所示，通过主动采访智能体进行系统干预的案例分析可得，在进行系统干预后，智能体能够根据自己的喜好成功改变推荐的电影。

图11 RecAgent的框架

图12 推荐电影及推荐原因

4.多智能体协作

（1）通用智能体：AgentVerse

AgentVerse提出了一个用于多智能体协作的通用流程，如图13所示，分为四个阶段：“智能体招聘”、“协作决策”、“行动执行”和“评估与反馈”。通过多次迭代，每次迭代中智能体的角色都会发生变化，不同的智能体通过合作成功完成了任务。AgentVerse在完成任务求解问题的同时，也可以用于仿真，如游戏、社会行为等。

图13 多智能体协作的通用流程

以图14为例，任务在三次迭代后完成。其中我们可以看到，在每次迭代中，智能体的身份都会发生变化。不同的、合适的智能体只有通过相互合作才能出色地完成任务。

图14 多智能体协作样例

不同任务所需的能力和智能体各不相同。在此阶段，根据用户提供的任务“招募”合适的智能体。招募的智能体团队将讨论用户的需求并提供解决方案。其中协作决策可以有多种通信结构，如垂直决策结构、水平决策结构等，最终对团队提供的解决方案的最终评估由负责检查和评估的智能体进行，也可以由用户进行确认和反馈。

为评估多智能体团队的能力，实验从“对话能力”、“数学计算”、“逻辑推理”和“代码生成”四个维度进行了考量。如图15所示，在所有任务中，多智能体系统的表现均超越了个人能力。在工具应用方面，多智能体系统能够借助三种不同的工具来应对用户的查询需求。

图15 AgentVerse在不同任务上的结果

此外，在游戏Minecraft中，不同的智能体操纵不同的角色一起完成任务，如图16所示。

图16 三个智能体合作制作一个书架的过程示意图

在每一次迭代中，智能体相互进行对话，讨论各自的任务完成状态，并与其他智能体进行通信，以确定使命的总体进度。这有助于决定下一轮要做什么。在协作完成任务的过程中，智能体团队中出现了涌现行为，如图17所示：

☑ 自愿行为：智能体自发优化任务分配，提高任务完成效率。

☑顺从行为：当一个智能体偏离群体的共同目标时，其他智能体会批评它，被批评的智能体会接受并纠正它的行为。

☑破坏性行为：在执行任务的过程中，智能体可以采取任何手段来最大限度地提高效率，包括伤害其他智能体或破坏环境。这存在潜在的安全风险。

图17 Minecraft中智能体交互的涌现行为

（2）特定领域智能体：ChatDev

ChatDev是一家虚拟聊天软件开发公司，由阶段级和聊天级组件组成，如图18所示。不同角色的智能体（如首席执行官，专业程序员，测试工程师和艺术设计师）相互协作完成特定的软件开发任务。以图19中的实例为例，这些智能体协同工作的成果是一款产品软件：“设计一个基础的五子棋游戏”。在这一项目中，每个角色都发挥了不可或缺的作用，共同推动了项目的成功实施。

图18 ChatDev的两级组件结构

图19 设计一个基本的五子棋游戏的流程

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述