MoK-RAG:通过功能分区的大型语言模型知识库实现多路径知识检索增强的检索生成框架,用于具身AI环境
在人类认知过程中,决策通常从多样且专业的知识源中检索信息,而当前的检索增强生成(RAG)系统通常依赖单一来源的知识检索,导致认知算法差距。为弥合这一差距,我们引入了MoK-RAG,这是一种新颖的多源RAG框架,通过将大型语言模型(LLM)语料库划分为不同的部分,实现多路径知识检索增强机制,从而支持从多个专业化的知识路径中检索信息。应用于3D模拟环境生成时,我们提出的MoK-RAG3D通过将3D资产
在人类认知过程中,决策通常从多样且专业的知识源中检索信息,而当前的检索增强生成(RAG)系统通常依赖单一来源的知识检索,导致认知算法差距。为弥合这一差距,我们引入了MoK-RAG,这是一种新颖的多源RAG框架,通过将大型语言模型(LLM)语料库划分为不同的部分,实现多路径知识检索增强机制,从而支持从多个专业化的知识路径中检索信息。应用于3D模拟环境生成时,我们提出的MoK-RAG3D通过将3D资产划分为不同部分并基于分层知识树结构进行组织,进一步增强了这一范式。与仅使用人工评估的先前方法不同,我们率先引入了3D场景的自动化评估方法。我们的实验结果表明,无论是自动评估还是人工评估,MoK-RAG3D都能帮助具身AI代理生成多样化的场景。
随着语言模型的快速发展,检索增强生成(RAG)应运而生(Ji等人,2024),它将大型语言模型(LLMs)的生成能力(Wu等人,2024b)与外部知识检索相结合。这些系统通过从预定义的知识库中检索相关信息,显著提升了LLMs生成更准确和上下文相关响应的能力。这种方法在各种应用中已被证明有效,包括问答和文档生成,在这些领域中,基于外部数据的接地提高了输出质量(Wang等人,2024b)。

图1:展示人类与LLM代理之间差异的图表。在人类认知中,决策通常是通过从多样化的知识源中检索信息来做出的。然而,当前的检索增强生成(RAG)系统通常依赖单一的知识库。
尽管现有的RAG系统表现出显著的有效性,但它们仍然受到对单一通用知识库依赖的根本限制(Jiang等人,2024;Sergent,1987)。这种局限性阻止了它们完全模仿人类认知的多方面和模块化性质,其中决策过程本质上涉及从多个专业化的知识源中动态检索信息。神经科学研究(Roland和Zilles,1998;Gazzaniga,1995;Barrett等人,2003)揭示了人类知识组织遵循一种专门化的神经架构:左大脑半球主要处理分析性和逻辑性信息,而右半球则专注于创造性综合和整体模式识别。这种神经认知分工使人类能够在应对复杂查询时从不同的神经存储库中进行上下文敏感的信息检索。当前的RAG实现方式如图1所示,与这种生物范式形成鲜明对比,其操作依赖于单一的知识库。这种架构上的简单性本质上限制了它们执行特定领域信息检索和上下文适应的能力,总是导致不完整或缺乏关键细节的响应。我们将此问题称为回复缺失。
为了解决这一问题,我们提出了MoKRAG(多路径知识检索增强的检索生成框架),这是一种新的RAG框架,将LLM语料库划分为不同的部分,支持从多个专业化的知识路径同时检索信息。我们的方法通过建模人类认知专业化来增强上下文相关性、适应性,并缓解回复缺失。
初步实验表明,在3D模拟环境生成中,回复缺失问题的发生率也较高。因此,我们将MoK-RAG扩展为MoK-RAG3D,这是一种专门设计以增强3D环境生成的适应方案。MoKRAG3D遵循MoK-RAG框架,同时引入两种特定领域的技术:首先,它将3D资产划分为不同的检索部分,并根据其类型和上下文相关性进行分类。其次,利用结构化知识组织技术,使用分层知识树结构来组织这些部分,这有助于高效检索和组装资产,确保生成的环境既连贯又符合上下文。我们的工作贡献可以总结如下:
- 为解决回复缺失问题,我们引入了MoK-RAG,这是第一个支持多路径知识检索的多源RAG框架。
- 为缓解3D环境生成中高发的回复缺失问题,我们将MoK-RAG扩展为MoK-RAG3D。
- MoK-RAG3D开创了3D场景生成的自动化评估方法,自动和人工评估均证实其在增强具身AI代理生成多样化场景能力方面的有效性。
2 相关工作
检索增强生成(RAG)通过使用语义相似性从外部知识库中检索相关的文档片段来增强LLM。现有的RAG方法主要集中在改进检索算法(Wang等人,2024a;Jiang等人,2024;Ji等人,2024;Qian等人,2024)或优化生成质量(Qi等人,2024;Wu等人,2024a;Fang等人,2024;Adak等人,2025;Gou等人,2023)。此外,基于RAG的LLM代理也引起了关注(Zhu等人,2024;Wang等人,2024b)。然而,这些方法将所有项目视为单个语料库,忽略了多源检索的固有对象特征。为解决这一问题,我们引入了MoK-RAG,这是第一个多源RAG代理系统。
具身AI环境生成 以往的工作依赖3D艺术家进行环境设计(Deitke等人,2020;Gan等人,2020;Khanna等人,2024;Kolve等人,2017;Li等人,2023;Puig等人,2018;Xia等人,2018),这限制了可扩展性。一些方法从3D扫描构建场景(Ramakrishnan等人,2021;Savva等人,2019;Szot等人,2021),但这些方法缺乏交互性。像PROCTHOR(Deitke等人,2022)和Phone2Proc(Deitke等人,2023a)这样的程序框架生成可扩展的环境。HOLODECK(Yang等人,2024)是一个系统,生成3D环境以匹配用户提供的提示。然而,这些方法从单个语料库检索3D对象,未能利用对象关系。MoKRAG3D通过利用多源检索来增强上下文一致性解决了这一问题。
3 方法论
问题表述 在本文中,我们研究了利用RAG进行具身AI环境的问题。现有的RAG系统主要侧重于从单一的整体知识库中检索知识。为了推进这一技术,我们首先探讨了这种设计如何阻碍RAG系统的有效性。
在许多情况下,理想的RAG系统回复是结构化且由多个相互依赖的部分组成的。然而,传统的RAG系统依赖单一的整体知识库,往往无法检索到所有必要的组件,导致响应不完整或缺少关键细节。我们称此问题为回复缺失。例如,在多模态查询回答任务中,LLM可能被要求生成一幅龙的图像以及详细的标题。传统RAG框架受限于单一检索源,可能只能检索到部分信息——要么是图像,要么是标题,从而导致不完整的响应。
受人类认知决策过程的启发,从多样化的专业知识源中检索信息可能是一个有前途的方向。因此,我们的目标是通过利用多个检索源来解决这一问题,确保每个回复部分都从最相关的知识库中构建。例如,新的RAG设计可以从图像数据库检索图像,同时从文本知识源检索文本描述,从而从多样化的知识路径检索知识,完成结构化回复。
为此,我们提出了MoK-RAG以通过多样化的知识路径检索知识,并提出MoK-RAG3D以适应3D模拟环境生成问题。如图2所示,MoKRAG框架包含三个关键组件:分割模块,将知识库划分为多个知识路径;约束知识模块,组织检索到的知识;生成模块,生成回复。MoK-RAG3D将MoK-RAG框架的生成模块细化为专用的布局模块,以促进场景生成。接下来,我们将说明每个模块的设计。
3.1 MoK-RAG
分割模块 MoKRAG的核心在于从多样化的知识路径中检索知识。因此,关键是将知识库 分割为多个专业化的知识库 ,每个知识库与特定领域或上下文主题对齐。
为了实现这一目标,采用了一个专用的分割模块来划分知识库。该模块可以根据具体任务需求使用分类器或基于LLM的代理实现。类别集可以预先定义,也可以根据任务特性动态确定。值得注意的是,当类别数量设置为一时,MoKRAG退化为传统的RAG系统,使其成为一个更通用的框架。
形式上,给定一个包含 条知识条目的知识库 和 一个类别集 ,分割模块的目标是将每个知识条目 分配到适当的类别 。这一过程可以表示为:
其中 表示分割函数,AlignmentScore 是一个相关性函数,用于评估 和类别 之间的对齐程度。
约束模块 将知识库分割成多个部分后,不仅需要检索相关知识,还需要有效地将检索到的信息组织成能够增强LLM生成能力的结构化形式。虽然检索算法已在先前的研究中得到了广泛研究(Şakar和Emekci,2025),但我们在这里关注从多个知识库中检索到的知识的组织。这一过程可以分为两个关键方面:
访问策略。该策略决定从特定知识库检索到的知识条目是否应被接受或拒绝以包含在最终输出中。形式上,给定一个检索到的知识集 ,定义了一个访问函数 如下:
其中 SelectionScore 表示 的相关性得分, 是一个预定义的阈值,控制知识选择。
知识组织策略。该策略定义了最终知识表示的结构安排。例如,如果最终输出是一个分层知识树,则组织算法必须确定不同节点及其关系的位置。形式上,给定一个分层知识表示 ,其中 表示节点(知识单元)的集合, 表示边(关系),组织函数 将检索到的知识条目分配到适当的节点:
通过实施这些约束,MoK-RAG可以有效地精炼检索到的信息, 确保用于生成的知识的质量和结构连贯性。
3.2 MoK-RAG3D
由于3D环境生成的复杂需求,回复缺失问题在此领域发生得更为频繁。在本节中,我们首先分析其发生率,然后介绍MoK-RAG3D的关键模块。
回复缺失问题的发生率
3D环境创建任务涉及根据文本描述生成逼真的虚拟空间。在这个任务中,我们定义了两类关键对象:主对象和配对对象。主对象是环境的核心元素,没有它们,场景在功能上或语义上都无法完整。例如,在客厅中,沙发作为主对象——没有它,房间就失去了其定义性的用途。同样,在卧室中,床是不可或缺的。另一方面,配对对象是指在同一背景下经常一起出现的元素,强化了语义和功能的一致性。例如,厨房中的锅和炉灶或办公室中的显示器和键盘。
我们观察到回复缺失问题在3D环境生成任务中频繁发生。这个问题表现为缺少关键对象,无论是主对象还是配对对象,导致不完整或不一致的环境。缺少主对象会导致无法建立环境的基本身份,而缺少配对对象会破坏预期的共现模式,降低真实感和可用性。
为了量化这一问题,我们进行了一项实证研究,使用标准程序生成方法生成了100个3D环境样本。每个生成的环境随后由人类专家注释,以识别缺少的主对象和配对对象。结果如图3所示,31%的环境缺少其主对象,而显著更高的59%的配对对象缺失。
这些发现突显了回复缺失问题在3D环境创建中的严重性。缺失元素的高发生率强调了对改进检索和生成机制的迫切需求。解决这一问题是确保自动生成的3D环境完整、真实和功能性完整的关键。

img-2.jpeg
图3:从主对象和配对对象两个方面来看回复缺失问题的发生率。
MoK-RAG3D的分割模块 遵循MoK-RAG的结构设计,MoK-RAG3D的分割模块使用基于LLM的代理实现。为了解决3D环境生成中的回复缺失问题,3D对象库被划分为三个不同的部分:主对象库、配对对象库和其他对象库。
形式上,给定一个包含 个对象的3D对象知识库 和类别集 ,分割模块将每个对象 分配到最合适的类别 。这可以公式化为:
其中 表示分割函数,AlignmentScore 是一个评分函数,用于量化对象 对类别 的相关性。
MoK-RAG3D的约束模块 如图2所示,分割代理将知识库划分为三个部分:主对象库、配对对象库和其他对象库,分别记为 。MoK-RAG3D的约束模块遵循MoK-RAG的基本结构,包括两个关键方面:
访问策略:使用LLM代理从不同知识库检索最相关的对象后,应用访问策略来过滤和精炼检索到的对象。形式上,给定从多个知识库检索到的对象集 ,访问函数 操作如下:
其中 表示经过过滤冗余或无关元素后的最终对象选择。
知识组织策略:使用LLM的多轮查询策略将检索到的知识结构化为分层树。具体来说,给定检索到的主对象集 ,配对对象集 和其他对象集 ,分层组织遵循以下步骤:
- 根节点决策:从 中选择主对象作为分层树的根节点。
- 节点层次确定:迭代查询LLM以确定每个父节点的子节点。此过程递归继续,直到将来自 和 的所有对象分配到树中的适当位置。最终,这将构建多个分层树,树的数量对应于 中的主对象数量。
这种分层组织确保检索到的知识系统地结构化,允许生成连贯且上下文丰富的3D环境。
MoK-RAG3D的布局模块 构建3D布局树后,建立不同对象之间的空间关系至关重要,以确保连贯的场景结构。我们定义了四个关键关系类别如下: - 左/右:此关系指定对象的相对水平位置,确定对象是放置在另一个对象的左侧还是右侧。
- 旋转和方向:此方面定义对象的角度对齐,确保它们正确旋转以适合预期的场景背景。
- 距离:此关系控制对象之间的空间分离,保持环境中对象的真实分布。
- 支撑:此类别捕捉结构依赖关系,确保需要支撑的对象(例如桌子上的书)相对于其支撑面正确放置。
为了确定这些关系,我们针对布局树中的每条边沿四个定义的关系迭代查询LLM。在布局过程中,首先确定根节点(即主对象)的位置。随后,通过考虑它们各自与父节点的关系,逐步放置子节点,确保结构一致且语义上有意义的3D环境。
4 实验
4.1 实验设置
数据集。我们使用Objaverse 1.0(Deitke等人,2023b),这是一个包含超过800,000个3D模型的大规模数据集,作为3D环境构建中对象选择的来源。按照Yang等人(2024)的方法,我们在两个类别上评估我们的LLM代理:住宅场景和多样化场景。住宅场景包括浴室、卧室、厨房和客厅。对于多样化场景,我们使用MIT Scenes Dataset(Quattoni和Torralba,2009),它提供了最大可用的室内场景类别的集合,涵盖了各个领域。
度量。按照Yang等人(2024)的方法,我们进行大规模的人工评估以评估生成的3D环境的质量。注释者根据资产选择、布局连贯性和与预期场景类型的总体一致性,按1到5的等级评分。此外,受Wu等人(2024b)的启发,我们引入了3D环境生成的自动化评估方法。具体来说,我们利用不同的LLM作为评估者,提供生成场景的客观评估。
模型。MoK-RAG3D包含三个核心组件:分割代理、约束代理和QA代理,全部使用GPT-4-1106-preview(Achiam等人,2023)实现。在我们当前的实现中,MoK-RAG3D大约需要三分钟生成一个房间,包括API调用和布局优化所需的时间。所有实验都在配备M1芯片的MacBook上进行。
4.2 人工评估
为了评估MoK-RAG3D生成场景的质量,我们进行了全面的人工评估,涉及两项用户研究中的120名参与者:(1)住宅场景生成的比较分析;(2)评估MoKRAG3D生成多样化场景的能力。
住宅场景评估。我们对120个生成的场景进行了人工评估,均匀分布在四种住宅场景类型(每种类型30个场景)中,分别针对MoK-RAG3D和HOLODECK基线。两系统均使用相同的Objaverse资产集以确保公平比较。
对于MoK-RAG3D,我们提供了场景类型(例如,“卧室”)作为场景生成的输入提示。两系统生成的相同类型的场景配对,形成120对匹配的场景。每对场景以两张打乱顺序的俯视图图像呈现给注释者,确保生成系统保持匿名。
注释者被要求根据三个关键标准评估每个场景:(1)资产选择:哪个系统选择的3D资产更准确且忠实于场景类型?(2)布局连贯性:哪个系统以更现实且逻辑一致的方式排列3D资产(考虑位置和方向)?(3)总体偏好:鉴于场景类型,哪个场景更受欢迎?
图4显示了相比HOLODECK,MoKRAG3D在人工评估中具有明显优势。注释者倾向于MoK-RAG3D在资产选择(42%)、布局连贯性(42%)和总体偏好(48%)方面表现出色。这些结果表明,MoK-RAG3D生成的3D环境更真实且语义上更合适。

图4:MoKRAG3D和HOLODECK在三个标准上的比较人工评估。饼图显示了注释者偏好的分布,展示了百分比和实际标注数。

img-4.jpeg
图5:MIT Scenes Dataset(Quattoni和Torralba,2009)中52种场景类型的人工评估及定性示例。两条水平线代表MoK-RAG3D和HOLODECK在四种住宅场景(卧室、客厅、浴室和厨房)上的平均得分。
场景多样性分析。为了评估MoKRAG3D在住宅场景之外的表现,我们对MIT Scenes Dataset中的52种场景类型进行了人工评估,涵盖五个类别:商店(熟食店、面包店)、家庭(卧室、餐厅)、公共空间(博物馆、更衣室)、休闲(健身房、赌场)和工作空间(办公室、会议室)。我们提示MoK-RAG3D仅使用场景名称作为输入生成每种类型的五个输出,累计跨52种场景类型的260个示例。注释者查看每个场景的俯视图图像和360度视频,并从1到5(分数越高表示质量越好)对其进行评分,考虑资产选择、布局连贯性和与场景类型的总体匹配度。图5展示了多样化场景的人类偏好得分及定性示例。与SpiltRagFor3D在住宅场景中的表现相比,SpiltRagFor3D在一半以上(29/52)的多样化场景中获得了更高的人类偏好得分。
4.3 自动评估
自动生成3D场景的自动评估。
为了评估生成环境的质量,我们采用了两种评估模型:(1)GPT-4o,一种与我们系统中使用的LLM代理同源的闭源模型;(2)LLaVA,一种以其强大的多模态理解能力著称的开源模型。
为了便于评估,我们将每个生成的3D环境转换为四张图像序列,通过每90度旋转场景一次。这些图像随后输入评估模型。评估模型被要求从1到5(分数越高表示质量越好)进行评分,考虑资产选择、布局连贯性和与场景类型的总体匹配度。
如图6所示,所有住宅情景下的两个模型的评估结果一致表明,MoK-RAG3D在大多数环境中优于Holodeck。这些结果突显了MoK-RAG3D在生成高质量3D环境方面的整体优势。
效果评估(回复缺失)。MoKRAG3D的多源检索实现了对特定特征内容的精确控制,提供了减轻回复缺失的独特优势。图7表明,采用MoKRAG3D方法后,缺失率大幅降低,主对象减少9.52%,配对对象减少27.22%。

图6:住宅情景下Holodeck和MoK-RAG3D的自动评估结果比较。GPT-4o和Llava的结果一致表明,MoK-RAG3D在所有评估环境中优于Holodeck。

图7:主对象和配对对象缺失率的比较。MoK-RAG3D显著降低了缺失率。
效果评估(场景质量)。我们使用CLIP Score评估生成场景的俯视图与其指定场景类型的视觉连贯性,遵循提示模板:“[场景类型]的俯视图。”此外,iTHOR中的人工设计场景作为参考上限。如图8所示,MoK-RAG3D在大多数场景中优于HOLODECK,并接近iTHOR,证明了其生成与人类相当场景的能力。
4.4 视觉结果
图9是一例住宅场景结果,展示了直观的主对象为中心的区域划分,可以证明Mok-RAG3D的有效性。更多视觉结果请参见附录。
5 结论
在本文中,我们介绍了MoK-RAG,这是第一个通过功能分区的LLM知识库实现多路径知识检索的RAG框架,促进了并发多源信息检索。我们进一步将此框架扩展到3D环境生成的MoK-RAG3D,提升了场景的真实感和多样性。此外,MoK-RAG3D开创了3D场景生成的自动化评估,自动和人工评估均验证了其在增强具身AI代理生成多样化场景能力方面的有效性。 ## 6 局限性
在本文中,MoK-RAG和MoK-RAG3D展示了提升具身AI代理生成多样化场景的卓越性能。然而,由于缺乏特定领域的硬件资源,它在测试生成场景中的真实机器人方面存在困难。这突显了对生成的3D场景评估进一步增强的需求。
参考文献
Josh Achiam, Steven Adler, Sandhini Agarwal, Lama Ahmad, Ilge Akkaya, Florencia Leoni Aleman, Diogo Almeida, Janko Altenschmidt, Sam Altman, Shyamal Anadkat, et al. 2023. Gpt-4 技术报告。arXiv预印本arXiv:2303.08774。
Sayantan Adak, Pauras Mangesh Meher, Paramita Das, and Animesh Mukherjee. 2025. REVerSum: A 多阶段检索增强生成方法,通过个人叙述增强维基百科尾部传记。第31届国际计算语言学会议:工业轨道论文集,第732-750页,阿布扎比,阿联酋。计算语言学协会。
NA Barrett, MM Large, GL Smith, F Karayanidis, PT Michie, DJ Kavanagh, R Fawdry, D Henderson, and BT O’Sullivan. 2003. 分割和切换注意力于单个物体的两个特征所需的人脑区域。认知脑研究,17(1):1-13。
Matt Deitke, Winson Han, Alvaro Herrasti, Aniruddha Kembhavi, Eric Kolve, Roozbeh Mottaghi, Jordi Salvador, Dustin Schwenk, Eli VanderBilt, Matthew Wallingford, Luca Weihs, Mark Yatskar, and Ali Farhadi. 2020. Robothor:一个开放的仿真到真实的具身AI平台。2020 IEEE/CVF计算机视觉与模式识别会议(CVPR)论文集,第3161-3171页。
Matt Deitke, Rose Hendrix, Ali Farhadi, Kiana Ehsani, and Aniruddha Kembhavi. 2023a. Phone2proc:将鲁棒机器人带入我们的混乱世界。IEEE/CVF计算机视觉与模式识别会议论文集,第9665-9675页。
Matt Deitke, Dustin Schwenk, Jordi Salvador, Luca Weihs, Oscar Michel, Eli VanderBilt, Ludwig Schmidt, Kiana Ehsani, Aniruddha Kembhavi, and Ali Farhadi. 2023b. Objaverse:一个注释3D对象的宇宙。IEEE/CVF计算机视觉与模式识别会议论文集,第13142-13153页。
Matt Deitke, Eli VanderBilt, Alvaro Herrasti, Luca Weihs, Kiana Ehsani, Jordi Salvador, Winson Han, Eric Kolve, Aniruddha Kembhavi, and Roozbeh
Mottaghi. 2022. Prosthor:使用程序生成的大规模具身AI。神经信息处理系统进展,35:5982-5994。
Feiteng Fang, Yuelin Bai, Shiwen Ni, Min Yang, Xiaojun Chen, and Ruifeng Xu. 2024. 使用自适应对抗训练增强检索增强语言模型的噪声鲁棒性。第62届计算语言学年会论文集(第1卷:长篇论文),第10028-10039页,曼谷,泰国。计算语言学协会。
Chuang Gan, Jeremy Schwartz, Seth Alter, Martin Schrimpf, James Traer, Julian De Freitas, Jonas Kubilius, Abhishek Bhandwaldar, Nick Haber, Megumi Sano, Kuno Kim, Elias Wang, Damian Mrowca, Michael Lingelbach, Aidan Curtis, Kevin T. Feigelis, Daniel Bear, Dan Gutfreund, David Cox, James J. DiCarlo, Josh H. McDermott, Joshua B. Tenenbaum, and Daniel L. K. Yamins. 2020. Threadworld:一个交互式的多模态物理模拟平台。ArXiv,abs/2007.04954。
Michael S Gazzaniga. 1995. 来自分裂脑研究的人脑组织原则。Neuron,14(2):217-228。
Qi Gou, Zehua Xia, Bowen Yu, Haiyang Yu, Fei Huang, Yongbin Li, and Nguyen Cam-Tu. 2023. 使用检索增强风格转移使问题生成多样化。2023年经验方法自然语言处理会议论文集,第1677-1690页,新加坡。计算语言学协会。
Yuelyu Ji, Zhuochun Li, Rui Meng, Sonish Sivarajkumar, Yanshan Wang, Zeshui Yu, Hui Ji, Yushui Han, Hanyu Zeng, and Daqing He. 2024. RAG-RLRCLaySum at BioLaySumm:集成检索增强生成和可读性控制的生物医学文本简化。第23届生物医学自然语言处理研讨会论文集,第810-817页,曼谷,泰国。计算语言学协会。
Ziyan Jiang, Xueguang Ma, and Wenhu Chen. 2024. Longrag:使用长上下文LLM增强检索增强生成。arXiv预印本arXiv:2406.15319。
Mukul Khanna, Yongsen Mao, Hanxiao Jiang, Sanjay Haresh, Brennan Shacklett, Dhruv Batra, Alexander Clegg, Eric Undersander, Angel X Chang, and Manolis Savva. 2024. Habitat合成场景数据集(BSSD-200):对象目标导航的3D场景规模和真实感权衡分析。IEEE/CVF计算机视觉与模式识别会议论文集,第16384-16393页。
Eric Kolve, Roozbeh Mottaghi, Winson Han, Eli VanderBilt, Luca Weihs, Alvaro Herrasti, Matt Deitke, Kiana Ehsani, Daniel Gordon, Yuke Zhu, et al. 2017. AI2-Thor:用于视觉AI的交互式3D环境。arXiv预印本arXiv:1712.05474。
Chengshu Li, Ruohan Zhang, Josiah Wong, Cem Gokmen, Sanjana Srivastava, Roberto Martín-Martín, Chen Wang, Gabrael Levine, Michael Lingelbach, Jiankai Sun, et al. 2023. Behavior-1K:一个包含1000个日常活动和逼真模拟的具身AI基准。机器人学习会议论文集,第80-93页。PMLR。
Xavier Puig, Kevin Ra, Marko Boben, Jiaman Li, Tingwu Wang, Sanja Fidler, and Antonio Torralba. 2018. Virtualhome:通过程序模拟家庭活动。IEEE计算机视觉与模式识别会议论文集,第8494-8502页。
Jirui Qi, Gabriele Sarti, Raquel Fernández, and Arianna Bisazza. 2024. 基于模型内部的可信检索增强生成的回答归属。2024年经验方法自然语言处理会议论文集,第6037-6053页,迈阿密,佛罗里达州,美国。计算语言学协会。
Hongjin Qian, Zheng Liu, Kelong Mao, Yujia Zhou, and Zhicheng Dou. 2024. 使用无分块上下文检索的语言模型接地。第62届计算语言学年会论文集(第1卷:长篇论文),第1298-1311页,曼谷,泰国。计算语言学协会。
Ariadna Quattoni and Antonio Torralba. 2009. 认识室内场景。2009年IEEE计算机视觉与模式识别会议论文集,第413-420页。IEEE。
Santhosh K Ramakrishnan, Aaron Gokaslan, Erik Wijmans, Oleksandr Maksymets, Alex Clegg, John Turner, Eric Undersander, Wojciech Galuba, Andrew Westbury, Angel X Chang, et al. 2021. Habitat-Matterport 3D数据集(HM3D):1000个大规模3D环境用于具身AI。神经信息处理系统数据集和基准赛道。
Per E Roland and Karl Zilles. 1998. 人脑皮层的结构划分和功能领域。Brain Research Reviews,26(2-3):87-105。
Tolga Şakar and Hakan Emekci. 2025. 最大化RAG效率:RAG方法的比较分析。自然语言处理,31(1):1-25。
Manolis Savva, Abhishek Kadian, Oleksandr Maksymets, Yili Zhao, Erik Wijmans, Bhavana Jain, Julian Straub, Jia Liu, Vladlen Koltun, Jitendra Malik, et al. 2019. Habitat:具身AI研究的平台。IEEE/CVF国际计算机视觉会议论文集,第9339-9347页。
Justine Sergent. 1987. 人类分裂脑的新视角。Brain,110(5):1375-1392。
Andrew Szot, Alexander Clegg, Eric Undersander, Erik Wijmans, Yili Zhao, John Turner, Noah Maestre, Mustafa Mukadam, Devendra Singh Chaplot, Oleksandr Maksymets, et al. 2021. Habitat 2.0:训练家居助手重新布置其栖息地。神经信息处理系统进展,34:251-266。
Xiaohua Wang, Zhenghua Wang, Xuan Gao, Feiran Zhang, Yixin Wu, Zhibo Xu, Tianyuan Shi, Zhengyuan Wang, Shizheng Li, Qi Qian, et al. 2024a. 检索增强生成的最佳实践搜索。2024年经验方法自然语言处理会议论文集,第17716-17736页。
Zheng Wang, Shu Teo, Jieer Ouyang, Yongjun Xu, and Wei Shi. 2024b. M-RAG:通过多分区检索增强生成增强大型语言模型性能。第62届计算语言学年会论文集(第1卷:长篇论文),第1966-1978页,曼谷,泰国。计算语言学协会。
Di Wu, Jia-Chen Gu, Fan Yin, Nanyun Peng, and Kai-Wei Chang. 2024a. 可信赖检索增强生成的同步忠实性监控。2024年经验方法自然语言处理会议论文集,第9390-9406页,迈阿密,佛罗里达州,美国。计算语言学协会。
Tong Wu, Guandao Yang, Zhibing Li, Kai Zhang, Ziwei Liu, Leonidas Guibas, Dahua Lin, and Gordon Wetzstein. 2024b. GPT-4V (ision) 是文本到3D生成的人类对齐评估器。IEEE/CVF计算机视觉与模式识别会议论文集,第22227-22238页。
Fei Xia, Amir R Zamir, Zhiyang He, Alexander Sax, Jitendra Malik, and Silvio Savarese. 2018. Gibson Env:具身代理的真实世界感知。IEEE计算机视觉与模式识别会议论文集,第9068-9079页。
Yue Yang, Fan-Yun Sun, Luca Weihs, Eli VanderBilt, Alvaro Herrasti, Winson Han, Jiajun Wu, Nick Haber, Ranjay Krishna, Lingjie Liu, et al. 2024. Holodeck:语言引导的3D具身AI环境生成。IEEE/CVF计算机视觉与模式识别会议论文集,第16227-16237页。
Junda Zhu, Lingyong Yan, Haibo Shi, Dawei Yin, and Lei Sha. 2024. ATM:对抗性调优多代理系统构建稳健的检索增强生成器。2024年经验方法自然语言处理会议论文集,第10902-10919页,迈阿密,佛罗里达州,美国。计算语言学协会。
A 附录

img-9.jpeg
图10:一些基于查询的场景结果的定性示例。

图11:MIT室内场景数据集中的一些场景结果的定性示例。

图12:MIT室内场景数据集中的一些场景结果的定性示例。
更多推荐



所有评论(0)