MCP论文亮点：RAG-MCP，利用RAG智能选择工具，有效缓解大语言模型中的Prompt膨胀问题！

本文提出RAG-MCP框架，通过检索增强生成技术解决大语言模型在外部工具激增时面临的提示膨胀和选择复杂性难题。该框架将工具发现任务分解为语义检索步骤，仅将最相关的工具描述传递给模型，显著减少了提示词规模（降低50%以上）并提高工具选择准确率（从13.62%提升至43.13%）。实验证明，该方法有效缓解了工具数量增加导致的性能下降问题，为可扩展的大模型工具集成提供了可行方案。

LLand520

597人浏览 · 2025-06-19 14:10:59

LLand520 · 2025-06-19 14:10:59 发布

1 摘要

由于提示词膨胀和选择复杂性，大语言模型（LLMs）难以有效利用越来越多的外部工具，比如由模型上下文协议（MCP）[1]定义的那些工具。我们引入了RAG-MCP，这是一种检索增强生成框架，它通过将工具发现任务卸载来克服这一挑战。RAG-MCP在调用大语言模型之前，使用语义检索从外部索引中为给定查询识别最相关的MCP。只有选定的工具描述会被传递给模型，这大幅减少了提示词的大小并简化了决策过程。包括MCP压力测试在内的实验表明，RAG-MCP在基准任务上显著减少了提示词令牌（例如，减少超过50%），并将工具选择准确率提高两倍多（43.13%对比基线的13.62%）。RAG-MCP为大语言模型实现了可扩展且准确的工具集成。

2 介绍

2.1 背景与动机

大语言模型（LLMs）在自然对话、推理甚至代码生成方面展现出了卓越的能力。然而，它们从根本上仍受限于其参数中编码的知识以及推理时可用的固定上下文窗口。本质上，无法访问外部信息的大语言模型只能 “困于” 其训练数据，难以更新知识或在现实世界中执行操作。为解决这一限制，近期研究聚焦于通过外部工具和函数调用能力增强大语言模型。通过定义的函数或应用程序编程接口（APIs）调用工具（如网络搜索、数据库、计算器），大语言模型可以获取最新信息，并执行其内置功能之外的复杂操作。这种范式——通常被称为零样本工具使用或函数调用——使人工智能助手能够与最新数据和服务对接，开启了从实时知识查询到金融与旅行规划等专业任务的各种应用。事实上，主要的人工智能供应商已经接受了这一趋势：例如，领先的大语言模型平台现在支持插件应用程序编程接口（API）和结构化函数调用，这样像GPT-4或Claude这样的模型就可以通过定义明确的接口调用外部服务。

在研究界，已经提出了多种方法来实现和改进大语言模型（LLM）对工具的使用。基于提示的策略，如ReAct，将推理步骤与行动指令混合在一起，使大语言模型能够在多轮 “思考过程” 的背景下决定何时咨询工具[15]。以模型为中心的方法也应运而生：例如，Toolformer对大语言模型进行微调，使其仅根据每个工具的少量示例，就能自主决定调用哪个应用程序编程接口（API）、何时调用以及如何整合结果[13]。其他研究人员通过将工具使用纳入训练数据和模型调优来改进工具使用。这包括将函数调用示例融入到遵循指令的数据集中，并探索能有效地向模型描述可用函数的提示格式[3]。这些努力显著提高了零样本工具使用性能。例如，在具有大量工具使用数据的API调用任务上对模型进行微调，可以产生令人印象深刻的结果——Gorilla系统通过相关的API文档检索增强了一个基于70亿参数的LLaMA模型，使其在为各种工具生成正确的API调用方面甚至超过了GPT-4[12]。这些研究的一个重要发现是，及时提供相关上下文（无论是通过优化提示还是检索到的文档）可以极大地提高大语言模型工具选择和使用的准确性，而模型明确决定使用工具的机制（例如用于 “回答与行动” 的特殊决策标记）可以进一步提高可靠性。

尽管取得了这些进展，但随着我们增加可供大语言模型（LLM）使用的工具数量，一个新的挑战出现了。大多数先前的研究和部署考虑的是相对较小的一组工具或应用程序编程接口（API），这些通常是精心挑选的，并且模型在提示中易于处理。然而，在实践中，工具生态系统正在迅速扩张。例如，Anthropic最近推出的模型上下文协议（MCP）定义了一种通用的开放标准，用于将人工智能系统与外部数据源和服务连接起来。MCP使单个助手能够通过统一协议与许多数据存储库和商业工具进行交互，取代了零散的一次性集成。因此，一个先进的大语言模型智能体很快可能会拥有数十种可供其使用的功能——从谷歌云端硬盘（Google Drive）和Slack连接器到GitHub、数据库、地图等等——所有这些都作为它可以调用的MCP “工具” 进行注册。可用工具的这种激增带来了重大障碍。

提示膨胀（Prompt Bloat）是一个关键问题：在模型的上下文环境中为每一个可能的工具提供定义或使用说明，会消耗大量的标记，并可能使模型不堪重负。据观察，随着工具数量的增加，实际上不可能在单个提示中描述大量的API或工具，而且许多API功能重叠，仅有细微差别。一次性包含过多工具不仅会耗尽上下文长度，还可能使模型感到困惑——这些功能可能开始混淆。这直接导致了第二个问题：决策开销。面对一长串工具（其中许多工具的功能范围相似），模型在选择是否调用以及调用哪个工具时，面临着更复杂的决策。选择越多，出错的可能性就越高，比如选择了次优的工具，或者误解了某个工具的功能。实际上，即使是最先进的模型在这种情况下也可能出错：例如，在有众多API选项的场景中，据报道GPT -4会凭空虚构出一个实际并不存在的API，而Anthropic的Claude为用户请求选择了错误的库。这些失败案例强调了，由于提示的容量压力以及模型决策过程中的模糊性，简单地扩大工具集可能会降低大语言模型（LLM）的性能。

为应对这些挑战，我们提出了RAG-MCP，这是一种将检索增强生成（RAG）与模型上下文协议框架相结合的解决方案。RAG-MCP的核心思想是避免一次性向语言模型展示所有工具，而是根据用户查询动态检索相关的工具子集。在我们的方法中，大量可用的工具描述（MCP函数模式、使用示例等）存储在一个基于语义索引的外部存储器中。当新的查询到达时，专门的检索器（例如向量空间语义搜索）首先选择最有可能对该查询有用的前k个候选工具。然后，只有这k个工具描述被注入到大型语言模型（LLM）的提示中（或通过函数调用API提供），从而大大减少了上下文长度和复杂性。这个检索步骤起到了一种聚焦上下文过滤的作用，减少了提示的冗余并引导模型做出选择。这种方法类似于检索增强问答系统的工作方式：不是将整个维基百科提供给模型，而是只检索相关的文章[6]。在这里，我们不是检索静态知识，而是实时检索可操作的工具知识。一个额外的好处是可扩展性——因为工具信息存储在外部索引中，新工具或更新的API可以通过更新该索引来整合，而无需重新训练LLM，确保系统始终保持最新状态。简而言之，检索通过在正确的时间提供正确的工具来控制不断增长的工具集，从而减轻模型的决策负担。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

2.1 贡献

综上所述，本文做出了以下贡献：

1. RAG-MCP框架：我们引入了一种新颖的架构，在多工具调用编程（MCP）场景中，将检索机制与大语言模型（LLM）的函数调用相结合。据我们所知，这是首批通过查询工具库获取相关选项，而非盲目地使用所有工具进行提示，从而使大语言模型能够处理大量工具的框架之一。这种设计既保留了开放MCP生态系统的灵活性，又通过结构化来维持其可处理性。

2. 可扩展的工具检索：我们开发了一个语义工具检索模块，该模块在向量空间中表示每个可用工具的描述，并有效地将用户查询与最相关的工具进行匹配。这显著减少了提示的大小和复杂性（缓解提示膨胀问题），并通过缩小选择范围来改进决策过程。在检索到的上下文的引导下，即使工具总数不断增加，大语言模型也能更准确地选择和使用正确的外部工具。值得注意的是，我们的方法允许通过对新工具进行索引，即时添加新工具，而无需对大语言模型进行额外的微调。

3. 提升工具使用性能：通过全面的实验，我们证明了RAG-MCP有效地解决了盲目扩大工具集时出现的性能下降问题。在一系列工具增强的自然语言处理任务中，我们发现随着可用函数数量的增加，基线大语言模型在选择和执行正确工具方面的成功率显著下降（体现了上述挑战）。然而，在RAG-MCP策略下，模型的性能在很大程度上恢复到了原始水平，在某些情况下甚至超过了小工具集基线。特别是，RAG-MCP在选择合适工具方面产生了显著更高的准确率，并减少了诸如幻觉或参数错误的函数调用等错误。这些结果强调了使用检索来扩展工具使用的有效性：所提出的方法使大语言模型即使在工具数量众多的情况下，也能保持较高的工具选择准确率和可靠性，为更具可扩展性和能力的工具增强人工智能系统铺平了道路。

总体而言，我们的工作表明，整合基于检索的上下文管理是应对大语言模型中工具激增挑战的一个有前景的方向。通过使模型能够从众多工具中学习使用哪一种工具，并仅为这些工具提供信息，RAG - MCP为使用广泛工具包的下一代人工智能代理提供了一个切实可行的解决方案。它结合了检索增强和标准化工具应用程序编程接口的优势，以确保更多的工具并不意味着性能下降，而是意味着模型能够准确高效地运用更广泛的技能。

3 相关工作

3.1 大语言模型中的工具使用

大语言模型（LLMs）已通过整合外部工具来克服在算术、检索和代码执行方面的局限。Toolformer展示了一种自监督方法，模型通过该方法学习何时以及如何调用诸如计算器或搜索引擎之类的应用程序编程接口（APIs），从而提升跨任务的零样本性能。ReAct将思维链推理与行动步骤交织在一起，以便与外部环境（如维基百科API）进行交互，从而产生更具可解释性且准确的多步骤解决方案。WebGPT在模拟浏览器环境中对GPT-3进行微调，训练其浏览、搜索并为长篇问答引用来源，通过基于事实的检索减少幻觉。最近，ChatGPT插件引入了一个生产插件生态系统，使ChatGPT能够在一个可控的、注重安全的框架中访问最新信息和第三方服务。

3.2 检索增强生成

检索增强生成（RAG）首次将参数化大语言模型与非参数化内存结合在一个密集向量索引中，在推理时检索相关段落以改进知识密集型任务。后续工作将RAG扩展到广泛的自然语言处理范式，包括模块化和先进的RAG变体，这些变体可根据每个标记或每个查询动态调整检索方式。RAG将内存访问与生成解耦，这启发了我们的MCP-RAG方法，其中MCP发现被视为一个检索子问题，与核心文本生成相互独立。

3.3 模型上下文协议

模型上下文协议通过将资源提示、身份验证和参数模式捆绑到模块化的 “MCP” 服务器中，对大语言模型与API的交互进行了标准化。MCP充当函数调用扩展，类似于OpenAI的函数调用API，但具有更强的社区可扩展性。MCP存储库的快速增长（截至2025年4月），mcp.so上有4400多个服务器凸显了对可扩展的发现和验证机制的需求。

4 方法论

我们研究可用的MCP服务器数量如何影响大语言模型选择和调用正确工具的能力（“提示膨胀”），并提出MCP-RAG，这是一种检索增强框架，通过为每个查询动态检索最相关的MCP来减轻这种性能下降。

4.1 提示膨胀与MCP压力测试

现代大语言模型（LLMs）常常需要在众多可能的外部工具中进行选择，每个工具都由MCP模式进行描述。随着MCP数量的增加，将所有描述都包含在单个提示中会导致提示膨胀：上下文窗口被干扰信息填满，降低了模型区分和调用正确工具的能力。

这种现象与大海捞针（NIAH）测试类似，该测试将一个随机事实（“针”）嵌入到一段长文本（“干草堆”）中间，并测量大语言模型在不同上下文长度和深度下检索该事实的能力。在NIAH测试中，随着干草堆的增大，性能会急剧下降，这揭示了上下文检索的局限性。

受NIAH的启发，我们针对网页搜索任务设计了一项MCP压力测试：

在每次试验中，我们向模型展示N个MCP模式（一个是真实的，N - 1个是干扰项），并要求它选择并调用正确的网页搜索MCP。我们将N从1变化到11100，分为26个区间，测量选择准确率、任务成功率、提示令牌使用情况和延迟。这种设置量化了随着MCP池大小增加，工具选择能力是如何下降的。

4.2 RAG - MCP框架

为了克服提示膨胀问题，RAG - MCP将检索增强生成（RAG）原则应用于工具选择。我们不再向大语言模型灌输所有MCP描述，而是维护一个包含所有可用MCP元数据的外部向量索引。在查询时：

1. 检索。一个轻量级的基于大语言模型的检索器（例如，通义千问）对用户的任务描述进行编码，并在MCP索引上执行语义搜索，返回与任务最相似的前k个候选MCP[6]。

2. 验证。对于每个检索到的MCP，RAG - MCP可以生成一个少样本示例查询，并测试其响应，以确保基本兼容性，在调用之前起到“合理性检查”的作用。

3. 调用。只有单个最佳的MCP描述，包括其工具使用参数，会被注入到大语言模型提示或函数调用API中，然后该模型在不考虑工具发现的情况下进行规划和执行[2]。

这种设计带来了几个好处：

- 缩小提示规模。通过仅提供相关的MCP元数据，即使完整的工具注册表很大，RAG - MCP也能避免上下文窗口过载。

- 降低认知负担。大语言模型不再需要从数百个干扰项中筛选，从而提高了选择准确率并减少了幻觉现象。

- 资源高效。与传统的MCP客户端（例如，Claude或早期的GPT - 4集成）不同，它们在交互之前必须实例化所有已注册的MCP服务器，而MCP - RAG仅激活所选的MCP，降低了启动成本，并能够在没有基础设施瓶颈的情况下支持任意大的工具集。

- 多轮稳健性。在跨越多个轮次的对话中，大语言模型无需重新纳入所有最小关键提示（MCP）；基于检索增强生成的最小关键提示（RAG-MCP）检索器可动态处理工具调用，为特定任务推理腾出上下文空间。

4.3 三步流程示意图

我们将RAG-MCP的操作概括为三个核心步骤。流程图如图3所示：

1. 任务输入→检索器：用户的自然语言任务被编码并提交给检索器。

2. 检索器→MCP选择与验证：检索器搜索MCP模式的向量索引，根据语义相似度对候选对象进行排序，并可选择通过合成示例对每个候选对象进行测试。

3. 使用选定的MCP执行大语言模型：大语言模型仅接收选定的MCP模式和参数，并通过函数调用接口执行任务。

图2. RAG-MCP流程：(1) 用Qwen-max编码用户查询，(2) 检索并验证前k个MCP，以及(3) 调用选定的MCP

通过将工具发现与生成解耦，RAG-MCP确保大语言模型能够扩展到数百或数千个MCP，而不会出现提示膨胀或决策疲劳，就像RAG系统通过仅检索相关段落来避免用整个语料库使大语言模型不堪重负一样。

4.4 讨论

我们的方法将压力测试的严谨性（通过MCP压力测试）与检索增强工具使用的有效性相结合。压力测试量化了在干扰性MCP使提示膨胀时出现的性能急剧下降，这反映了NIAH评估中长上下文回忆失败的情况[5]。然后，RAG - MCP通过动态缩小工具集来应对这一问题，减少提示令牌和决策复杂性，从而恢复——并且常常提高——任务成功率。

此外，通过使用外部索引，RAG - MCP保持可扩展性：可以通过索引其元数据来添加新的MCP，而无需重新训练大语言模型。并且通过按需选择性激活服务器，它避开了先前工具增强的大语言模型部署在同时实例化MCP时所面临的实际限制。

5 实验

5.1 压力测试

为了量化大语言模型（LLM）的工具选择能力如何随着MCP池的大小而变化，我们进行了一项压力测试。在该测试中，候选MCP服务器的数量N以一定间隔从1变化到11100，而关键的MCP服务器则按从上到下的顺序排列。对于N的每个值，我们从我们包含4400多个公开列出的服务器的完整注册表中，随机选择一个“真实”的MCP（即唯一能够满足任务要求的服务器）以及N - 1个干扰MCP。这种设计确保了每N个候选者中恰好有一个是相关的。然后，我们向模型提出20个网络搜索任务，要求它（a）选择正确的MCP，（b）发出有效的查询或答案，以及（c）返回最终结果。

图3展示了从1到11100个MCP位置的每次试验成功率，其中黄色表示选择成功，紫色表示失败。

图3绘制了随着N增加时的选择准确率和任务成功率。我们观察到一种明显的非单调趋势：这些结果从数量上证实，虽然MCP - RAG在很大程度上缓解了提示膨胀问题，并在中小规模的工具池中保持了高性能，但其检索精度和整体吞吐量会随着工具注册表扩展到数千个MCP而下降。

5.2 RAG - MCP

我们在MCPBench的网络搜索子集中评估了所有方法，我们将其用作我们的保留测试平台。对于每个基线方法，我们进行20次独立试验，如果在这20次试验中产生超过10个正确答案，我们就认为该基线方法是成功的。在每次试验中，模型可能会与MCP服务器进行多达10轮交互，以得出最终响应。

为了以自动化且可重现的方式评估答案的正确性，我们采用Deepseek - v3 作为评估器。由于MCP服务器需要外部网络访问，因此可能对延迟或瞬时故障敏感，我们在所有实验中都采用可控的网络环境，确保不会因连接问题导致请求失败。最后，所有试验都由qwen-max-0125作为我们底层的基础大语言模型驱动。

基线方法我们在实验中评估了三种选择策略：

1. 空白条件：一次性向大语言模型提供所有N个MCP描述，并要求它选择正确的那个。

2. 实际匹配：使用任务描述和MCP元数据上的简单关键词匹配对候选池进行预过滤，然后在这个缩减后的集合上提示模型。

3. RAG - MCP：使用我们的向量索引检索器对所有N个MCP进行语义排序，并仅将排名最高的候选者的模式注入到大语言模型的提示中以供执行。

指标我们针对每个基线方法使用三个关键指标来评估性能：

- 准确率（%）：模型选择到真实MCP的试验百分比。

- 平均提示词元数：提示所消耗的词元平均数量，包括注入的MCP元数据。

- 平均完成词元数：模型作为最终输出生成的词元平均数量。

最终答案的判断是通过基于Llama的验证器（“Llama作为评判者”）自动进行的，以将模型输出与真实情况进行比较。

表1总结了所评估的基线方法的性能，清楚地证明了MCP-RAG的有效性：如表所示，MCP-RAG达到了43.13%的最高准确率，显著优于实际匹配（Actual Match）和空白条件（Blank Conditioning）方法，这两种方法的得分分别为18.20%和13.62%。此外，MCP-RAG显著将提示词元的平均数量减少到1084个，与其他基线方法相比有大幅减少，尤其是空白条件方法，它需要2133.84个词元。虽然与实际匹配（23.60个）相比，MCP-RAG的完成词元数量（78.14个）有所增加，但这种权衡是有益的，因为它与更高的准确率和整体任务成功率相关。

6 分析

6.1 压力测试分析

图3展示了MCP位置从1到11100每次试验的成功情况，其中黄色表示选择成功，紫色表示失败。我们观察到：

- 早期成功率高：MCP位置低于30的区域主要为黄色，这表明当候选池最小时，成功率超过90%。

- 中等范围的可变性：在位置31 - 70的范围内，紫色区域间歇性出现，这反映出随着MCP描述之间语义重叠的增加，准确率降低。

- 大规模时性能下降：在位置约100之后，紫色占主导，这意味着在处理非常大的工具注册表时，检索精度会降低。

- 剩余成功孤岛：在较高位置偶尔出现的黄色斑块表明，某些MCP与特定查询仍然保持良好匹配，即使在大量的池中也能提供稳健性。

这些模式证实，虽然MCP - RAG能有效地抑制提示膨胀，并在小到中等规模的MCP池中保持较高的准确率，但随着MCP总数的增加，检索精度会面临挑战，这为未来关于分层或自适应检索机制的研究提供了动力。

6.1 RAG-MCP结果分析

RAG-MCP的卓越性能可归因于几个因素：

- 聚焦上下文过滤：通过仅注入单个最相关的MCP模式，模型避免了由不相关工具描述造成的干扰，从而产生更清晰的决策边界。

- 提示效率：提示令牌的大幅减少使模型能够将更多的上下文窗口用于对任务本身进行推理，而不是解析无关的元数据。

- 平衡生成：尽管相对于实际匹配，RAG-MCP略微增加了完成令牌的使用量，但这种开销反映了更全面的推理和验证步骤，这与更高的准确性相关。

总体而言，这些发现证实，检索增强的MCP选择有效地控制了提示膨胀，并提高了大语言模型（LLM）的工具选择可靠性，使RAG-MCP成为可扩展外部工具集成的极具吸引力的解决方案。

7 结论

我们提出了RAG - MCP，这是一个简单却强大的框架，通过仅为每个查询检索最相关的模式来驾驭大型MCP工具集。借助有针对性的检索，RAG - MCP具有以下特点：

- 大幅减小提示词规模，与一次性输入所有工具相比，令牌使用量减少一半以上。

- 提高选择准确率，在高负载情况下，成功率是简单和基于关键词方法的三倍多。

- 保持可扩展性，因为新的MCP可以即时编入索引，无需重新训练模型。

本质上，RAG - MCP将一个包含数百或数千个工具的庞大库转变为一个精简的、按需使用的工具包。未来的工作将通过分层索引或自适应策略在超大规模下优化检索，并探索多工具工作流程和实际应用中的智能体部署。RAG - MCP为可扩展、可靠的大语言模型智能体奠定了 “黄金核心”，使其能够精确且高效地运用大量外部服务。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

一、大模型风口已至：月薪30K+的AI岗正在批量诞生

2025年大模型应用呈现爆发式增长，根据工信部最新数据：

国内大模型相关岗位缺口达47万

初级工程师平均薪资28K

70%企业存在"能用模型不会调优"的痛点

真实案例：某二本机械专业学员，通过4个月系统学习，成功拿到某AI医疗公司大模型优化岗offer，薪资直接翻3倍！

二、如何学习大模型 AI ？

🔥AI取代的不是人类，而是不会用AI的人！麦肯锡最新报告显示：掌握AI工具的从业者生产效率提升47%，薪资溢价达34%！🚀

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

1️⃣ 提示词工程：把ChatGPT从玩具变成生产工具
2️⃣ RAG系统：让大模型精准输出行业知识
3️⃣ 智能体开发：用AutoGPT打造24小时数字员工

📦熬了三个大夜整理的《AI进化工具包》送你：
✔️ 大厂内部LLM落地手册（含58个真实案例）
✔️ 提示词设计模板库（覆盖12大应用场景）
✔️ 私藏学习路径图（0基础到项目实战仅需90天）

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

* 大模型 AI 能干什么？
* 大模型是怎样获得「智能」的？
* 用好 AI 的核心心法
* 大模型应用业务架构
* 大模型应用技术架构
* 代码示例：向 GPT-3.5 灌入新知识
* 提示工程的意义和核心思想
* Prompt 典型构成
* 指令调优方法论
* 思维链和思维树
* Prompt 攻击和防范
* …

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

* 为什么要做 RAG
* 搭建一个简单的 ChatPDF
* 检索的基础概念
* 什么是向量表示（Embeddings）
* 向量数据库与向量检索
* 基于向量检索的 RAG
* 搭建 RAG 系统的扩展知识
* 混合检索与 RAG-Fusion 简介
* 向量模型本地部署
* …

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

* 为什么要做 RAG
* 什么是模型
* 什么是模型训练
* 求解器 & 损失函数简介
* 小实验2：手写一个简单的神经网络并训练它
* 什么是训练/预训练/微调/轻量化微调
* Transformer结构简介
* 轻量化微调
* 实验数据集的构建
* …

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

* 硬件选型
* 带你了解全球大模型
* 使用国产大模型服务
* 搭建 OpenAI 代理
* 热身：基于阿里云 PAI 部署 Stable Diffusion
* 在本地计算机运行大模型
* 大模型的私有化部署
* 基于 vLLM 部署大模型
* 案例：如何优雅地在阿里云私有部署开源大模型
* 部署一套开源 LLM 项目
* 内容安全
* 互联网信息服务算法备案
* …

学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。

如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

九章云极普惠算力

更多推荐

Webpack HMR在aspnetcore-Vue-starter中的应用：提升开发效率的秘诀

aspnetcore-Vue-starter是一个集成了ASP.NET Core后端与Vue.js前端的强大单页应用模板，它通过Webpack热模块替换（HMR）技术，为开发者提供了无缝的开发体验，让前端代码修改无需手动刷新页面即可实时生效。## 🚀 什么是Webpack HMR？Webpack热模块替换（Hot Module Replacement）是一项革命性的开发技术，它允许在应用

九章云极普惠算力

人脸识别真的需要深度学习吗？ArcFace技术深度解析

在当今数字化时代，人脸识别技术已广泛应用于安防、支付、智能门禁等领域。许多人好奇：人脸识别真的需要深度学习吗？答案是肯定的。传统方法在复杂场景下识别精度有限，而基于深度学习的ArcFace技术通过创新的角度损失函数，实现了高精度的人脸识别。本文将深入解析ArcFace技术的原理、优势及实际应用。## 一、传统方法的局限性传统人脸识别方法如 Eigenfaces、Fisherfaces 等，

九章云极普惠算力

如何使用Nut高效管理NS游戏文件：新手入门教程

Nut是一款功能强大的NS游戏文件管理工具，能帮助玩家轻松管理、组织和优化Switch游戏文件。无论是本地存储还是云端文件，Nut都提供了直观的界面和实用的功能，让游戏管理变得简单高效。本文将为你详细介绍Nut的安装步骤、核心功能及使用技巧，让你快速掌握这款工具的使用方法。## 一、准备工作：安装Nut### 1.1 环境要求Nut基于Python开发，支持Windows、Linux和m