论文浅尝 | SAC-KG：利用大语言模型作为领域知识图谱熟练的自动化构造器（ACL2024）

本文提出了一种新型的自动领域知识图谱构建框架SAC-KG，该框架可直接从领域语料库中高效地构建知识图谱。SAC-KG将LLM用作领域专家，并迭代地采用实体诱导树搜索算法来构建多层级知识图谱。具体而言，我们提出了生成器、验证器和修改器，以形成具有自动化、精确性和可控性的通用知识图谱构建框架。SAC-KG以89.32%的精度构建了超过一百万个节点的领域知识图谱，实现了超过 20% 的精度指标提升。

程序员笑武

1365人浏览 · 2024-12-12 19:54:20

程序员笑武 · 2024-12-12 19:54:20 发布

1. 动机

知识图谱（KG）在各个专业领域的知识密集型任务中都发挥着关键作用，因此，获取准确、可靠的高质量知识就尤为重要。但是现在构建知识图谱的方法严重依赖于人工干预才能获取合格的KG，这不利于KG在现实场景中的应用。因此，我们提出了一个通用的构建KG的框架，SAC-KG：利用大语言模型作为领域知识图谱熟练的自动化生成器，该框架能够有效利用LLM作为领域专家来生成专业且准取的多层级KG。

SAC-KG由三部分组成，生成器、验证器和修剪器，给定一个实体，生成器从原始语料库中生成关系和尾部，从而构建一个单层的KG。然后，验证器和修剪器协同工作，通过纠正生成错误并确定新生成的尾部是否需要对下一层级KG进行迭代来保证准确性。在实验中，SAC-KG能够构建百万节点以上规模的领域KG，与现有的构建KG的方法相比，准确率提升20%以上。

2. 贡献

本文的主要贡献有：

（1）提出了一个专业化、自动化、能够生成高质量KG的通用框架；

（2）生成器消除了在构建KG过程中，上下文噪声对LLM的影响；

（3）验证器和修改器消除了LLM的幻觉现象；

3. 方法

总体框架如图1所示，SAC-KG由生成器、验证器和修剪器组成，并将这三部分融合到一个统一的框架中，以此自动化构建领域KG。给定一个实体，SAC-KG不断地生成一个单层级实体诱导的KG。在每一次迭代中，被指定为“增长”的实体集（修剪器中的绿色节点）构成了生成器下一级生成过程的输入。

图1 总体框架图

3.1 生成器

生成器使用域语料检索器从原始语料库中检索最相关的上下文，并使用开放知识检索器从开源百科全书中检索最相关的三元组。生成器采用上下文学习，是一个无参数、无监督、全自动的学习器。

为了克服LLM的幻觉现象，我们提出了一个领域语料库检索器。该检索器首先将领域语料库分割成句子，然后根据实体的实现频率对相关句子进行排序，最后按照与给定实体的相关性对它们进行降序排序，并将它们连接成一个固定长度的文本作为LLM的输入。

当输入仅包含领域特定语料时，LLM的输出可能难以控制，甚至三元组的格式会错误。为了克服这个问题，我们提出了一个开放知识图谱检索器，它采用上下文学习并从DBpedia中检索与实体最相关的三元组作为示例。这些示例会刺激模型输出正确的内容格式。表1是领域KG在同一领域语料库上的准确率、召回率、领域特异性指标的评估。

表1：领域KG的评估

3.2 验证器

为了进一步提升KG的质量，我们引入了验证器，它负责识别和过滤LLM生成的错误的三元组。验证器是基于规则且无参数的，执行效率高。

验证器由两个步骤组成，错误检测和错误纠正。对于错误检测，我们使用RuleHub中的开放KG挖掘出的现有标准来识别并输出错误类型。流程包括数量检查、格式检查以及冲突检查。数量检查是指三元组数量小于阈值2，则被归类于数量不足；格式检查是包括1)头实体与预定义实体不匹配2)头实体与尾实体相同；冲突检查是指事实冲突，例如一个人的年龄不能是负数。

对于错误纠正，首先使用错误检测步骤确定错误类型并提供相应的提示，然后重新提示LLM重新生成灰姑娘纠正后的输出。

3.3 修剪器

经过验证器后，可以得到所有正确的三元组，然后继续生成下一层级三元组。但是，并非所有三元组都需要这样的迭代生成，例如，三元组(大米，最佳生长温度，20~25摄氏度)是一个正确的三元组，而它的尾实体不需要生成为下一层级三元组的头实体。

为了增强这种可控性，我们提出了修剪器，这是一个经过调优的二分类模型，它的输入是每个正三元组的尾实体，输出为“growing”或“pruned”，表示是继续生成还是停止生成。表2是在第一个三层构造的 KG 中对SAC-KG进行剪枝研究，每次迭代都意味着生成KG的附加层，符号“-”表示在第 1 次迭代中，之前没有应用过剪枝器。

表2 剪枝研究

为了训练修剪器，我们从DBpedia收集训练数据，并选择头部实体的子集来代表“增长”类别。我们还收集了尾部实体的等效子集，排除与头实体列表重叠的实体，以构成“修剪”类别。然后，我们在微调期间使用这些实体文本作为输入，并将相应的标签“增长”或“修剪”作为输出目标。

最后，利用领域语料库，我们可以为输入实体生成单级KG，随后将其合并到生成的KG的新级别中，因此，SAC-KG会使用实体生成多个三元组并继续迭代，创建一个以生成的三元组的头实体为根的KG子树。此过程类似于树一层一层的增量增长，类似于从浅到深检索和访问领域知识。此外，SAC-KG是一种无监督方法，可以应用于任何具有大量非结构化文本语料库的领域，而无需标记数据。SAC-KG的工作流示例如图2。

图2 SAC-KG工作流示例

4. 实验

实验包括五部分：（i）为了评估SAC-KG的有效性，我们将SAC-KG与现有的领域KG构建任务的最新方法进行比较。（ii）为了对构建的KG进行更全面的评估，我们对GPT4与人类进行了一致性评估。（iii）为了对SAC-KG提供更多的见解，我们对每个组件进行了消融研究。（iv）为了分析构建的KG，我们对构建的领域KG进行了案例研究。（v）为了进一步证明SAC-KG的有效性，我们在现有的开源 OlE 基准上评估了SAC-KG。

4.1 准确率

为了评估准确率，我们通过手动和自动两种方式进行评估，后者在本质上更具可扩展性。我们使用GPT-4作为自动判断。具体来说，我们将提取的三元组及其对应的文本作为GPT-4的输入，以评估每个三元组的正确性。

4**.2** 召回率

由于无法访问每个领域文本的基本事实三元组，因此无法估计召回率。因此，我们报告每个领域文本的已验证三元组的平均数量。也就是说，我们报告召回率而不提供分母。我们用召回次数来指代这个指标。

4.3 参数设置

对于生成器的参数设置，我们将LLM的温度值设置为0.1，最大序列长度为2000个标记。对于修剪器，我们使用有效地微调T5模型。我们用2个时期训练模型并使用64的批处理大小。我们将学习率设置为0.001。

4.4 实验结果

图3展示了 0lE6、PIVE、SAC-KG水稻专家案例可视化结果。绿色标记的实体表示正确的三元组，黄色标记的实体表示错误的三元组。表3是GPT 4评估和人类评估的统计指标。表4是OlE2016、WEB、NYT 和 PENN 数据集上的F1分数和AUC结果。

图3水稻领域示例

表3 GPT-4和人工评估结果

表4 F1和AUC得分

5. 总结

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。

如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

在这里插入图片描述

九章云极普惠算力

更多推荐

构建免费的音视频转文字工具：支持多语言的语音识别项目

九章云极普惠算力

深度学习图解：神经网络如何学习？

九章云极普惠算力

人脸识别技术Java实现：关键jar包解析

人脸识别技术已经广泛应用于我们的日常生活中，从智能手机解锁到安防监控，它的重要性不言而喻。人脸识别技术是一种能够识别人脸特征并进行身份验证的生物识别技术。通过对人脸图像或视频流进行分析，系统能够自动匹配数据库中的数据，从而确认被检测者身份。人脸识别技术的背后是一系列复杂算法的组合，它涉及图像处理、模式识别、机器学习等多个领域。在本章，我们将简要介绍人脸识别技术的起源，当前所应用的算法原理以及在未来