如何跟踪大语言模型(LLM)的Token使用情况

大语言模型（LLMs）的使用在许多应用中都涉及到成本核算，而成本主要由模型使用的Token数量决定。LangChain是一个广泛使用的框架，提供了便捷的方式来调用大语言模型并进行结果处理。然而，当应用上线时，监控其Token使用情况以估算费用就显得尤为重要。我们将使用LangSmith来帮助跟踪这些Token使用。

qq_37836323

381人浏览 · 2025-06-26 15:31:39

qq_37836323 · 2025-06-26 15:31:39 发布

在生产环境中，计算应用程序成本的关键在于跟踪Token使用情况。在这篇文章中，我们将展示如何从LangChain模型调用中获取这个信息。

技术背景介绍

核心原理解析

在LangChain中，Token使用可以通过回调函数（Callback）进行跟踪。这些回调函数能够在多次调用中累积Token使用数据，并计算总的使用成本。

代码实现演示

单次调用Token跟踪

让我们看看一个如何跟踪单次大语言模型调用的简单示例：

from langchain_community.callbacks import get_openai_callback
from langchain_openai import OpenAI

# 使用OpenAI稳定可靠的API服务
llm = OpenAI(model_name="gpt-3.5-turbo-instruct")

with get_openai_callback() as cb:
    result = llm.invoke("Tell me a joke")
    print(result)
    print("---")

print(f"Total Tokens: {cb.total_tokens}")
print(f"Prompt Tokens: {cb.prompt_tokens}")
print(f"Completion Tokens: {cb.completion_tokens}")
print(f"Total Cost (USD): ${cb.total_cost}")

多次调用Token跟踪

对于多次调用的情景，我们可以使用相同的回调函数来跟踪累积的Token使用，如下所示：

from langchain_community.callbacks import get_openai_callback
from langchain_core.prompts import PromptTemplate
from langchain_openai import OpenAI

# 初始化OpenAI模型和Prompt模板
llm = OpenAI(model_name="gpt-3.5-turbo-instruct")
template = PromptTemplate.from_template("Tell me a joke about {topic}")
chain = template | llm

with get_openai_callback() as cb:
    response = chain.invoke({"topic": "birds"})
    print(response)
    response = chain.invoke({"topic": "fish"})
    print("--")
    print(response)

print(f"Total Tokens: {cb.total_tokens}")
print(f"Prompt Tokens: {cb.prompt_tokens}")
print(f"Completion Tokens: {cb.completion_tokens}")
print(f"Total Cost (USD): ${cb.total_cost}")

流式跟踪Token

对于流式数据的处理，当前的回调管理器尚不支持Token计数。为此，我们可以使用其他解决方案，例如使用自定义回调处理程序或监控平台如LangSmith。

应用场景分析

在大语言模型被用于如互动问答系统、自动内容生成或其他高频调用的场景中，跟踪Token使用不仅可以帮助控制成本，还能优化模型调用策略。

实践建议

在应用初期进行详细的Token使用分析，以便选择合适的模型和调用策略。
定期复查Token使用情况，以识别可能的优化点。
利用监控工具，如LangSmith，持续追踪和优化应用程序的成本效益。

如果遇到问题欢迎在评论区交流。
—END—

九章云极普惠算力

更多推荐

终极指南：如何将Instant Meshes无缝集成到现有3D管线中

Instant Meshes是一款强大的交互式场对齐网格生成器，能够快速将复杂3D模型转换为结构化四边形网格。本文将为您提供完整的集成指南，帮助您将这个高效工具融入现有的3D工作流程。🚀## 什么是Instant Meshes？Instant Meshes是一个开源的网格重拓扑工具，专门用于将任意三角形网格转换为高质量的四边形网格。它采用先进的场对齐算法，能够保持模型的几何特征，同时显著

九章云极普惠算力

BEAM数据结构和引用机制详解：构建高性能Erlang应用

想要构建高并发、高可用的分布式应用？Erlang的BEAM虚拟机正是为此而生！本文将深入解析BEAM的核心数据结构和引用机制，帮助您理解如何构建高性能的Erlang应用。BEAM虚拟机通过独特的内存管理策略和进程模型，为现代分布式系统提供了强大的基础架构支持。## BEAM内存架构概览BEAM虚拟机的内存系统采用了分层的设计理念，每个Erlang进程都拥有独立的堆栈结构。这种设计确保了进程

九章云极普惠算力

混合精度训练革命：happy-llm如何用16位浮点数实现效率与精度双赢

在大语言模型训练领域，混合精度训练已经成为提升训练效率的关键技术。通过巧妙结合16位和32位浮点数，happy-llm项目展示了如何在保证模型精度的同时，显著降低显存占用并加速训练过程。## 什么是混合精度训练？混合精度训练是一种结合不同精度浮点数进行深度学习训练的技术。它主要使用16位浮点数（FP16或BF16）进行前向传播和反向传播，同时保留32位浮点数用于关键的权重更新操作。[!