AI 问答系统实战：用 Python + Flask + LLM 打造你的智能对话机器人！

本文将手把手教你如何利用 Python 和 Flask 快速搭建一个属于自己的 AI 问答系统，并集成强大的语言模型（如 OpenAI 的 GPT-3.5 或 Hugging Face 的 LLaMA）。AI 问答系统是一种基于自然语言处理（NLP）技术的智能系统，能够理解用户的自然语言问题，并通过预训练的语言模型生成高质量的回答。通过这篇文章，你已经掌握了如何利用 Python 和 Flask

LNU_努力学算法中

2938人浏览 · 2025-02-21 11:36:06

LNU_努力学算法中 · 2025-02-21 11:36:06 发布

开篇互动：你是否想拥属于自己的 AI 问答机器人？

“你是否想过拥有一个可以随时为你解答问题、提供建议的 AI 助手？”
随着大语言模型（LLM）的快速发展，打造一个智能问答系统已经成为可能！本文将手把手教你如何利用 Python 和 Flask 快速搭建一个属于自己的 AI 问答系统，并集成强大的语言模型（如 OpenAI 的 GPT-3.5 或 Hugging Face 的 LLaMA）。无论是技术小白还是有一定经验的开发者，都能轻松上手！

一、AI 问答系统的核心原理

1.1 什么是 AI 问答系统？

AI 问答系统是一种基于自然语言处理（NLP）技术的智能系统，能够理解用户的自然语言问题，并通过预训练的语言模型生成高质量的回答。其核心在于将用户的问题转化为机器可以理解和处理的形式，再结合大规模预训练模型的能力生成智能回复。

1.2 AI 问答系统的组成部分

自然语言理解（NLU）：将用户的自然语言问题转化为结构化的意图或关键词。
知识库检索：从预先构建的知识库中查找与问题相关的答案或信息。
自然语言生成（NLG）：将检索到的信息转化为自然流畅的文本回答。
对话管理：维护对话上下文，确保回答连贯性和逻辑性。

二、准备工具与环境

2.1 安装 Python

确保你已经安装了 Python 3.8 或以上版本。如果是新手，可以直接下载并安装 Anaconda ，它包含了 Python 和常用的科学计算库。

# 检查 Python 版本 
python --version

2.2 安装 Flask

Flask 是一个轻量级的 Web 框架，我们将用它来搭建问答系统的后端服务。

pip install flask

2.3 安装语言模型库

这里我们选择 Hugging Face Transformers ，因为它支持多种主流的大语言模型（如 GPT-3.5、LLaMA 等）。

pip install transformers

三、构建 AI 问答系统的基础设施

3.1 创建 Flask 项目结构

在终端中创建一个新的项目文件夹，并初始化 Flask 应用。

mkdir ai-qa-system 
cd ai-qa-system 
touch app.py  requirements.txt

3.2 编写基本的 Flask 应用

# app.py  
from flask import Flask, request, jsonify 
 
app = Flask(__name__)
 
@app.route('/') 
def home():
    return "Welcome to AI Q&A System!"
 
if __name__ == '__main__':
    app.run(debug=True)

运行应用：

python app.py

访问 http://localhost:5000，你将看到欢迎页面。

四、集成语言模型

4.1 选择一个适合的预训练模型

这里我们选择 Hugging Face 的 llama-7b-hf 模型，它是一个开源的中文大语言模型。

from transformers import AutoModelForCausalInference, AutoTokenizer 
 
model_name = "huggyllama/llama-7b-hf"
tokenizer = AutoTokenizer.from_pretrained(model_name) 
model = AutoModelForCausalInference.from_pretrained(model_name)

4.2 实现问答逻辑

在 Flask 应用中添加一个 /ask 接口，用于接收用户的问题并返回回答。

from flask import Flask, request, jsonify 
from transformers import AutoModelForCausalInference, AutoTokenizer 
 
app = Flask(__name__)
 
# 加载模型和分词器 
model_name = "huggyllama/llama-7b-hf"
tokenizer = AutoTokenizer.from_pretrained(model_name) 
model = AutoModelForCausalInference.from_pretrained(model_name) 
 
@app.route('/ask',  methods=['POST'])
def ask():
    data = request.json  
    question = data.get('question',  '')
    
    # 生成回答 
    inputs = tokenizer(question, return_tensors='np')
    outputs = model.generate( 
        inputs.input_ids, 
        max_length=512,
        temperature=0.7,
        top_p=0.9,
    )
    
    answer = tokenizer.decode(outputs[0].tolist(),  skip_special_tokens=True)
    return jsonify({'answer': answer})
 
if __name__ == '__main__':
    app.run(debug=True)

五、优化问答系统的性能

5.1 异步处理请求

为了提高系统的响应速度，可以使用 Flask 的异步处理功能。

from flask import Flask, request, jsonify 
from transformers import AutoModelForCausalInference, AutoTokenizer 
import asyncio 
 
app = Flask(__name__)
 
model_name = "huggyllama/llama-7b-hf"
tokenizer = AutoTokenizer.from_pretrained(model_name) 
model = AutoModelForCausalInference.from_pretrained(model_name) 
 
@app.route('/ask',  methods=['POST'])
async def ask():
    data = await request.get_json() 
    question = data.get('question',  '')
    
    loop = asyncio.get_event_loop() 
    response = await loop.run_in_executor(None,  process_question, question)
    
    return jsonify({'answer': response})
 
def process_question(question):
    inputs = tokenizer(question, return_tensors='np')
    outputs = model.generate( 
        inputs.input_ids, 
        max_length=512,
        temperature=0.7,
        top_p=0.9,
    )
    return tokenizer.decode(outputs[0].tolist(),  skip_special_tokens=True)
 
if __name__ == '__main__':
    app.run(debug=True)

5.2 缓存机制

为了避免重复计算，可以使用缓存机制存储已处理的问题和回答。

from flask import Flask, request, jsonify 
from transformers import AutoModelForCausalInference, AutoTokenizer 
import asyncio 
from functools import lru_cache 
 
app = Flask(__name__)
 
model_name = "huggyllama/llama-7b-hf"
tokenizer = AutoTokenizer.from_pretrained(model_name) 
model = AutoModelForCausalInference.from_pretrained(model_name) 
 
@lru_cache(maxsize=1000)
def generate_answer(question):
    inputs = tokenizer(question, return_tensors='np')
    outputs = model.generate( 
        inputs.input_ids, 
        max_length=512,
        temperature=0.7,
        top_p=0.9,
    )
    return tokenizer.decode(outputs[0].tolist(),  skip_special_tokens=True)
 
@app.route('/ask',  methods=['POST'])
async def ask():
    data = await request.get_json() 
    question = data.get('question',  '')
    
    response = generate_answer(question)
    return jsonify({'answer': response})
 
if __name__ == '__main__':
    app.run(debug=True)

六、实战案例：构建一个智能客服系统

6.1 案例背景

假设你是一家电商公司的客服主管，希望利用 AI 技术提升客户服务效率。我们可以基于之前的代码，构建一个智能客服系统，用于自动回答客户的常见问题。

6.2 实现步骤

收集常见问题：整理客户咨询中最常见的问题和对应的答案。
训练模型：使用这些数据微调预训练模型，使其更适应特定领域的需求。
部署服务：将训练好的模型集成到 Flask 应用中，并提供 API 接口。

6.3 代码实现

from flask import Flask, request, jsonify 
from transformers import AutoModelForCausalInference, AutoTokenizer 
import asyncio 
 
app = Flask(__name__)
 
model_name = "your-finetuned-model"
tokenizer = AutoTokenizer.from_pretrained(model_name) 
model = AutoModelForCausalInference.from_pretrained(model_name) 
 
@app.route('/chat',  methods=['POST'])
async def chat():
    data = await request.get_json() 
    message = data.get('message',  '')
    
    loop = asyncio.get_event_loop() 
    response = await loop.run_in_executor(None,  process_message, message)
    
    return jsonify({'response': response})
 
def process_message(message):
    inputs = tokenizer(message, return_tensors='np')
    outputs = model.generate( 
        inputs.input_ids, 
        max_length=512,
        temperature=0.7,
        top_p=0.9,
    )
    return tokenizer.decode(outputs[0].tolist(),  skip_special_tokens=True)
 
if __name__ == '__main__':
    app.run(debug=True)