Z-Image-Turbo-辉夜巫女开发者指南：Xinference + LangChain 构建图文混合RAG应用

本文介绍了如何在星图GPU平台上自动化部署Z-Image-Turbo-辉夜巫女镜像，并利用其构建图文混合RAG应用。该镜像能够根据文本描述生成高质量的二次元风格图片，并可与LangChain框架结合，实现基于知识库的智能问答与视觉内容创作，适用于二次元内容生成、智能客服原型开发等场景。

GarnetLynx45

234人浏览 · 2026-04-01 04:32:16

GarnetLynx45 · 2026-04-01 04:32:16 发布

Z-Image-Turbo-辉夜巫女开发者指南：Xinference + LangChain 构建图文混合RAG应用

想快速搭建一个能理解图片、生成图片，还能结合文本知识库进行智能问答的应用吗？今天，我们就来手把手教你，如何利用 Z-Image-Turbo-辉夜巫女 这个强大的文生图模型，结合 Xinference 和 LangChain，构建一个功能丰富的图文混合检索增强生成（RAG）应用。

这个应用不仅能根据文字描述生成精美的“辉夜巫女”风格图片，还能让模型“看懂”你上传的图片，并结合你提供的文档知识库，给出更精准、更智能的回答。无论是想打造一个二次元创作助手，还是一个具备视觉理解能力的智能客服原型，这篇指南都能为你提供清晰的路径。

1. 项目概述与核心价值

在开始敲代码之前，我们先搞清楚我们要做什么，以及为什么这么做有价值。

1.1 我们要构建什么？

简单来说，我们要搭建一个 “图文双修”的智能应用。它具备以下核心能力：

文生图：输入一段关于“辉夜巫女”的文字描述，模型就能生成对应的二次元风格图片。
图理解（视觉问答）：上传一张图片，模型可以“看懂”图片内容，并回答你关于图片的问题。
知识增强问答（RAG）：结合你提供的文本资料（比如角色设定文档、故事背景），模型能在生成回答或图片时，引用这些知识，让输出更准确、更符合设定。

1.2 为什么选择这个技术栈？

Z-Image-Turbo-辉夜巫女：这是一个专注于生成“辉夜巫女”风格图片的LoRA模型。它基于强大的文生图基础模型，通过少量特定风格图片训练而成，能稳定产出高质量、风格统一的二次元角色图像。这是我们应用的“画笔”。
Xinference：一个高性能、易扩展的模型推理服务框架。它让我们可以像启动一个Web服务一样，轻松地将Z-Image-Turbo模型部署成一个可通过API调用的服务，无需关心复杂的底层环境配置。
LangChain：一个用于构建大语言模型应用的框架。它就像“胶水”和“工具箱”，能帮我们轻松地串联起模型调用、文档加载、文本检索（RAG的核心）以及应用流程编排，极大地简化了开发复杂度。
Gradio：一个快速构建机器学习Web界面的Python库。我们用它来制作一个直观的网页界面，让非开发者也能轻松使用我们的应用。

核心价值：这套组合拳将专业的AI模型能力，封装成了一个易部署、易使用、可扩展的完整应用。你获得的不再是一个孤立的模型，而是一个随时可用的、具备商业应用潜力的服务原型。

2. 环境准备与模型部署

万事开头难，但第一步我们让它变得很简单。我们将使用预置的Docker镜像来一键部署所有环境。

2.1 快速启动模型服务

假设你已经获取了 Z-Image-Turbo-辉夜巫女 的Docker镜像。运行以下命令启动容器：

docker run -p 8080:8080 your-image-name:tag

这条命令将镜像运行起来，并把容器内的8080端口映射到本机的8080端口。

2.2 验证服务状态

容器启动后，模型需要一些时间加载到内存中。你可以通过查看日志来确认服务是否就绪。

进入容器内部，或者如果你在镜像的启动脚本中配置了日志输出，可以查看指定日志文件。例如，根据提供的说明，可以运行：

cat /root/workspace/xinference.log

当你看到日志中显示模型加载完成、Xinference服务启动成功的消息时（通常包含 Uvicorn running on http://0.0.0.0:8080 之类的信息），就说明模型服务已经准备就绪。

2.3 访问Web界面（Gradio UI）

服务启动后，打开你的浏览器，访问 http://你的服务器IP:8080。

你会看到一个简洁的Gradio界面。在“文生图”的标签页下，有一个文本输入框和一个“生成”按钮。这证明了我们的核心模型服务——Z-Image-Turbo-辉夜巫女——已经成功部署并可以交互了。

试试看：在输入框里写下 辉夜巫女，月光下，手持御币，身穿红白巫女服，眼神宁静，然后点击生成。稍等片刻，你就能得到一张独一无二的辉夜巫女画像。

至此，模型的单机版基础服务已经搭建完成。接下来，我们要让它变得更“聪明”。

3. 构建图文混合RAG应用核心

现在进入核心环节：用LangChain把模型服务、图片理解能力和外部知识库连接起来。

3.1 项目结构与依赖安装

首先，创建一个新的项目目录，并安装必要的Python包。

mkdir image-text-rag-app && cd image-text-rag-app
python -m venv venv
source venv/bin/activate  # Windows系统使用 `venv\Scripts\activate`
pip install langchain langchain-community xinference-client gradio chromadb sentence-transformers pillow

langchain, langchain-community: 核心框架。
xinference-client: 用于调用我们部署的Xinference模型服务。
gradio: 构建Web界面。
chromadb: 一个轻量级向量数据库，用于存储和检索知识库文档的嵌入向量。
sentence-transformers: 用于将文本转换为向量（嵌入）。
pillow: 处理图片。

3.2 连接Xinference模型服务

我们需要告诉LangChain如何调用我们部署的图文模型。Xinference提供了兼容OpenAI API的接口，这让调用变得非常简单。

创建一个Python脚本，比如 app_core.py：

import os
from xinference.client import Client
from langchain_openai import ChatOpenAI
from langchain_community.chat_models import ChatOpenAI as CommunityChatOpenAI # 备用

# 1. 连接到Xinference服务
# 假设你的Xinference服务运行在本地8080端口
XINFERENCE_ENDPOINT = "http://localhost:8080"
client = Client(XINFERENCE_ENDPOINT)

# 2. 获取模型UID
# 首先，列出已启动的模型，找到Z-Image-Turbo对应的UID
models = client.list_models()
print("Available models:", models)

# 假设我们找到文生图模型的UID是 'image-model-001'
# 对于对话/文本理解，Xinference可能也部署了LLM，这里我们需要一个能处理多模态（图文）的模型。
# 为了简化，我们假设Xinference服务也部署了一个支持视觉问答的LLM（如Qwen-VL），其UID为 'vl-model-001'
IMAGE_MODEL_UID = "image-model-001"  # 替换为你的文生图模型实际UID
TEXT_VL_MODEL_UID = "vl-model-001"   # 替换为你的视觉语言模型实际UID

# 3. 创建LangChain可调用的模型对象
# 对于文本生成/对话，使用ChatOpenAI兼容接口
llm = ChatOpenAI(
    base_url=f"{XINFERENCE_ENDPOINT}/v1", # OpenAI API兼容端点
    api_key="not-needed", # Xinference不需要真实的API Key
    model=TEXT_VL_MODEL_UID,
    temperature=0.1 # 降低随机性，让回答更稳定
)

print("模型连接初始化完成！")

注意：上述代码的关键在于base_url。Xinference的 /v1 端点模拟了OpenAI的API格式，因此LangChain的 ChatOpenAI 类可以直接使用，这省去了大量适配工作。

3.3 实现图文混合RAG流程

RAG的核心是“检索-增强-生成”。我们将其扩展为支持图文混合输入。

3.3.1 准备知识库

在项目目录下创建一个 knowledge_base 文件夹，里面放入你的文本资料，比如 hime_miko_background.txt（辉夜巫女的背景故事）、character_setting.md（角色设定）等。

3.3.2 构建RAG链

我们分步骤构建这个链：

# 继续在 app_core.py 中编写
from langchain_community.document_loaders import TextLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_community.vectorstores import Chroma
from langchain_community.embeddings import HuggingFaceEmbeddings
from langchain.chains import RetrievalQA
from langchain.prompts import PromptTemplate

# 1. 加载并分割知识文档
documents = []
knowledge_path = "./knowledge_base"
for file in os.listdir(knowledge_path):
    if file.endswith(('.txt', '.md', '.pdf')):
        loader = TextLoader(os.path.join(knowledge_path, file), encoding='utf-8')
        documents.extend(loader.load())

# 将长文档切分成小块，便于检索
text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=50)
texts = text_splitter.split_documents(documents)
print(f"知识库加载完成，共切分为 {len(texts)} 个文本块。")

# 2. 创建向量数据库
# 使用一个开源的句子嵌入模型
embeddings = HuggingFaceEmbeddings(model_name="all-MiniLM-L6-v2") # 轻量且效果好
vectorstore = Chroma.from_documents(documents=texts, embedding=embeddings, persist_directory="./chroma_db")
retriever = vectorstore.as_retriever(search_kwargs={"k": 3}) # 检索最相关的3个片段

# 3. 定义提示模板
# 这个模板将指导LLM如何结合检索到的知识进行回答
prompt_template = """你是一个精通“辉夜巫女”设定的助手。请根据以下提供的背景知识来回答问题。
如果问题涉及生成图片描述，请结合知识生成详细、符合设定的提示词。
如果问题与图片内容相关，请先描述图片，再结合知识回答。

相关背景知识：
{context}

问题：{question}

请用中文友好、详细地回答："""
PROMPT = PromptTemplate(template=prompt_template, input_variables=["context", "question"])

# 4. 创建检索问答链
qa_chain = RetrievalQA.from_chain_type(
    llm=llm,
    chain_type="stuff", # 简单地将检索到的文档“塞”进提示词
    retriever=retriever,
    chain_type_kwargs={"prompt": PROMPT},
    return_source_documents=True # 可选，返回参考来源
)

print("RAG问答链构建完成！")

# 测试一下
# result = qa_chain.invoke({"query": "辉夜巫女通常穿着什么颜色的衣服？她的职责是什么？"})
# print("测试回答：", result["result"])

3.3.3 集成图片生成与理解

现在，我们需要将文生图功能和视觉问答功能集成进来。

# 继续在 app_core.py 中编写
import base64
from io import BytesIO
from PIL import Image
import requests

def generate_image(prompt: str) -> Image.Image:
    """调用Xinference文生图API生成图片"""
    # Xinference 文生图API通常不是标准的OpenAI格式，需要单独调用
    # 这里假设其API端点为 /v1/images/generations (类似DALL-E)
    # 实际API请参考Xinference文档或模型日志
    url = f"{XINFERENCE_ENDPOINT}/v1/images/generations"
    headers = {"Content-Type": "application/json"}
    payload = {
        "model": IMAGE_MODEL_UID,
        "prompt": prompt,
        "n": 1,
        "size": "512x512" # 生成图片尺寸
    }
    
    try:
        response = requests.post(url, json=payload, headers=headers)
        response.raise_for_status()
        result = response.json()
        # 假设返回结构是 {"data": [{"url": "data:image/png;base64,..."}]}
        image_b64 = result['data'][0]['url'].split(',')[1]
        image_data = base64.b64decode(image_b64)
        image = Image.open(BytesIO(image_data))
        return image
    except Exception as e:
        print(f"图片生成失败: {e}")
        return None

def describe_image(image_path: str) -> str:
    """调用多模态模型描述图片内容"""
    # 将图片转换为base64
    with open(image_path, "rb") as img_file:
        img_b64 = base64.b64encode(img_file.read()).decode('utf-8')
    
    # 构建一个视觉问答请求
    # 这里需要根据你的多模态模型支持的API格式来构造
    # 以下是一个示例格式（假设模型支持OpenAI的Vision API格式）
    messages = [
        {
            "role": "user",
            "content": [
                {"type": "text", "text": "请详细描述这张图片的内容。"},
                {
                    "type": "image_url",
                    "image_url": {"url": f"data:image/jpeg;base64,{img_b64}"},
                },
            ],
        }
    ]
    
    # 使用之前创建的llm对象（需确保其支持多模态输入）
    # 注意：标准ChatOpenAI可能不支持，这里需要根据实际模型调整。
    # 一种更通用的方式是直接使用xinference client的generate接口。
    try:
        # 示例：直接调用Xinference Client的chat completion
        model = client.get_model(TEXT_VL_MODEL_UID)
        response = model.chat(
            prompt="请详细描述这张图片。",
            image_path=image_path # 假设模型接口支持此参数
        )
        return response['choices'][0]['message']['content']
    except Exception as e:
        return f"图片描述功能暂不可用或调用错误: {e}"

print("图片生成与理解功能已定义。")

3.4 整合所有功能：创建应用逻辑

最后，我们创建一个主函数来协调所有功能，并处理用户的复杂请求。

# 继续在 app_core.py 中编写
def process_user_request(user_input: str, uploaded_image_path: str = None) -> dict:
    """
    处理用户请求的核心函数。
    输入：用户文本问题，可选的上传图片路径。
    输出：包含回答、生成的图片、图片描述等的字典。
    """
    result = {"answer": "", "generated_image": None, "image_description": ""}
    
    # 情景1: 用户上传了图片，询问关于图片的问题
    if uploaded_image_path:
        # 首先，描述图片内容
        description = describe_image(uploaded_image_path)
        result["image_description"] = description
        
        # 将图片描述和用户问题结合，进行RAG问答
        combined_query = f"图片内容描述如下：{description}\n用户的问题是：{user_input}"
        rag_result = qa_chain.invoke({"query": combined_query})
        result["answer"] = rag_result["result"]
    
    # 情景2: 用户没有上传图片，是纯文本问题或生成指令
    else:
        # 先用RAG链处理问题，获取增强后的回答或提示词
        rag_result = qa_chain.invoke({"query": user_input})
        base_answer = rag_result["result"]
        result["answer"] = base_answer
        
        # 判断用户是否意图生成图片（简单关键词判断，可优化）
        image_keywords = ["画一张", "生成图片", "给我看", "视觉化", "配图"]
        if any(keyword in user_input for keyword in image_keywords):
            # 从RAG的回答中提取或构造更优质的图片提示词
            # 这里简单地将RAG回答作为提示词，实际可以设计更复杂的逻辑
            image_prompt = base_answer[:150] # 截取部分作为提示词
            print(f"尝试生成图片，提示词: {image_prompt}")
            generated_img = generate_image(image_prompt)
            result["generated_image"] = generated_img
    
    return result

if __name__ == "__main__":
    # 简单测试
    # 测试文本问答
    test_text = "辉夜巫女居住在什么地方？她的法器是什么？"
    res = process_user_request(test_text)
    print("文本问答结果：", res["answer"])
    
    # 测试图片生成意图
    test_gen = "画一张辉夜巫女在神社庭院中祈福的图片"
    res2 = process_user_request(test_gen)
    print("生成指令结果：", res2["answer"])
    if res2["generated_image"]:
        res2["generated_image"].save("test_generated.png")
        print("图片已保存为 test_generated.png")

4. 用Gradio打造用户界面

核心逻辑完成后，我们用一个漂亮的Web界面把它包装起来，让任何人都能使用。

创建一个新的文件 app_ui.py：

import gradio as gr
from app_core import process_user_request
import tempfile
from PIL import Image

# 定义Gradio界面处理函数
def chat_interface(message, history, uploaded_file):
    """
    Gradio聊天接口处理函数。
    history: 格式为 [[user_msg1, bot_msg1], [user_msg2, bot_msg2], ...]
    """
    img_path = None
    # 处理上传的文件
    if uploaded_file is not None:
        # 保存上传的临时文件
        img_path = uploaded_file.name
    
    # 调用核心处理逻辑
    response = process_user_request(message, img_path)
    
    # 构建回复内容
    bot_message = response["answer"]
    
    # 如果有图片描述，加进去
    if response["image_description"]:
        bot_message = f"**图片描述：** {response['image_description']}\n\n" + bot_message
    
    # 准备返回的聊天历史和文件（生成的图片）
    output_files = []
    if response["generated_image"]:
        # 将PIL Image保存为临时文件供Gradio显示
        temp_img = tempfile.NamedTemporaryFile(delete=False, suffix=".png")
        response["generated_image"].save(temp_img.name)
        output_files.append(temp_img.name)
        bot_message += f"\n\n**已根据描述生成图片。**"
    
    # 返回格式：(更新的聊天历史, 聊天历史, 文件列表)
    # 注意：Gradio ChatInterface期望返回 (消息, 历史, 文件)
    # 这里我们简单返回文本，文件通过单独的组件显示会更清晰，下面我们换种方式。
    return bot_message

# 更清晰的界面设计：使用Blocks
with gr.Blocks(title="辉夜巫女图文混合RAG助手", theme=gr.themes.Soft()) as demo:
    gr.Markdown("# 🎨 辉夜巫女图文混合RAG助手")
    gr.Markdown("""
    欢迎使用！你可以：
    1.  **直接提问**：关于辉夜巫女的一切。
    2.  **上传图片**：让我“看看”图片并回答相关问题。
    3.  **让我画图**：在问题中包含“画一张”、“生成图片”等词，我会尝试为你创作。
    """)
    
    with gr.Row():
        with gr.Column(scale=1):
            # 文件上传组件
            file_input = gr.File(label="上传图片（可选）", file_types=["image"])
            # 图片预览
            image_preview = gr.Image(label="上传的图片预览", interactive=False)
            # 生成图片展示
            generated_image_output = gr.Image(label="生成的图片", interactive=False)
            
        with gr.Column(scale=2):
            # 聊天机器人界面
            chatbot = gr.Chatbot(label="对话历史", height=400)
            msg = gr.Textbox(label="你的问题或指令", placeholder="输入关于辉夜巫女的问题，或让我为你画一张图...", lines=3)
            with gr.Row():
                submit_btn = gr.Button("发送", variant="primary")
                clear_btn = gr.Button("清空")
    
    # 处理上传文件并预览
    def preview_uploaded_file(file):
        if file is not None:
            return file.name, Image.open(file.name)
        return None, None
    
    file_input.change(preview_uploaded_file, inputs=[file_input], outputs=[file_input, image_preview])
    
    # 定义响应函数
    def respond(message, history, file):
        img_path = file.name if file else None
        response = process_user_request(message, img_path)
        
        bot_message_parts = []
        if response["image_description"]:
            bot_message_parts.append(f"**图片描述：** {response['image_description']}")
        bot_message_parts.append(response["answer"])
        bot_message = "\n\n".join(bot_message_parts)
        
        history.append((message, bot_message))
        
        gen_img = response["generated_image"]
        gen_img_path = None
        if gen_img:
            temp_img = tempfile.NamedTemporaryFile(delete=False, suffix=".png")
            gen_img.save(temp_img.name)
            gen_img_path = temp_img.name
        
        # 返回更新后的历史、清空输入框、更新生成图片、清空文件上传
        return history, "", None, gen_img_path
    
    # 绑定事件
    submit_btn.click(respond, inputs=[msg, chatbot, file_input], outputs=[chatbot, msg, file_input, generated_image_output])
    msg.submit(respond, inputs=[msg, chatbot, file_input], outputs=[chatbot, msg, file_input, generated_image_output])
    clear_btn.click(lambda: ([], None, None), outputs=[chatbot, file_input, generated_image_output])
    
    gr.Markdown("---")
    gr.Markdown("**提示**：知识库基于提供的背景文档。图片生成依赖于Z-Image-Turbo-辉夜巫女模型。")

# 启动应用
if __name__ == "__main__":
    demo.launch(server_name="0.0.0.0", server_port=7860, share=False) # share=True可生成临时公网链接

现在，运行 python app_ui.py，打开浏览器访问 http://localhost:7860，你就能看到一个功能完整的图文混合RAG应用界面了！

5. 总结与进阶思考

通过本篇指南，我们完成了一个从模型部署到应用开发的完整闭环：

模型服务化：利用Xinference，我们将Z-Image-Turbo-辉夜巫女模型封装成了稳定的API服务。
能力增强：通过LangChain，我们为模型接入了外部知识库（RAG），使其回答更具深度和准确性，并规划了图片理解与生成的集成路径。
应用成型：借助Gradio，我们快速构建了一个直观易用的Web界面，将复杂的AI能力以简单的对话形式呈现给用户。

这个项目的价值远不止于此，它为你提供了一个强大的起点，你可以轻松地进行扩展：

更换模型：将文生图模型换成其他风格（如真实风、科幻风），或将多模态LLM换成更强大的版本（如GPT-4V、GLM-4V），即可改变应用的核心能力。
丰富知识库：放入小说、漫画、游戏设定等更丰富的文档，让你的助手成为某个领域的“专家”。
优化检索：尝试不同的文本分割策略、嵌入模型或向量数据库，提升检索精度。
复杂代理（Agent）：利用LangChain的Agent框架，让模型不仅能问答，还能自主调用工具（如搜索天气、查询数据库）来完成更复杂的任务。
部署上线：使用Docker Compose或Kubernetes将整个应用（Xinference服务 + RAG应用）容器化，部署到云服务器，供团队或公众使用。

AI应用的构建正变得越来越模块化和工程化。希望这篇指南能帮助你跨越从“拥有一个模型”到“构建一个可用应用”的鸿沟，开启你的AI应用开发之旅。