AI恋爱军师
一、模型部署层:xInference + 双模型
负责 托管大模型和 Embedding 模型,是整个系统的 “大脑”:
对话模型:qwen2.5-instruct-14b(大语言模型,负责生成回复)
用 vLLM 做推理引擎,开启 int4量化:
让模型推理速度达 ~68 tokens / 秒(大幅提升响应速度),
显存占用优化到 0.8(降低 GPU 硬件成本,让大模型在普通显卡上也能跑)。
Embedding 模型:bge-large-zh-v1.5(智源,负责文本向量化,支撑知识检索)
二、接口封装层:oneAPI(OpenAI 接口模拟)
核心作用:把 xInference 的模型服务,伪装成 “OpenAI 接口”,让上层应用(如 FastGPT)可以用熟悉的 OpenAI 调用方式(如openai.ChatCompletion)对接本地模型,降低集成成本。
三、RAG 增强层:FastGPT(检索增强生成)
解决大模型 “知识过时、专业领域回答差” 的问题,通过 “知识库检索 + 大模型生成” 提升回复质量:
知识库预处理:
用脚本清洗、格式化数据,结合 bge-large-zh-v1.5 生成向量,存入向量数据库。
检索优化技术:
混合检索:同时用 “向量检索(语义匹配)+ 关键词检索(精确匹配)”,提升召回率;
文本切块:拆分长文本为小段(如 512 字),避免信息丢失;
rerank 排序:对检索结果重排,选出最相关的内容;
Prompt 工程:优化提示词,让大模型更高效结合检索到的知识,生成准确回复。
四、终端接入层:chatgpt-on-wechat + 微信公众号
负责 对接微信生态,接收和响应用户消息:
chatgpt-on-wechat 作为中间件,接入微信公众号,监听 微信服务器的 POST 请求(用户发的消息);
收到请求后,调用 FastGPT 的 RAG 服务(即触发 “检索 + 生成” 流程);
拿到回复后,再通过微信服务器,把结果推送给用户。
整体数据流向(用户视角)
用户→微信公众号发消息 → 微信服务器→chatgpt-on-wechat(接收) → FastGPT(调用 oneAPI,触发 xInference 的双模型:bge 做知识检索,qwen 做回复生成) → 模型推理(vLLM 加速) → 结果返回→用户收到回复。
人工智能