齐雨凡

• UID:15698

综合评分 33

方向：人工智能-NLP和自然语言处理、人工智能-机器学习与深度学习

杭州市

1200元/8h

1年经验

求职意愿：接单·(30天前更新)

个人简介

我是齐雨凡，大模型算法工程师。精通大模型微调（SFT、LoRA、全量微调）与推理（xInference、vLLM），熟练运用 LangChain、FastGPT 开发 RAG 和 Agent 系统，擅长 Data-juicer 数据处理与 Ms-swift 评估框架。

技能

核心技能： Transformers、PyTorch

其他技能：

交流语言：普通话（母语水平）

行业经验：人工智能

项目案例

AI恋爱军师

一、模型部署层：xInference + 双模型负责托管大模型和 Embedding 模型，是整个系统的 “大脑”：对话模型：qwen2.5-instruct-14b（大语言模型，负责生成回复）用 vLLM 做推理引擎，开启 int4量化：让模型推理速度达 ~68 tokens / 秒（大幅提升响应速度），显存占用优化到 0.8（降低 GPU 硬件成本，让大模型在普通显卡上也能跑）。 Embedding 模型：bge-large-zh-v1.5（智源，负责文本向量化，支撑知识检索）二、接口封装层：oneAPI（OpenAI 接口模拟）核心作用：把 xInference 的模型服务，伪装成 “OpenAI 接口”，让上层应用（如 FastGPT）可以用熟悉的 OpenAI 调用方式（如openai.ChatCompletion）对接本地模型，降低集成成本。三、RAG 增强层：FastGPT（检索增强生成）解决大模型 “知识过时、专业领域回答差” 的问题，通过 “知识库检索 + 大模型生成” 提升回复质量：知识库预处理：用脚本清洗、格式化数据，结合 bge-large-zh-v1.5 生成向量，存入向量数据库。检索优化技术：混合检索：同时用 “向量检索（语义匹配）+ 关键词检索（精确匹配）”，提升召回率；文本切块：拆分长文本为小段（如 512 字），避免信息丢失； rerank 排序：对检索结果重排，选出最相关的内容； Prompt 工程：优化提示词，让大模型更高效结合检索到的知识，生成准确回复。四、终端接入层：chatgpt-on-wechat + 微信公众号负责对接微信生态，接收和响应用户消息： chatgpt-on-wechat 作为中间件，接入微信公众号，监听微信服务器的 POST 请求（用户发的消息）；收到请求后，调用 FastGPT 的 RAG 服务（即触发 “检索 + 生成” 流程）；拿到回复后，再通过微信服务器，把结果推送给用户。整体数据流向（用户视角）用户→微信公众号发消息 → 微信服务器→chatgpt-on-wechat（接收） → FastGPT（调用 oneAPI，触发 xInference 的双模型：bge 做知识检索，qwen 做回复生成） → 模型推理（vLLM 加速） → 结果返回→用户收到回复。

人工智能