云手机场景下,用户需要在不同 App 里完成订外卖、订机票、查信息等操作,流程割裂、学习成本高。项目目标是做一个 类“智谱牛牛”的多 Agent 系统,把手机里的每个 App 通过 GUI Agent 封装成可调用能力,用户只需要一句自然语言指令,系统自动完成整套操作。
技术方案与技术栈:
1️⃣ 意图与实体识别
模型:Qwen2.5-14B-Instruction
方式:SFT 微调
数据:
来源于历史“通通智能助手”的真实用户对话
人工梳理意图体系(如订外卖、订机票、查天气等)
构造实体槽位(地点、时间、品类、航班信息等)
关键点:
将传统 NLU 拆成 “意图 → 子 Agent 路由”
输出结构化 JSON,直接供调度器使用
2️⃣ 多 Agent 架构
架构设计:
主管 Agent(Planner):负责任务拆解、顺序规划
子 Agent:按意图划分(外卖、出行、信息查询、GUI Agent 等)
实现方式:
基于 Dify 工作流 做基础编排
自研轻量调度器,负责:
Agent 选择
参数透传
失败回退与重试
3️⃣ GUI Agent 实现
视觉输入:
云手机真实截图(不同分辨率、不同 App 状态)
文本输入:
预制操作模板 + 槽位占位
从用户对话中自动填槽
执行链路:
识别当前页面 → 决策下一步操作(点击 / 输入 / 滑动)
难点处理:
页面不确定性 → 引入多步确认
操作失败 → 回退到 Planner 重新规划
4️⃣ 关键技术栈总结
模型:Qwen2.5-14B
微调:SFT(LoRA)
框架:Dify + 自研调度
能力:Agent、GUI Agent、多模态、结构化输出
我承担的是 核心算法 + Agent 架构设计,主要包括四块:
意图与实体识别模型设计与训练
多 Agent 架构与调度逻辑设计
GUI Agent 的数据构建与推理链路
整体效果评估与验收指标设计
训练后的主要问题是 意图混淆、实体字段漂移、复杂任务识别和表达泛化问题,通过重构意图体系、增加困难样本、Schema 约束和 Planner 拆解任务 来解决,最终把 Agent 路由准确率稳定在约 95%