云手机智能体对话助手

2026-04-18 10:04:07

行业：人工智能

载体：算法模型

技术：Python、SQL

业务和功能介绍

云手机场景下，用户需要在不同 App 里完成订外卖、订机票、查信息等操作，流程割裂、学习成本高。项目目标是做一个类“智谱牛牛”的多 Agent 系统，把手机里的每个 App 通过 GUI Agent 封装成可调用能力，用户只需要一句自然语言指令，系统自动完成整套操作。

项目实现

技术方案与技术栈：
1️⃣ 意图与实体识别
模型：Qwen2.5-14B-Instruction
方式：SFT 微调
数据：
来源于历史“通通智能助手”的真实用户对话
人工梳理意图体系（如订外卖、订机票、查天气等）
构造实体槽位（地点、时间、品类、航班信息等）
关键点：
将传统 NLU 拆成 “意图 → 子 Agent 路由”
输出结构化 JSON，直接供调度器使用
2️⃣ 多 Agent 架构
架构设计：
主管 Agent（Planner）：负责任务拆解、顺序规划
子 Agent：按意图划分（外卖、出行、信息查询、GUI Agent 等）
实现方式：
基于 Dify 工作流做基础编排
自研轻量调度器，负责：
Agent 选择
参数透传
失败回退与重试
3️⃣ GUI Agent 实现
视觉输入：
云手机真实截图（不同分辨率、不同 App 状态）
文本输入：
预制操作模板 + 槽位占位
从用户对话中自动填槽
执行链路：
识别当前页面 → 决策下一步操作（点击 / 输入 / 滑动）
难点处理：
页面不确定性 → 引入多步确认
操作失败 → 回退到 Planner 重新规划
4️⃣ 关键技术栈总结
模型：Qwen2.5-14B
微调：SFT（LoRA）
框架：Dify + 自研调度
能力：Agent、GUI Agent、多模态、结构化输出

我承担的是核心算法 + Agent 架构设计，主要包括四块：
意图与实体识别模型设计与训练
多 Agent 架构与调度逻辑设计
GUI Agent 的数据构建与推理链路
整体效果评估与验收指标设计

训练后的主要问题是意图混淆、实体字段漂移、复杂任务识别和表达泛化问题，通过重构意图体系、增加困难样本、Schema 约束和 Planner 拆解任务来解决，最终把 Agent 路由准确率稳定在约 95%

示例图片视频

尹子琦

30天前活跃

方向：人工智能-AI应用开发、人工智能-数据标注和训练支持、

交付率：100.00%

查看主页

相似推荐

宜昌慈善网络募捐平台采购项目

作为宜昌慈善总会官网的移动端延伸载体，以 “ 引流赋能、服务协同 ” 为核心理念，着力构建开放协同的移动慈善服务体系，全面拓展官网服务半径，推动慈善事业数字化转型。一是扩大慈善项目社会影响力，助力公众合规参与慈善捐赠；二是以轻量化服务提升用户参与体验，增强官网品牌感知度与公众信任度；三是强化官网服务的精准性与公信力；四是支撑官网运营优化与可持续发展。

宜昌市公办福利机构智能监管平台

当前，我市公办养老机构及其他公办福利机构，在“人、财、物”监管、食品安全及整体安全管理方面存在数据孤岛、监管手段滞后、风险预警不足等问题。面对“突击战”严峻形势，亟需通过定制化开发构建一个覆盖全市、统一高效的智慧监管平台，实现对公办福利机构（特别是农村福利院）的规范化、透明化、智能化监管。

WebServer

TinyWebServer 是一个用 C++14 从零构建的 Web 服务器，适用于学习 Linux 网络编程、I/O 多路复用、并发模型与 HTTP 协议实现。 ### 核心技术 | 技术点 | 实现 | |--------|------| | **I/O 多路复用** | epoll (ET/LT 可切换) | | **并发模型** | Reactor + 半同步/半反应堆 (HSHA) | | **线程池** | 固定大小线程池 + 条件变量 + shared_ptr 安全设计 | | **HTTP/1.1** | 手写状态机解析器 + Keep-Alive 长连接 | | **零拷贝** | mmap 内存映射文件传输 + writev 集中写 | | **定时器** | 小根堆 (二叉堆 + 哈希索引) O(log n) 超时管理 | | **数据库** | MySQL 连接池 + RAII 守卫 + SQL 注入防护 | | **日志** | 异步日志系统 (生产者-消费者 BlockDeque) + 日期/行数切分 | | **缓冲区** | 用户态 Buffer (readv 分散读 + 动态扩容 + 原子指针) |

spec-anchor — 基于AI自动标注的SPEC-Code追溯矩阵生成器

在AI辅助开发的SPEC-driven工作流中，开发者通过SPEC.md定义需求条目，并通过CLAUDE.md铁律约束AI在生成代码时自动带上@implements REQ-NNN注释标注。但传统追溯工具（IBM DOORS、Jama Connect等）太重型，需要手动标注，缺少一款轻量级的CLI工具来自动完成需求到代码的关联追溯。spec-anchor填補了这一空白，实现AI自动标注与自动追溯的闭环。核心功能模块： • trace命令：解析SPEC.md提取需求条目（REQ-NNN格式），递归扫描源代码目录，通过两层匹配策略（Layer 1: @implements精确匹配；Layer 2: 关键词启发式兜底）关联需求与代码实现，生成Markdown/JSON格式的追溯矩阵 • impact命令：支持git提交范围或diff文件的反向影响分析，展示代码变更影响了哪些需求条目及其变更行数 • check命令：缺口检查，列出未实现和仅启发式匹配的需求，提供覆盖率统计 • 支持8种语言（Python/JS/TS/Go/Java/Rust/PHP/Ruby/Elixir）的函数名提取与注释识别，内置中英文关键词映射和同义词扩展业务流程：开发者在SPEC.md中定义需求→AI生成代码时自动带@implements注释→运行spec-anchor trace生成追溯矩阵→运行spec-anchor impact查看变更影响→在PR中附上矩阵供reviewer审查

DWS数仓迁移工具MGC

内容：项目简介：是一款支持ORACLE、TERADATA、GUASSA、GREENPLUM、NETEZZA、DB2、POSTGRESQL、NETEZZA等数据库的数据迁移到DWS数据库以及对应的脚本语法转换的工具，可以进行大规模、快速的数据仓库、主机、容器、大数据等迁移作业软件架构：Sprinboot、SpringCloud、mybatis-plus、SSHD、Redis、Zmq、Nacos、Nginx 后端数据库：Gaussdb 我负责的功能模块：部分公共模块，主要负责数据仓库迁移服务 1、迁移工具的许可证License控制允许迁移数据量和SQL脚本转换数量 1、DWS数仓迁移工具的动态数据源框架和工具类 2、源端和目标端的数据连接 3、源端数据库的元数据获取 4、源端->目标端迁移工程创建 5、增量迁移、大表拆分条件控制 6、表结构、视图、索引转换 7、用户、角色、用户权限迁移 8、PG系列库元数据迁移 9、数据内容迁移 10、数据内容增量迁移 11、数据内容大表拆分迁移 12、数据内容迁移后的数据条目数量以及内容校验 13、校验完成后的迁移报告生成及下载业绩：国内外银行、通讯公司、政府组织、医疗组织以及各行业的数据仓库、容器、大数据迁移