程序聚合 软件案例 云手机智能体对话助手

云手机智能体对话助手

2026-04-18 10:04:07
行业:人工智能
载体:算法模型
技术:Python、SQL

业务和功能介绍

云手机场景下,用户需要在不同 App 里完成订外卖、订机票、查信息等操作,流程割裂、学习成本高。项目目标是做一个 类“智谱牛牛”的多 Agent 系统,把手机里的每个 App 通过 GUI Agent 封装成可调用能力,用户只需要一句自然语言指令,系统自动完成整套操作。

项目实现

技术方案与技术栈:
1️⃣ 意图与实体识别
模型:Qwen2.5-14B-Instruction
方式:SFT 微调
数据:
来源于历史“通通智能助手”的真实用户对话
人工梳理意图体系(如订外卖、订机票、查天气等)
构造实体槽位(地点、时间、品类、航班信息等)
关键点:
将传统 NLU 拆成 “意图 → 子 Agent 路由”
输出结构化 JSON,直接供调度器使用
2️⃣ 多 Agent 架构
架构设计:
主管 Agent(Planner):负责任务拆解、顺序规划
子 Agent:按意图划分(外卖、出行、信息查询、GUI Agent 等)
实现方式:
基于 Dify 工作流 做基础编排
自研轻量调度器,负责:
Agent 选择
参数透传
失败回退与重试
3️⃣ GUI Agent 实现
视觉输入:
云手机真实截图(不同分辨率、不同 App 状态)
文本输入:
预制操作模板 + 槽位占位
从用户对话中自动填槽
执行链路:
识别当前页面 → 决策下一步操作(点击 / 输入 / 滑动)
难点处理:
页面不确定性 → 引入多步确认
操作失败 → 回退到 Planner 重新规划
4️⃣ 关键技术栈总结
模型:Qwen2.5-14B
微调:SFT(LoRA)
框架:Dify + 自研调度
能力:Agent、GUI Agent、多模态、结构化输出

我承担的是 核心算法 + Agent 架构设计,主要包括四块:
意图与实体识别模型设计与训练
多 Agent 架构与调度逻辑设计
GUI Agent 的数据构建与推理链路
整体效果评估与验收指标设计

训练后的主要问题是 意图混淆、实体字段漂移、复杂任务识别和表达泛化问题,通过重构意图体系、增加困难样本、Schema 约束和 Planner 拆解任务 来解决,最终把 Agent 路由准确率稳定在约 95%


示例图片视频


尹子琦
30天前活跃
方向: 人工智能-AI应用开发、人工智能-数据标注和训练支持、
交付率:100.00%
相似推荐
宜昌慈善网络募捐平台采购项目
作为宜昌慈善总会官网 的移 动端延伸载体, 以 “ 引流赋 能 、 服务协同 ” 为核心理念,着力构建开放协同的移动慈善服务体系,全面拓展官网服务半径,推 动慈善事业数字化 转型。 一是扩大慈善项目社会影响力, 助力公众合规参 与慈善捐赠 ; 二是 以轻量化服务提升用户参 与体验,增强 官网 品牌感知度 与公众信任度 ; 三是 强化 官网服务 的精准性与公信力; 四是支撑官网运营优化与可持续发展。
宜昌市公办福利机构智能监管平台
当前,我市公办养老机构及其他公办福利机构,在“人、财、物”监管、食品安全及整体安全管理方面存在数据孤岛、监管手段滞后、风险预警不足等问题。面对“突击战”严峻形势,亟需通过定制化开发构建一个覆盖全市、统一高效的智慧监管平台,实现对公办福利机构(特别是农村福利院)的规范化、透明化、智能化监管。
WebServer
TinyWebServer 是一个用 C++14 从零构建的 Web 服务器,适用于学习 Linux 网络编程、I/O 多路复用、并发模型与 HTTP 协议实现。 ### 核心技术 | 技术点 | 实现 | |--------|------| | **I/O 多路复用** | epoll (ET/LT 可切换) | | **并发模型** | Reactor + 半同步/半反应堆 (HSHA) | | **线程池** | 固定大小线程池 + 条件变量 + shared_ptr 安全设计 | | **HTTP/1.1** | 手写状态机解析器 + Keep-Alive 长连接 | | **零拷贝** | mmap 内存映射文件传输 + writev 集中写 | | **定时器** | 小根堆 (二叉堆 + 哈希索引) O(log n) 超时管理 | | **数据库** | MySQL 连接池 + RAII 守卫 + SQL 注入防护 | | **日志** | 异步日志系统 (生产者-消费者 BlockDeque) + 日期/行数切分 | | **缓冲区** | 用户态 Buffer (readv 分散读 + 动态扩容 + 原子指针) |
spec-anchor — 基于AI自动标注的SPEC-Code追溯矩阵生成器
在AI辅助开发的SPEC-driven工作流中,开发者通过SPEC.md定义需求条目,并通过CLAUDE.md铁律约束AI在生成代码时自动带上@implements REQ-NNN注释标注。但传统追溯工具(IBM DOORS、Jama Connect等)太重型,需要手动标注,缺少一款轻量级的CLI工具来自动完成需求到代码的关联追溯。spec-anchor填補了这一空白,实现AI自动标注与自动追溯的闭环。 核心功能模块: • trace命令:解析SPEC.md提取需求条目(REQ-NNN格式),递归扫描源代码目录,通过两层匹配策略(Layer 1: @implements精确匹配;Layer 2: 关键词启发式兜底)关联需求与代码实现,生成Markdown/JSON格式的追溯矩阵 • impact命令:支持git提交范围或diff文件的反向影响分析,展示代码变更影响了哪些需求条目及其变更行数 • check命令:缺口检查,列出未实现和仅启发式匹配的需求,提供覆盖率统计 • 支持8种语言(Python/JS/TS/Go/Java/Rust/PHP/Ruby/Elixir)的函数名提取与注释识别,内置中英文关键词映射和同义词扩展 业务流程:开发者在SPEC.md中定义需求→AI生成代码时自动带@implements注释→运行spec-anchor trace生成追溯矩阵→运行spec-anchor impact查看变更影响→在PR中附上矩阵供reviewer审查
DWS数仓迁移工具MGC
内容: 项目简介:是一款支持ORACLE、TERADATA、GUASSA、GREENPLUM、NETEZZA、DB2、POSTGRESQL、NETEZZA等数据库的数据迁移到DWS数据库以及对应的脚本语法转换的工具,可以进行大规模、快速的数据仓库、主机、容器、大数据等迁移作业 软件架构:Sprinboot、SpringCloud、mybatis-plus、SSHD、Redis、Zmq、Nacos、Nginx 后端数据库:Gaussdb 我负责的功能模块:部分公共模块,主要负责数据仓库迁移服务 1、迁移工具的许可证License控制允许迁移数据量和SQL脚本转换数量 1、DWS数仓迁移工具的动态数据源框架和工具类 2、源端和目标端的数据连接 3、源端数据库的元数据获取 4、源端->目标端迁移工程创建 5、增量迁移、大表拆分条件控制 6、表结构、视图、索引转换 7、用户、角色、用户权限迁移 8、PG系列库元数据迁移 9、数据内容迁移 10、数据内容增量迁移 11、数据内容大表拆分迁移 12、数据内容迁移后的数据条目数量以及内容校验 13、校验完成后的迁移报告生成及下载 业绩: 国内外银行、通讯公司、政府组织、医疗组织以及各行业的数据仓库、容器、大数据迁移
帮助文档   Copyright @ 2021-2024 程聚宝 | 浙ICP备2021014372号
人工客服