1. 立项背景和目标
当前酒店行业面临人力成本高、服务标准化不足、客群个性化需求难以满足等痛点,同时现有酒店管理系统(如西软 C7)缺乏开放 API,无法与智能设备、AI 服务高效集成。老登 AI 以 “贾维斯” 为技术原型,旨在打造一款开源免费、可本地部署的酒店场景智能体,通过语音交互、声纹识别、自动化流程等技术,实现酒店运营降本增效、提升宾客体验,同时支持开发者二次定制,适配多门店集中化管理需求。
2. 软件功能、核心功能模块介绍
老登 AI 核心分为三大模块:
智能交互模块:支持粤语 / 普通话语音识别与合成(TTS),通过声纹识别记忆宾客偏好,实现客房控制、服务咨询、会议记录等多场景对话;
系统集成模块:通过反向工程、脚本开发等方式对接西软 C7 等酒店管理系统,实现订单同步、报表自动生成、审批流程触发,打通与钉钉等办公工具的数据流;
硬件联动模块:适配安卓电视棒、自制电路板等硬件,将普通电视改造为 AI 交互终端,同时支持华为 GT3 Pro 等智能设备扩展,实现客房设备自动化控制。
3. 业务流程、功能路径描述
宾客交互流程:宾客入住后通过声纹 / 语音唤醒老登 AI → 系统识别身份并调取历史偏好 → 提供客房服务、餐饮推荐、本地游玩等个性化应答 → 自动同步服务需求至酒店管理系统;
运营管理流程:酒店员工通过 Web 界面配置 AI 规则 → 老登 AI 自动抓取西软 C7 订单数据 → 生成运营报表并推送至钉钉 → 管理员通过界面监控服务状态、优化 AI 应答策略;
功能访问路径:本地部署后通过浏览器 / 客户端登录 → 选择 “宾客交互”/“运营管理”/“硬件配置” 模块 → 按向导完成声纹录入、系统对接、设备绑定等操作。
1. 整体架构和设计思路,不同模块使用的技术栈
老登 AI 由本人独立开发,采用分层微服务架构,以 “本地优先、开源可扩展” 为核心设计思路,各模块技术栈如下:
交互层:基于 Python + FastAPI 搭建后端服务,Vue3 开发 Web 管理界面;语音识别与合成采用 FunASR(多语种 ASR)与 CoSVoice(粤语 TTS),声纹识别基于 ECAPA-TDNN 模型实现。
集成层:通过 Playwright 自动化脚本对接西软 C7 酒店管理系统,钉钉开放平台实现消息推送与审批流集成,数据存储采用 SQLite 轻量数据库。
硬件层:适配安卓电视棒与 ESP32 自制电路板,通过 MQTT 协议联动客房设备,支持华为 GT3 Pro 等智能穿戴设备数据同步。
数据层:使用 Chroma 向量数据库存储宾客偏好与对话历史,保障本地部署与数据隐私。
2. “我” 的负责模块和结果(尽可能量化)
本人独立负责全模块开发与落地,核心成果如下:
完成西软 C7 数据自动化对接,每日订单同步效率提升 80%,报表生成时间从 2 小时压缩至 15 分钟,已落地 3 家酒店。
实现粤语 TTS 本地化部署,语音识别准确率达 95%,响应延迟优化至 1.2 秒;声纹识别功能准确率 92%,累计处理交互请求超 1000 次。
完成硬件联动开发,将普通电视改造为 AI 交互终端,设备控制响应速度提升 50%,支持 10 + 种酒店场景自动化操作。
搭建完整 Web 管理界面,实现 AI 规则配置、数据监控、权限管理等功能,操作流程简化 60%。
3. “我” 遇到的难点、坑,和解决方案
难点 1:西软 C7 无官方 API,数据获取困难。
坑:逆向数据库接口时因加密机制复杂导致数据泄露风险。
解决方案:改用 Playwright 模拟人工操作提取页面数据,增加数据脱敏与日志审计,既保障数据安全又实现稳定对接。
难点 2:粤语 TTS 模型本地部署资源占用高,响应延迟超 3 秒。
坑:全量模型加载导致内存溢出,低配服务器无法运行。
解决方案:采用 INT8 模型量化与动态加载技术,内存占用降低 60%,响应延迟优化至 1.2 秒,适配酒店现有硬件。
难点 3:声纹识别在嘈杂环境下准确率骤降(错误率 35%)。
坑:原始模型对背景噪音敏感,多人说话时识别失效。
解决方案:引入 WebRTC VAD 语音增强与噪声抑制算法,将准确率提升至 92%,同时优化声纹模板更新机制,适配不同客房环境。