立项背景:公司内部本地部署使用。
核心能力:支持实时麦克风转写、本地音频文件转写、SRT 字幕导出,兼顾离线使用和高准确率需求。
业务流程:运行app,初始化后点击相应功能按钮,进行实时语音转写或上传音频文件进行文字转写,将文本导出。
设计思路:分层解耦:将网络检测、模型加载、音频处理、UI交互、转写逻辑拆分为独立模块,降低耦合度,便于维护和扩展。核心的模型加载、音频转写、文件处理均通过多线程实现,避免UI线程阻塞。
环境配置与基础工具模块:os、socket、threading、queue、time。UI交互:TKinter。音频处理模块:sounddevice、numpy。核心转写模块:Faster-Whisper(large-v3)。核心技术栈:TKinter(UI) + Faster-Whisper(转写核心) + SoundDevice(音频采集) + NumPy(音频处理) + 多线程 / 队列(异步调度)。个人完成项目。