1、立项背景和目标:
针对无货源店群工作室及内容矩阵运营者面临的“人工洗稿效率低”、“电商极限词导致店铺扣分罚款”以及“大模型API调用成本高昂”三大痛点。本项目旨在打造一款纯本地化、强隐私保护的智能数据处理桌面端中台,实现降本增效与合规风控。
2、软件功能、核心功能模块的介绍:
底层加密模块:自研三重降级非对称加密算法(Registry/WMIC/Volume),实现非联网环境下的“一机一码”硬件级防盗版授权。
Token经济学与AI调度:内置本地“记忆集”与前置过滤规则,通过NLP预处理拦截低效请求,并提供Token节省资金的可视化看板。
行业级深度清洗:支持行列级物理高亮打码、中国收货地址五级正则智能拆解、模糊去重(Difflib算法),以及异常订单(退款/刷单)自动嗅探标黄预警。
3、业务流程、功能路径描述:
用户通过极客风UI载入多维度混合数据(Excel/CSV/Word) -> 配置全局合规策略与专属Prompt -> 引擎启动并发调度线程 -> 本地清洗结合云端AI重构 -> 自动生成安全快照备份及高亮标记后的成品文件。
1、整体架构和设计思路:
采用 UI 展示层与底层逻辑层彻底解耦的 MVC 变体架构。前端弃用传统 Tkinter,采用 CustomTkinter 配合自适应 ScrollableFrame 打造现代化深色模式 Web 级体验。数据处理不依赖易丢失格式的 Pandas,而是基于 openpyxl 构建“细胞级微创手术”引擎,精准操控单元格属性与物理填充色(PatternFill)。
2、“我”的负责模块和结果(量化):
独立负责全栈开发。成功将TB级文本库的去重响应时间压缩,通过本地前置过滤算法,日均有效拦截无效AI接口请求调用超过 30%,大幅降低 API Token 消耗成本。软件首版上线即实现商业化闭环交付。
3、“我”遇到的难点、坑,和解决方案:
难点A (UI假死):处理海量Excel时GUI主线程阻塞。解决:重构调度机制,引入 threading 并发守护线程,结合状态机锁安全回传进度至 UI 进度条,实现极致丝滑体验。
难点B (去重漏网):传统去重无法识别母子句包含与隐形换行符。解决:重写 NLP 切片比对算法,加入预清洗剥离机制与子句长度阀值嗅探,将排重精准度提升至 99% 以上。
难点C (DRM兼容性):不同精简版 Windows 系统下 wmic 命令失效。解决:设计“注册表特征 -> 主板 UUID -> 硬盘物理卷标”的三重兜底降级硬件码提取策略,彻底消灭读取报错。