客户存在几十年收集整理的纸质客户资料档案,急需将资料数字化,将客户资料转换为系统中可用的实际客户数据。
按照功能的不同,各个子系统功能如下:
1. 资料采集子系统: 通过拍照系统,基于摄像头完成 名片、宣传册的拍照;通过连接高速扫描仪,完成会刊、名片的批量扫描。将纸质资料转换为图片资料。
2. 图片信息提取:通过OCR、AI,对采集到的图片中的信息进行提取,抽取客户姓名单位以及联系方式等信息。
3, 客户信息入库模块:通过存储过程,将AI提取到的信息与OCR结果比对,去除异常信息;通过入库模块,将提取到的信息登记到业务系统的客户的单4. 位、个人信息,并记录相关的联系方式。并将图片归档到客户资料目录中,方便核对和使用。
4. 异常处理模块:通过模块,将AI提取、AI与OCR比对、入库处理中产生的异常数据,通过人工补登记、后台手工处理当方式,完成数据的修正或设置为无效。
通过系统,先通过拍照或扫描完成图片采集;AI信息提取模块自动处理图片,生成客户信息;OCR模块对图片中的文字进行提取;
比对入库模块,比对后将AI提取结果登记到业务库中。
资料采集系统使用python(TKINTER+OPENCV+PyTWAIN完成摄像头和高速扫描仪的调用)实现
图片信息数字化系统 使用python(TKINTE+AZURE OPENAI/QIANWEN VL+百度飞桨)实现
客户信息入库模块:使用SQLSERVER 存储过程实现。
异常处理模块采用: C#实现。
整个系统采用SQLSERVER数据库记录数据。
该系统整体方案有我设计,并主导开发,包括开发语言选择、数据结构设计、模块功能设计等。
我主要完成的内容有
1. 整理数据结构的设计;
2. 主导摄像头采集方案原型的实现,和高速扫描仪采集功能的开发。
3. 所有AI信息提取部分的实现(先后实现调用AZURE GPT,ALI QIANWEN VL);
4. 所有数据入库程序的开发。
5. 部分异常处理模块的设计与开发。
此过程中与到的问题有:
1. 早期使用专业扫描仪,受接口限制,无法获得高质量图片;后通过我的摄像头拍照原型实现。
2. 不同模型的差异以及模型版本的更新,导致提示词需要不断更新。
3. 使用多个GPT账户的管理(停用监测、恢复尝试),导致AI资源管理异常复杂。后采用定期恢复,使用固定问题确认状态解决。
4. 基于PyTWAIN的高速扫描仪调度无法直接监控状态,后通过配置文件和设置延时等方案,协调模块与扫描接口的调用。
5. AI提取到的信息在图片中不存在,后引入与OCR结果比对的流程,解决此问题。