程序聚合软件案例温州市城建档案馆档案电子文件归档

温州市城建档案馆档案电子文件归档

2025-10-13 15:13:12

行业：政务服务

载体：Windows应用

技术：Python、ONNX Runtime、OpenCV

业务和功能介绍

1. 业务和功能介绍
立项背景与目标
本项目旨在开发一套自动化质量检测工具，以应对温州市城建档案馆提出的《档案电子文件归档要求》。传统的人工核查方式效率低下、易出错，无法保证 100% 的准确率。为解决这一痛点，本项目通过程序自动化处理，实现对数字化档案的图像质量和元数据进行批量、高效、精准的检测和预处理，确保所有归档电子文件完全符合标准，提升档案数字化工作的整体质量与效率。

其核心目标是：

自动化图像预处理：自动校正扫描图像的倾斜角度，使其满足“倾斜度不超过 1 度”的硬性要求。

合规性检测：依据归档要求，对目录数据（Excel）与电子影像文件（PDF）的一致性、完整性和格式规范性进行全面校验。

效率提升：用自动化脚本代替繁琐的人工抽检，极大缩短质检周期，并生成清晰的错误报告，便于快速定位和修正问题。

项目实现

核心功能：
图像批量倾斜校正：自动校正图像倾斜，确保角度偏差小于 1 度。
元数据一致性校验：自动比对 Excel 与 PDF 文件的档号、页码、页数等信息。
PDF 规范性检查：检测 PDF 页数是否准确，并验证纸质档案的 PDF 是否包含 OCR 文本层。
自动化错误报告：一键生成检测结果.txt 报告，清晰列出所有不合规项。

核心模块：

图像倾斜校正模块 (orient_images_cli.py)：独立的命令行预处理工具，采用霍夫变换、投影剖面、轮廓分析三种算法的加权平均值，实现高精度校正。

档案符合性检测模块 (main.py)：带 GUI 界面的主程序，通过 pandas 解析 Excel，PyPDF2 分析 PDF，执行核心校验逻辑。

工作流程：
预处理：运行 orient_images_cli.py 批量校正原始扫描图像。
数据准备：将校正后图像转为双层 PDF，按规范命名存放。
启动检测：运行 main.py，点击按钮选择工程 xlsx 文件。
自动执行：程序自动完成所有校验。
获取结果：在 xlsx 文件同目录下查看检测结果.txt 报告。

2. 项目实现
整体架构
设计思想：采用“后端命令行 + 前端 GUI”的分离式架构，解耦计算密集型任务与用户交互任务。
技术栈：
后端校正工具：Python + OpenCV + NumPy。
前端检测工具：Python + Tkinter + Pandas + PyPDF2。

我的贡献与成果 (负责图像校正模块)：
实现：主导开发了 orient_images_cli.py，设计并实现了三种核心算法的加权融合策略，显著提升了校正的准确性和通用性。

量化成果：

准确率：在 500 份样本的测试中，98.5% 的图像被成功校正至 ±1度的标准误差内。
效率：A4 幅面 300DPI 图像的平均处理速度为 0.8 秒/张。

遇到的挑战与解决方案：
挑战 1：单一校正算法在复杂文档（如图纸、表格）上准确率低。
解决方案：采用三种不同原理的算法进行优势互补，通过加权平均输出最终结果，使算法对各类文档的鲁棒性提升了近 40%。

挑战 2：使用 PyPDF2 检测 PDF 的 OCR 层时存在大量“误报” (有文本层但无法提取)。
解决方案：将检测逻辑从“检查整个文档的文本”优化为“逐页检查，只要任一页能提取出至少一个字符即视为合格”，将误报率从 15% 降至 0%。

示例图片视频

Aste1

30天前活跃

方向：人工智能-NLP和自然语言处理、人工智能-AI应用开发、

交付率：100.00%

查看主页

相似推荐

复合材料温度响应实验分析系统-LabVista

该项目主要是用来分析复合材料实验数据的。用户可以在系统里查看温度、应力、应变等实验数据，还能看到数据表、趋势图、状态分布和温区分布。系统也支持数据处理、异常点查看、算法分析、图表生成和报告预览，方便把实验数据整理得更清楚。

德语工程日志 → 英文 RAG 就绪知识库处理管线-DE-EN RAG Pipeline

立项背景：制造业/工程企业积累了大量德语技术论坛日志（含零件号、扭矩、测量规格）及工程图纸附件，存在语言障碍且难以直接喂给 RAG 检索系统；人工翻译成本高，且极易在翻译中丢失或改写关键参数。目标：构建一条自动化管线，将原始德语日志清洗、翻译为英文，封装成 RAG 就绪的结构化 Markdown 知识库，核心技术参数 100% 保真。核心功能模块： 1) 噪音清洗——自动剔除论坛签名、导航条、邮件页脚，同时保留供应商联系方式与技术引用； 2) 保真翻译——抽取零件号/扭矩/测量等实体并掩码，仅翻译普通文本，再逐字节回注原值，附计数校验闸门； 3) 附件富集——图像两级过滤 + 视觉大模型(VLM)结构化提取工程元数据； 4) Markdown 封装——YAML 头 + 面包屑元数据注入； 5) 日志合并——按宏域合并为主日志，供向量库分块入库。业务流程：原始德语日志 → 清洗 → 实体掩码 → 翻译 → 回注 → 校验闸门 → 英文 Markdown（含元数据）→ 按域合并 → RAG 入库。

智能饮水物联网设备管理系统

一、业务概述本系统面向商用智能饮水设备运营场景，搭建一套软硬一体物联网管控平台，解决多台饮水终端分散管理、现场运维成本高、设备状态无法实时掌握、远程调控难等痛点。平台采用 TCP+HTTP 双通道通信，对接线下 4G 饮水设备，实现设备联网接入、运行数据采集、远程出水 / 加热控制、离线指令缓存补发、运行数据留存对账全流程业务能力，运营人员可通过 Web 后台统一管理所有终端，无需现场上门操作，大幅降低设备运维、巡检人力成本，适配小区、工厂、校园等多点位饮水设备规模化运营管理需求。二、核心业务功能设备联网接入管理设备通过 4G 网络主动建立 TCP 长连接接入平台，设备上线完成注册登记；依靠 20 秒心跳机制实时判定在线状态，闲置超时自动断连并支持断线重连，平台统一维护全量设备台账，实时展示每台设备在线 / 离线状态、GPS 位置信息。远程设备操控后台通过 HTTP 接口下发控制指令，支持远程控制设备出水，自定义出水量、出水温度；远程启动加热，设定加热时长。设备在线时指令实时下发执行；设备离线则将指令存入 Redis 队列，待设备重新上线自动补发，同时完整记录每一条控制指令日志。设备运行数据实时采集持续接收设备上报运行状态、温度、水量、定位等数据，实时缓存至 Redis 快速查看，关键运行记录同步持久化至 MySQL 长期留存，支持后续数据查询、运营统计。自动化定时运维任务系统内置定时运维逻辑，每 22 分钟自动执行短时加热，避免水路停滞变质；定时批量巡检全部设备在线状态；定期轮询离线指令队列，保障积压指令有序下发。高稳定并发运维保障采用数据库连接池支撑大批量设备并发接入；Redis 缓存分担查询压力，搭配 MySQL 实现数据双重备份；数据库、通信链路故障支持自动重连恢复，保障 7×24 小时不间断稳定运行。后台 Web 管理能力提供标准化 HTTP 接口，管理端可查询全局系统配置、查看全部设备清单、一键下发各类控制指令，操作简单直观，适配运营人员日常日常对账、巡检、设备调控工作。三、业务价值远程管控替代上门运维，减少线下巡检人力与出行成本；双通道通信兼顾设备实时控制与后台便捷管理，适配 4G 户外设备弱网环境；全量设备数据自动留存，便于运营数据复盘、故障追溯；模块化架构可拓展，后续可新增计费、故障告警、多类型智能设备接入等业务能力。

个人技术 IP 门户站-博客 / 工具箱 / 作品展示一体化平台

本项目是一个面向技术创作者的个人 IP 门户站，采用纯前端静态架构，整合了「技术博客发布」「第三方效率工具聚合评测」「个人开源作品展示」三大核心模块，目标是为访客提供一站式的技术内容消费与个人品牌展示体验。核心功能包括： 1. 博客系统：支持本地 Markdown 文章渲染，文章列表按技术 / 感悟 / 知识三分类筛选，支持标题/摘要/标签搜索，兼容 CSDN 外链归档与本地文章混合展示。 2. 工具箱聚合：收录并评测 10+ 款真实第三方效率工具，按文本处理 / 编程开发 / AI 工具 / 设计创作 / 图像处理 / 效率办公分类，支持收藏、搜索、定价标签（真免费 / 部分免费 / 付费）筛选。 3. 作品展示：集中展示 4 个已开源的真实项目（CSDN 博客爬虫、绿色软件管理器、一键环境搭建、访问量辅助工具），全部附带 Gitee 仓库链接。 4. 主题与交互：支持深色 / 浅色主题切换并持久化到 localStorage，针对主题切换做了 FOUC（闪烁）优化；全站响应式布局，适配桌面端与移动端。 5. 公共组件：统一导航栏、页脚、加载动画、滚动渐入动画、粒子背景、访问量统计、社交分享等可复用模块。项目采用「配置驱动」设计，所有页面内容统一由 config.js 管理，新增文章、工具、作品时只需修改配置文件即可，无需改动页面结构。

C++多模块项目构建与并发服务器-CppDevKit

基于C++开发的多模块工程管理系统，支持员工信息增删改查、部门层级管理、数据持久化存储。系统采用面向对象设计，实现基类-派生类继承体系、虚函数多态、运算符重载。包含文件IO模块实现数据本地存储与加载。同时扩展开发Linux环境下多线程并发文件服务器，支持多客户端连接、线程池管理、文件上传下载功能。