1. 立项背景和目标:
针对人工整理Excel数据时“重复记录筛选耗时长、分数统计易出错”的办公痛点,立项开发轻量化自动化工具,目标是实现Excel数据的自动去重与分数统计,将单文件数据整理耗时从10分钟压缩至1分钟内,同时避免人工计算的误差。
2. 软件功能、核心功能模块的介绍:
核心包含4个功能模块:①Excel数据读取模块:支持xlsx格式文件的本地导入;②重复数据清洗模块:自动识别并移除表格中的重复记录;③统计分析模块:计算分数列的平均值等核心指标;④成果导出模块:生成“去重后数据.xlsx”和“分数统计报表.xlsx”2个结构化文件。
3. 业务流程、功能路径描述:
完整业务流程为:“将待处理的Excel文件与Python脚本放置在同一目录→运行脚本→工具自动完成数据读取、去重、统计→在目录下查看生成的2个成果Excel文件”。
1. 整体架构和设计思路:采用Python脚本轻量化架构,以pandas库为核心技术栈,搭配openpyxl库实现Excel文件的读写,流程为“读取原始Excel数据→自动去重重复记录→计算分数统计指标→导出结构化成果文件”,无需复杂部署,本地即可快速运行。
2. 我的负责模块和结果:独立完成整个工具的开发与测试,处理了5条原始Excel数据,成功去重2条重复记录,生成“去重后数据.xlsx”(3条有效记录)与“分数统计报表.xlsx”(平均分84.33),将手动整理数据的耗时从10分钟压缩至1分钟内。
3. 我遇到的难点、坑和解决方案:初期安装pandas库时遇到网络超时问题,通过切换阿里云PyPI镜像源解决;读取Excel时出现“openpyxl缺失”报错,补充安装openpyxl依赖后恢复正常。