在日常办公中,经常需要处理大量 Excel 文件,如合并多个数据表、清洗脏数据、转换格式等。手动操作效率低下且容易出错,因此开发了本工具。 使用 Python + Pandas 进行数据处理核心逻辑开发
- 使用 openpyxl 作为 Excel 读写引擎,兼容 .xlsx/.xls 格式
- 使用 Streamlit 构建图形用户界面,用户无需编写代码即可操作
- 实现了多文件纵向/横向合并、数据去重、缺失值填充、格式转换等功能
- 支持一键导出为 Excel/CSV/JSON 格式
技术难点与解决方案:
1. 大文件处理性能优化:采用分块读取和内存优化策略,保证百万行级别数据的稳定处理
2. 多引擎兼容:针对不同版本的 Excel 文件自动选择合适引擎
3. 编码问题:处理中文 CSV 文件时自动适配 UTF-8-sig 编码,防止乱码