业务亮点和立项原因:针对大学生消费数据杂乱、人工整理效率低的问题,开发自动化清洗系统,解决数据格式混乱、异常值干扰分析的问题,为校园消费行为分析提供高质量数据基础。
立项过程:项目源于校园卡管理中心的需求调研,与学生会生活部合作,通过问卷收集了100+学生的数据管理痛点,最终确定以“标准化+自动化”为核心解决方案。
功能模块:
数据加载与初步检查:支持CSV文件输入,快速检测空值、格式错误
智能清洗:自动修复日期(如无效日期"2025-02-31")、修正负金额、标准化分类
报告生成:输出清洗日志,包含数据量变化、异常记录统计
功能路径:
原始数据 → 加载 → 逐字段清洗(日期/金额/分类/支付方式) → 结果导出 → 可视化报告
团队与分工:3人团队(1后端开发、1数据分析、1测试),开发周期1周。我负责核心清洗逻辑开发、异常处理规则设计。
技术亮点:
使用Pandas实现高效向量化操作,处理1000条数据仅需0.5秒
动态容错机制:fuzzy=True解析非常规日期,保留原始信息的同时修复错误
边界控制:通过lambda函数实现金额动态截断(>500→500)