程序聚合软件案例 Excel 数据自动去重与统计工具-Excel 数据自动去重与统计工具

Excel 数据自动去重与统计工具-Excel 数据自动去重与统计工具

2025-12-08 14:09:11

行业：电商、企业内部管理

载体：爬虫/脚本、网站

技术：Python、Pandas

业务和功能介绍

1. 立项背景和目标：
针对人工整理Excel数据时“重复记录筛选耗时长、分数统计易出错”的办公痛点，立项开发轻量化自动化工具，目标是实现Excel数据的自动去重与分数统计，将单文件数据整理耗时从10分钟压缩至1分钟内，同时避免人工计算的误差。

2. 软件功能、核心功能模块的介绍：
核心包含4个功能模块：①Excel数据读取模块：支持xlsx格式文件的本地导入；②重复数据清洗模块：自动识别并移除表格中的重复记录；③统计分析模块：计算分数列的平均值等核心指标；④成果导出模块：生成“去重后数据.xlsx”和“分数统计报表.xlsx”2个结构化文件。

3. 业务流程、功能路径描述：
完整业务流程为：“将待处理的Excel文件与Python脚本放置在同一目录→运行脚本→工具自动完成数据读取、去重、统计→在目录下查看生成的2个成果Excel文件”。

项目实现

1. 整体架构和设计思路：采用Python脚本轻量化架构，以pandas库为核心技术栈，搭配openpyxl库实现Excel文件的读写，流程为“读取原始Excel数据→自动去重重复记录→计算分数统计指标→导出结构化成果文件”，无需复杂部署，本地即可快速运行。
2. 我的负责模块和结果：独立完成整个工具的开发与测试，处理了5条原始Excel数据，成功去重2条重复记录，生成“去重后数据.xlsx”（3条有效记录）与“分数统计报表.xlsx”（平均分84.33），将手动整理数据的耗时从10分钟压缩至1分钟内。
3. 我遇到的难点、坑和解决方案：初期安装pandas库时遇到网络超时问题，通过切换阿里云PyPI镜像源解决；读取Excel时出现“openpyxl缺失”报错，补充安装openpyxl依赖后恢复正常。

示例图片视频

代码小杨 - 办公自动化

30天前活跃

方向：爬虫/脚本-爬虫/脚本、

交付率：100.00%

查看主页

相似推荐

memRagAgent - 智能认知记忆系统

开源地址：https://github.com/daoyou-zhang/memRangeAgent ### 记忆增强检索（Memory RAG）系统的核心是三层记忆架构的实现。情节记忆（Episodic）采用 PostgreSQL 存储，每条记录包含对话内容、时间戳、用户 ID、会话 ID 等元数据，并通过向量化技术生成 embedding，支持语义检索。语义记忆（Semantic）通过 LLM 从情节记忆中提炼，存储抽象概念、用户偏好、领域知识等，形成结构化的知识条目。程序记忆（Procedural）记录成功的工具调用序列和操作流程，支持流程复用。向量检索基于余弦相似度算法，将用户输入向量化后，在记忆库中检索最相关的历史记录。检索结果按相关性和时间衰减加权排序，确保既考虑语义相关性，又优先召回近期记忆。通过 Redis 缓存热点查询，将 RAG 检索延迟控制在 100ms 以内。 ### 认知控制器（Cognitive Controller）认知流程分为四个阶段：意图理解 → 上下文聚合 → 回复生成 → 学习闭环。意图理解使用独立的快速模型（qwen-flash），低温度（0.1）保证稳定的 JSON 输出，分析用户意图类别、实体、置信度和是否需要工具调用。上下文聚合从记忆服务获取用户画像、工作记忆（最近对话）和 RAG 检索结果，从知识服务获取图谱查询结果，融合成完整上下文。回复生成使用高质量模型（deepseek-v3），温度 0.5 保证创造性和稳定性的平衡。学习闭环将对话存入情节记忆，触发异步的画像聚合任务。 ### 知识图谱集成采用 Neo4j 图数据库构建知识图谱，支持实体（Entity）、关系（Relationship）、属性（Property）的灵活建模。实体包括人物、概念、事件等，关系包括"属于"、"相关"、"导致"等语义连接。通过 Cypher 查询语言实现路径查询、社区发现、中心性分析等图算法。

电商类型-Home Live

HomeLive是一款服务于全球用户的在线外贸交易平台，核心定位是打破跨境购物壁垒，满足中国消费者不出国门就能便捷选购全球商品的需求。平台汇集全球各地知名品牌供应商，打造多元化服务体系，涵盖在线直播带货频道、认证商家一站式购物服务，同时保障海外商品现货库存充足，提供全球货物护航直邮服务，全方位提升跨境购物的便捷性与安全性。

为解决电商从业者手动整理商品信息效率低的问题，我用 Python 开发了一款自动爬取公开商品列表的小工具，能按设定的关键词抓取商品名称、价格和销量信息，并自动整理成表格格式，帮助快速汇总竞品或目标类目的基础数据，降低人工整理的时间成本。该工具仅支持爬取用户授权或平台公开可商用的非版权类图片与基础数据，不涉及影视、付费素材等有版权保护的内容，全程遵守网站 robots 协议和数据使用规范，确保爬取行为合法合规

本地生活小程序

本地生活小程序，为了相应政策的拉动消费，让本地人群实现物美价廉的购物体验，包括在线超市，本地商家等，超市支持配送到家，平台商户折扣消费后返积分，积分可以兑换优惠券，再次消费，打造良性循环。

充电宝小程序，用于充电宝租借，电池包租借小程序用于电池包租借

立项背景和目标：随着共享经济发展，共享充电宝已成为人们外出时解决手机电量焦虑的刚需。本项目旨在开发一款跨平台的充电宝租借小程序/App，覆盖用户从查找附近机柜、扫码租借、在线支付到归还的全流程。同时通过电池包租借功能拓展业务场景（如便携充电包），提升用户体验与平台收益。核心功能模块：地图找点：基于LBS显示附近可用机柜，支持按距离/空闲状态筛选，一键导航。扫码租借：扫描机柜二维码或手动输入编号，快速租借充电宝或电池包。信用免押：接入第三方信用分（如芝麻信用），高信用用户免押金租借。订单与支付：实时计费，支持微信/支付宝支付，订单历史可查，押金秒退。用户中心：个人信息、优惠券、客服反馈、使用帮助等。业务流程描述：用户打开小程序 → 授权定位 → 首页地图展示附近机柜 → 点击机柜查看详情（剩余充电宝数、距离）→ 选择“扫码租借”扫描二维码 → 确认租借，系统判断信用分 → 免押/支付押金 → 机柜弹出充电宝 → 使用中可查看剩余电量/计费 → 归还时扫描任意同品牌机柜二维码 → 插入充电宝 → 系统自动结算费用并扣款 → 订单完成。