本项目为外贸/电商企业打造了一套从数据采集到智能报表生成的自动化系统。立项背景是传统商业情报收集依赖人工浏览多个数据源(海关、1688、行业报告、社交媒体),耗时且容易遗漏关键信息。
核心功能模块:
1. 多源自动采集:对接海关总署公开数据、1688供应商报价、行业研报、社交媒体舆情等4大类数据源,每日自动增量抓取。
2. AI智能处理:大模型对采集内容进行分类(贸易数据/价格监控/行业研究/竞品动态)、可信度评分、关键信息抽取。
3. 竞品价格监控:7天价格走势图自动生成,突变超过阈值自动预警推送。
4. 舆情情感分析:社交媒体评论AI情感分类(正面/中性/负面),负面比例超10%触发告警。
5. 日报自动生成:每日9:00自动汇总前一天数据,生成结构化报表并通过飞书/Slack推送。
6. 可视化仪表盘:ECharts 图表展示KPI趋势、数据来源分布、处理统计等。
系统采用前后端分离架构,后端Python负责数据采集和AI处理,前端React + ECharts负责仪表盘展示。
- 数据采集层:Scrapy + requests 多线程抓取,带UA伪装和请求频率控制,日均采集12,000+条数据。
- AI处理层:DeepSeek API驱动的内容分类、可信度评估(0-100%)、情感分析三模块串行处理。
- 异常检测层:基于滑动窗口的价格波动检测算法,7日均值偏离超过2个标准差自动标记。
- 推送层:飞书Webhook + Slack API,支持日报/周报/异常告警三种模板。
- 我负责全栈开发。主要难点是多数据源反爬策略各异,通过IP代理池+请求间隔随机化+UA轮换方案,将采集成功率从68%提升至96%+。系统已稳定运行,每天节省情报收集人力约16.5小时。