该项目为跨境电商美容仪器行业打造了一套全自动新闻情报采集与智能分析系统。
立项背景:美容仪器行业产品迭代快、全球竞品动态分散在多个信息源,客户需要每天从国内(百度/微信/36氪)和国际(NewsAPI/Google News)等渠道收集行业新闻,但人工搜索耗时且容易遗漏。
核心功能模块:
1. 多源新闻采集引擎:同时抓取聚合数据API(国内新闻)和NewsAPI(国际新闻),每日定时执行
2. 智能去重与分类:基于关键词匹配自动将新闻分为"新品发布""技术突破""市场趋势""竞品动态"四类
3. 飞书多维表格自动入库:采集结果自动写入飞书Bitable,支持多条件筛选和状态标记
4. 异常监控告警:当采集失败或IP被屏蔽时自动发送飞书通知
业务流程:定时任务触发 → 多API并发请求 → 数据清洗去重 → AI分类打标 → 飞书表格写入 → 异常告警通知。
整体架构采用Python + 多源API + 飞书开放平台的轻量级方案。
技术架构:使用Python asyncio实现多API并发采集,通过字典树算法进行新闻标题去重(准确率>95%),集成飞书Open API实现Bitable自动写入,部署在Windows Server定时任务中每日09:00自动运行。
我负责整个系统的全栈开发:从需求分析、API选型、数据清洗逻辑、飞书表格字段设计到最终部署上线,独立完成约800行Python代码。实现了日均采集50+条行业新闻、去重准确率95%+、飞书入库成功率100%。
遇到的主要难点:
1. NewsAPI国际新闻源在中国大陆被屏蔽 → 解决方案:对接Smartproxy静态住宅IP代理,通过requests proxy参数绕过限制
2. 聚合数据API返回格式不一致(部分新闻缺摘要/作者字段)→ 设计容错解析器,对缺失字段自动留空并标记"待补充"
3. 飞书API token过期自动续期 → 集成tenant_access_token自动刷新机制,确保长时间运行不掉线