立项背景: 随着人工智能领域快速发展,每天产生大量新闻资讯,传统人工筛选方式效率低下,无法及时捕捉重要信息。本项目旨在解决信息过载问题,通过AI技术自动聚合、筛选、总结AI领域新闻,帮助用户高效获取关键资讯。
核心功能:
智能抓取:自动从TechCrunch AI、MIT Technology Review、机器之心等5个权威新闻源抓取最新内容
AI双语总结:使用DeepSeek API自动生成中英文双语标题和摘要,提取3-5条核心要点
智能排序算法:综合时效性(30%)、来源权重(20%)、关键词匹配(25%)、AI评估(25%)四维度计算重要度评分(0-100分)
实时进度展示:抓取过程中实时显示进度条,包括当前处理文章数和状态
业务流程: 每日定时任务(上午9点)自动触发 → RSS订阅源抓取 → 新文章入库 → AI分析总结 → 重要度评分 → 用户访问时按分数排序展示 → 支持时间筛选(今天/本周/全部)和语言切换(中/英)
整体架构:
采用前后端分离架构:
前端:Next.js 14 + React + TypeScript + Tailwind CSS,响应式设计,支持中英文切换
后端:Next.js API Routes + Node.js
数据库:SQLite + Prisma ORM,存储新闻源配置、原始文章、AI总结、抓取日志
AI服务:DeepSeek API(chat模型)进行内容总结和重要度评估
任务调度:node-cron实现每日自动更新
负责内容和量化结果:
我独立负责全栈开发,从需求分析到部署上线完整周期约3天:
完成5个新闻源的RSS抓取配置
实现AI双语总结功能,平均处理时间约3秒/篇
设计并开发四维度评分算法,能准确识别高价值新闻
开发实时进度条功能,提升用户体验
系统支持最多20篇文章的并发处理
数据库存储优化,自动清理7天前旧数据
难点与解决方案:
难点1:AI总结JSON格式不稳定 问题:DeepSeek API返回的JSON格式偶尔会包含额外文本,导致解析失败 解决:使用正则表达式提取JSON部分,添加错误降级处理(失败时保留原文)
难点2:新闻源内容质量参差不齐 问题:不同网站RSS格式不一致,部分内容缺失 解决:实现内容补全逻辑,当RSS摘要过短时自动抓取原网页获取完整内容
难点3:进度实时追踪 问题:后端处理是异步的,前端需要实时了解处理状态 解决:设计全局进度状态存储 + 前端轮询机制,每秒更新进度条
难点4:Prisma 7版本配置变化 问题:Prisma 7移除了schema中的url配置,需要适配新的配置方式 解决:降级到Prisma 6稳定版,使用prisma.config.ts配置文件管理数据库连接