1. 立项背景和目标:
日常需要监控特定关键词的新闻动态,但手动搜索效率低。本工具实现自动抓取联合早报新闻,支持关键词搜索和首页热闻获取,帮助用户快速获取最新资讯。
2. 软件功能、核心功能模块:
- 电脑版:输入关键词,自动抓取新闻,导出Excel文件,支持打包成exe独立运行
- 手机版:安卓APK,输入关键词获取新闻列表,点击标题直接跳转浏览器阅读原文
- 支持首页热闻获取(无需关键词)
- 自动去重、实时进度显示
3. 业务流程、功能路径:
用户打开软件 → 输入关键词(或点击首页按钮)→ 程序抓取新闻 → 显示结果列表 → 电脑版导出Excel,手机版点击跳转原文
1. 整体架构和设计思路:
- 电脑版:Python + tkinter(GUI)+ requests + BeautifulSoup(爬虫)+ pandas + openpyxl(Excel导出)+ PyInstaller(打包)
- 手机版:Android Studio + Java + OkHttp(网络请求)+ Jsoup(HTML解析)
- 数据源:联合早报首页,通过解析HTML提取新闻标题和链接
2. “我”的负责模块和结果:
- 独立完成全部开发,包括GUI设计、爬虫逻辑、Excel导出、Android界面开发
- 电脑版已打包成exe(约50MB),手机版已打包成APK(约8MB)
- 测试结果:抓取首页约50条新闻,关键词搜索准确匹配
3. 遇到的难点和解决方案:
- 难点1:联合早报搜索功能为JavaScript渲染,直接请求拿不到结果 → 改为从首页抓取后筛选关键词
- 难点2:国内访问外网超时 → 使用联合早报(国内可访问)作为数据源
- 难点3:Android网络请求需要在子线程执行 → 使用OkHttp + 异步线程 + runOnUiThread更新界面