程序聚合 软件案例 爬虫工具 -新闻爬虫工具

爬虫工具 -新闻爬虫工具

2026-03-28 22:53:43
行业:大数据
载体:安卓APP、Windows应用
技术:Java、Python

业务和功能介绍

1. 立项背景和目标:
日常需要监控特定关键词的新闻动态,但手动搜索效率低。本工具实现自动抓取联合早报新闻,支持关键词搜索和首页热闻获取,帮助用户快速获取最新资讯。

2. 软件功能、核心功能模块:
- 电脑版:输入关键词,自动抓取新闻,导出Excel文件,支持打包成exe独立运行
- 手机版:安卓APK,输入关键词获取新闻列表,点击标题直接跳转浏览器阅读原文
- 支持首页热闻获取(无需关键词)
- 自动去重、实时进度显示

3. 业务流程、功能路径:
用户打开软件 → 输入关键词(或点击首页按钮)→ 程序抓取新闻 → 显示结果列表 → 电脑版导出Excel,手机版点击跳转原文

项目实现

1. 整体架构和设计思路:
- 电脑版:Python + tkinter(GUI)+ requests + BeautifulSoup(爬虫)+ pandas + openpyxl(Excel导出)+ PyInstaller(打包)
- 手机版:Android Studio + Java + OkHttp(网络请求)+ Jsoup(HTML解析)
- 数据源:联合早报首页,通过解析HTML提取新闻标题和链接

2. “我”的负责模块和结果:
- 独立完成全部开发,包括GUI设计、爬虫逻辑、Excel导出、Android界面开发
- 电脑版已打包成exe(约50MB),手机版已打包成APK(约8MB)
- 测试结果:抓取首页约50条新闻,关键词搜索准确匹配

3. 遇到的难点和解决方案:
- 难点1:联合早报搜索功能为JavaScript渲染,直接请求拿不到结果 → 改为从首页抓取后筛选关键词
- 难点2:国内访问外网超时 → 使用联合早报(国内可访问)作为数据源
- 难点3:Android网络请求需要在子线程执行 → 使用OkHttp + 异步线程 + runOnUiThread更新界面

示例图片视频


BHF
15天前活跃
方向: 后端-Python、桌面端-Java桌面开发、
交付率:100.00%
相似推荐
自行开发监控软件-监控软件
1,立项背景:在医院信息部门工作,负责医院系统开发和运维工作,传统的监控软件很难实现全范围监控,如网络,接口,业务系统,服务器cpu、内存、存储,院内核心业务,数据库等,并且出现问题不能及时预警,漏报误报占比太高,就从核心业务开始自己写监控,逐步扩展到数据库,接口,总线平台,数据中心等其他模块,现在院内运维基本依赖这套监控系统,运行很多年,功能也比较完善。 2,核心功能:实现网络,接口,业务系统,服务器cpu、内存、存储,院内核心业务,数据库,通过钉钉,小程序,短信,电话,工单系统等方式,及时把预警消息推送到个人和群,督促系统管理员及时处理。 3,业务流程:任务监控,没隔三分钟跑一次所有监控列表,记录数据到数据库了日志,有问题节点间隔30秒再跑一次监控,自定义每个节点监控次数,达到设定上限开始推送预警消息到个人和运维群,防止误报,个人未处理第二次预警时推送工单,拨打电话。
智慧医生
•患者信息全景查看:支持医生一键调取患者完整就诊数据,涵盖门诊 / 住院就诊记录、检验检查报告、医学影像、住院生命体征数据、门诊开药记录、手术记录、住院病程记录、护理记录等多类型医疗信息,实现患者诊疗数据一站式整合查看 •跨端医疗协作会诊:深度对接钉钉、浙政钉、企业微信生态,医生可通过系统快速发起患者会诊,通过建立专属群组开展线上多学科 / 跨机构会诊业务;同时与院内核心系统打通,会诊结论、处理意见等关键数据可实时回流至院内会诊系统,保障医疗数据闭环与院内业务衔接 •影像调阅系统:支持调阅Jpg、Dicom格式的影像文件,同时支持对影像数据进行反相、文字标注、测量、基础标注等功能 •基于阿里云视觉智能开放平台的痤疮等级检测 •基于PaddleOCR的图片文字OCR识别功能,从骨密度报告中提取关键信息
省级疾控健康管理平台-老年疾病信息管理系统大框架(认知筛查子系统)
服务于省级疾控中心,面向全省基层医疗机构,用于老年人群的认知障碍筛查与健康管理。核心业务流程包括:基层医护人员通过系统对辖区内老年居民进行认知功能评估,填写标准化认知筛查量表(如MMSE、MoCA等国际通用量表及本土化量表);系统根据量表得分自动判定认知障碍风险等级(正常/轻度/中重度),生成个性化随访建议;省级疾控中心汇总全省筛查数据,进行认知障碍患病率统计、流行病学分析和资源调配决策。 系统涉及多种认知筛查量表,每种量表包含数十个评估条目,且条目间存在复杂的联动规则:如某个条目得分异常时,需自动触发补充评估模块;不同年龄段、教育程度的受试者,其评分标准和风险阈值不同;量表填写过程中需实时校验数据的完整性和逻辑合理性。
医疗级复杂表单解决方案-DynamicFormEngine
为解决医疗场景下复杂量表的填报、校验与数据管理难题,独立设计并开源了一套规则驱动的动态表单引擎。该系统可广泛应用于医院HIS系统、公共卫生数据采集、临床试验数据管理等场景,能处理多量表联级、复杂逻辑校验、大数据量渲染等高难度需求。
透析管理系统
目前大部分医院血液净化中心都是采取传统手工作业方式,每天需要收集大量数据,导致工作效率低下。日常的血透管理过程繁琐且复杂,中间不能出现任何差错,对于医院透析中心来说,数字化管理是必然趋势,传统的血透管理不仅不利于持续追踪患者的透析质量情况,也不利于全科的医疗质量安全管理。透析管理系统能彻底提高了各大医院血液透析工作效率 1.设备管理记录,透析记录,设备档案记录 2.人脸识别患者身份 2.读卡身份验证 3.串口读取体重秤数据解释显示 4.扫码核对信息 5.耗材扫码出库入库 6.语音播报 7.图表可视化展示数据 8.websocket监听消息推送 9.上传文件,下载文件,安装更新
帮助文档   Copyright @ 2021-2024 程聚宝 | 浙ICP备2021014372号
人工客服