多源数据采集与智能分析系统-可定制化数据采集与可视化平台
1. 立项背景和目标
在日常数据分析与信息监测工作中,多个垂直领域的数据(如城市交通拥堵指数、在线编程题库、政府公共资源交易公告)分散在不同平台,手工收集效率低下且难以持续。本项目旨在构建一套可扩展的多源数据采集与可视化分析系统,实现自动化抓取、结构化存储与图表化展示,为交通研究、求职备考、招投标监测等场景提供数据支撑。
2. 软件功能、核心功能模块的介绍
系统包含三大模块:
交通拥堵监测模块:通过高德地图公开API实时获取全国城市拥堵排名、拥堵延迟指数、周环比变化及畅通速度,并利用PyEcharts生成交互式柱状图,直观展示前十名城市的多维指标对比。
题库采集模块:针对牛客网平台,分别爬取“专项练习”“笔试真题”“面试真题”“在线编程”四类题目。支持按知识点ID筛选、设置试卷数量、去重存储,并获取在线编程题的高分Python3代码作为参考。
公共资源交易模块:对接广东省和福建省公共资源交易平台,支持按公告类型(工程建设/政府采购)、页数等参数筛选,破解AES加密响应,提取公告标题、发布时间、来源、公告内容等关键字段,并清洗HTML为纯文本。
3. 业务流程、功能路径描述
用户通过修改脚本头部的配置参数(如爬取页数、题目数量、知识点ID、筛选类型等)即可启动对应模块。爬虫自动请求目标接口,解析JSON或HTML响应,处理反爬机制(签名、加密),提取所需字段,最终输出为JSON或TXT文件。交通模块额外生成HTML图表,可直接在浏览器中交互查看。
大数据
政务服务