本项目旨在为政府及企业提供高效的网络舆情监测与智能化分析解决方案。
1. 核心功能 :
- 多源数据采集 :内置百度新闻等主流媒体爬虫,支持通过XPath自定义配置抓取规则,实现对各类新闻门户及网页内容的精准采集。
- 智能内容分析 :集成AI大模型接口,对采集的文章进行深度清洗、自动摘要提取及情感倾向分析。
- 可视化驾驶舱 :提供数据大屏(Dashboard),利用图表实时展示舆情走势、来源分布及关键词云。
- 自动化报告 :支持基于分析结果一键生成标准化的PDF舆情简报,便于归档与汇报。
2. 业务流程 :用户配置爬虫任务 -> 系统自动抓取数据 -> AI引擎进行深度分析 -> 最终通过可视化大屏展示并生成可下载的分析报告。
- 整体架构 :采用B/S架构。后端基于 Python Flask 框架开发,轻量高效;数据存储使用 SQLite ,易于部署维护;前端采用 Layui 框架构建响应式管理后台,结合 ECharts 实现丰富的数据可视化交互。
- 模块实现 :
- 爬虫引擎 :使用 requests 结合 BeautifulSoup 和 lxml 库,设计了通用的XPath规则解析器,实现了对动态网页结构的灵活适配与抓取。
- 报告服务 :利用 xhtml2pdf 库将渲染后的HTML模板动态转换为PDF文件,实现了报告生成的自动化。
- 插件化设计 :采用Flask Blueprint(蓝图)机制,将聊天、报表管理、爬虫配置等功能模块化解耦,提升了代码的可维护性与扩展性。
- 难点攻克 :针对不同网站结构差异大的痛点,设计了基于数据库配置的规则引擎,无需修改代码即可适配新站点的抓取需求。