1.立项背景和目标:需要对主流金融网站上的常见金融指标数据进行分析,需要获取实时的数据做量化分析
2.软件功能、核心功能模块的介绍:(1) 爬虫任务定时执行、任务状态检测平台采用dolphinschduler开源框架 (2) 爬取数据采用request,selenium,playwright,rpa,scapy等框架 (3)反爬技术框架采用js逆向、滑块验证码、图片数字验证码、ocr图片识别技术
(4)数据库采用mongoldb,oracle,后端技术采用flask框架
3.业务流程、功能路径描述:爬取主流金融网站的数据、图片、excel文件、html信息,解析、提取、转换其中的数据并落入数据库中,通过接口的形式推送到业务系统做展示
1.整体架构和设计思路,不同模块使用的技术栈
(1)数据爬取python任务的调度、任务执行状态检测采用dolphinschduler平台
(2) 后端服务采用flask框架
(3) 数据库存储采用mongodb和oracle
2.我负责的模块和结果
(1)负责从主流金融网站爬取需要的数据,制定特定网站需要爬取的策略和方式和数据爬取频率以及对应的破解反爬的技术方案
(2)维护线上的爬虫任务,当对应网站数据内容、数据结构发生变化能及时对对应的爬虫任务做修正来保障数据的及时更新
3.我遇到的难点、坑,和解决方案
(1) 当前方案可以正常爬取数据的网站随着网站新增反爬策略导致数据爬取失败,需要采用其他破解方案来保障爬虫任务的正常执行
(2) 随着网站上网页内容、数据格式发生变更,导致之前解析数据的逻辑无法继续正常爬取数据,需要及时定位问题,根据最新的数据格式内容来修复爬虫任务
(3)对爬虫任务进行优化,多线程保证爬虫任务执行时间的缩减,提升效率
(4)随着时间累计,对历史积累的大数据量大数据进行存储和可视化分析