程序聚合软件案例智慧金融爬虫数据采集系统

智慧金融爬虫数据采集系统

2026-02-26 16:33:13

行业：电商、金融

载体：爬虫/脚本

技术：Python、Scrapy、Selenium、Tesseract

业务和功能介绍

1.立项背景和目标：需要对主流金融网站上的常见金融指标数据进行分析，需要获取实时的数据做量化分析
2.软件功能、核心功能模块的介绍：(1) 爬虫任务定时执行、任务状态检测平台采用dolphinschduler开源框架 (2) 爬取数据采用request,selenium,playwright,rpa,scapy等框架（3）反爬技术框架采用js逆向、滑块验证码、图片数字验证码、ocr图片识别技术
（4）数据库采用mongoldb,oracle,后端技术采用flask框架
3.业务流程、功能路径描述：爬取主流金融网站的数据、图片、excel文件、html信息，解析、提取、转换其中的数据并落入数据库中，通过接口的形式推送到业务系统做展示

项目实现

1.整体架构和设计思路，不同模块使用的技术栈
（1）数据爬取python任务的调度、任务执行状态检测采用dolphinschduler平台
（2）后端服务采用flask框架
（3）数据库存储采用mongodb和oracle
2.我负责的模块和结果
（1）负责从主流金融网站爬取需要的数据，制定特定网站需要爬取的策略和方式和数据爬取频率以及对应的破解反爬的技术方案
（2）维护线上的爬虫任务，当对应网站数据内容、数据结构发生变化能及时对对应的爬虫任务做修正来保障数据的及时更新
3.我遇到的难点、坑，和解决方案
(1) 当前方案可以正常爬取数据的网站随着网站新增反爬策略导致数据爬取失败，需要采用其他破解方案来保障爬虫任务的正常执行
(2) 随着网站上网页内容、数据格式发生变更，导致之前解析数据的逻辑无法继续正常爬取数据，需要及时定位问题，根据最新的数据格式内容来修复爬虫任务
(3)对爬虫任务进行优化，多线程保证爬虫任务执行时间的缩减，提升效率
(4)随着时间累计，对历史积累的大数据量大数据进行存储和可视化分析

示例图片视频

jack7320

30天前活跃

方向：爬虫/脚本-爬虫/脚本、安全/逆向-安全/逆向、

交付率：100.00%

查看主页

相似推荐

人寿保险核心业务系统-LIS

1，为人寿保险公司提供核心业务开展的软件支持，满足公司业务开展要求和监管审批条件 2，涉及投保，保全，理赔，监管等模块 3，投保模块从扫描开始，对保单数据提取，人工核对录入后，通过工作流审核，将保单存放系统并形成正式合同。监管模块通过配置规则，将业务订单和财务数据按监管要求进行提取，生成文件上报，对回执内容解析和生成后续工作流。

阿里某BU-对账结算系统

阿里某BU对账结算系统是面向交通出行场景的全链路财务结算平台，全面支撑机票、火车票、船票、租车等多条业务线的资金对账与结算工作，覆盖交易对账、账单核销、成本核算、利润结转、差错处理全流程核心能力，是BU出行交易资金闭环、账务合规、收益核算的核心底层系统。平台承接全品类出行订单的日均大规模账务计算任务，保障海量交易数据下账务精准、结算合规、异常可追溯。系统采用主流Spring Boot微服务架构搭建后端服务，底层基于PolarDB分布式数据库完成亿级交易数据的稳定存储，依托MaxCompute Spark构建弹性算力引擎，搭建批流一体OLAP计算体系，支撑日均百万级的对账、结转计算任务，可弹性应对大促、峰值订单流量带来的账务计算压力，保障全业务线财务结算高效、稳定、准确落地。

Go+FFmpeg 抖音财经股票指标视频自动化生成系统

一、项目简介本人自1993年接触证券市场，2004年尝试用PHP开发自动化指标筛选程序，因并发性能限制，批量数据运算耗时过长。2015年转向Go语言，依托原生并发模型，将运算耗时由半小时优化至1分钟内，期间对比Python、Julia等语言后，最终选定Go为主力开发语言。 2025年启动本项目：基于自研股票指标函数体系，搭建财经短视频自动化流水线，将量化指标可视化内容批量生成视频并适配抖音平台分发标准。技术迭代上，初期采用fogleman/gg生成PNG图片序列，再由FFmpeg合成视频。经持续优化，现绝大部分素材渲染直接交由FFmpeg完成，仅在FFmpeg耗时过高、分辨率无法满足需求时，回退使用GG生成静态图片。整套系统已实现数据解析、图表渲染、视频合成一站式自动化。二、业务功能批量指标运算：批量读取量化数据，自动运算生成股票指标信号。数据可视化渲染：支持FFmpeg滤镜实时绘图，兼容GG静态PNG绘图兜底方案。短视频自动合成：按平台规范自动合成视频，适配抖音等主流短视频平台分辨率与码率要求。全流程自动化调度：从数据到视频全链路自动化，支持持续产出可视化素材。智能渲染链路切换：根据耗时、画质需求，自动选择最优渲染方案（FFmpeg主链路/GG兜底）。三、技术栈 Go、FFmpeg、fogleman/gg、股票量化接口、自动化调度脚本

量化工作平台

1、项目是面向股票、ETF、指数和期货的本地量化数据与策略研究平台，覆盖数据维护、因子研究、策略回测及研究成果管理等环节。 2、支持从 Tushare 和期货 Tick 文件获取数据，完成增量更新、复权处理、标准化存储、失败重试以及数据完整性和质量检查。 3、内置 Basic、Alpha158、Alpha101 等因子体系，支持因子计算、覆盖率检查、IC/RankIC 分析、分组收益分析、稳定性评估和因子选股。 4、提供股票池筛选、组合回测、调仓、交易成本、涨跌停及 ST 等交易约束，并输出净值、交易、持仓、诊断和基准对比结果。 5、支持策略回测、跟踪。 6、提供本地可视化工作台，可查看数据状态、因子、策略、组合和研究产物，并通过 Watchlist 和生命周期机制管理候选策略及复盘记录。

报表中台

本模块提供多维度报表数据展示及多格式导出功能，支持将业务数据一键导出为 Excel、CSV 及 PDF 格式。系统内置高性能生成引擎，保障大数据量导出时的稳定与高效，满足用户离线分析、数据归档及财务对账等多样化业务需求。