本项目旨在解决传统量化策略在极端行情下适应性差的问题,开发了一套基于深度强化学习的自动化交易系统。
主要功能包括:
多因子数据处理:实时接入交易所WebSocket数据,自动清洗并计算MACD、RSI、布林带等50+技术指标及链上数据特征。
智能决策代理:系统根据当前市场状态(State),自动输出买入、卖出或持仓动作(Action),并动态调整仓位比例。
回测与模拟盘:提供高性能回测引擎,支持历史数据回放验证策略有效性,并集成实盘模拟环境。
风险控制模块:内置最大回撤控制、止盈止损机制,防止极端市场波动导致的本金大幅亏损。
环境构建:基于OpenAI Gym接口自定义交易环境,模拟真实的滑点和手续费,确保训练环境贴近实战。
算法模型:采用PPO(Proximal Policy Optimization)算法作为核心策略网络,相比DQN具有更好的收敛性和稳定性。
特征工程与状态空间:设计了包含过去N个时间步的OHLCV数据及衍生技术指标的时间滑动窗口作为状态空间输入。
奖励函数设计:摒弃单纯的收益率奖励,采用夏普比率(Sharpe Ratio)和最大回撤惩罚相结合的奖励函数,引导模型在追求收益的同时兼顾风险。
模型训练与优化:使用历史3年的分钟级数据进行训练,并在测试集中实现了年化收益率优于基准策略15%的效果。