立项背景和目标:客户是一家电商数据分析公司,需要从京东联盟各秒杀专区获取商品数据,用于价格监控和竞品分析。目标网站的核心接口请求中包含动态加密参数h5st,由10个字段分号分隔,常规方法无法直接获取。
软件功能、核心功能模块:系统主要包含三个模块——①加密参数逆向模块:分析h5st签名生成逻辑;②数据采集模块:使用Playwright自动化框架模拟真实用户行为;③数据存储模块:采集结果输出为JSON和CSV格式。
业务流程、功能路径:启动脚本后自动初始化浏览器,登录目标网站,遍历各秒杀专区,逐页采集商品数据,去重后保存到本地文件。
整体架构和设计思路:采用Python作为主语言,Playwright控制浏览器自动化,通过分析前端JS代码定位加密入口。使用AST技术对混淆代码进行反混淆还原,通过Chrome DevTools断点调试分析调用栈,提取核心加密算法。
“我”的贡献模块和结果:独立完成全部逆向分析和开发工作。完成了h5st签名的完整逆向还原,解析10字段分号分隔的生成逻辑;还原了uuid本地生成规则(时间戳+随机数);实现了多秒杀专区并发采集。单次采集稳定获取150+商品数据,交付完整Python脚本及逆向分析报告(含M01-M07系列技术文档)。
“我”遇到的难点和解决方案:主要难点是h5st参数经过多层混淆和动态生成。解决方案是使用AST还原混淆代码,在signSync函数入口下断点,逐步跟踪执行流程,最终定位到核心加密函数并完成Python复现。