独立负责B站数据持续化采集模块的工业级开发与部署,为下游大模型提供高稳定性、高质量的多模态语料库。
基于 Python 与 Scrapy 构建高可用爬虫架构:设计动态重点监控机制,支持灵活配置目标 UP 主,实现对其视频元数据、弹幕及评论区互动文本的自动化、高频次定向追踪与全量抓取。
设计并实现完整的数据 Pipeline:在 Scrapy 管道层完成原始脏数据的去重、脱敏与初步清洗,并将结构化数据高效持久化存储至 MySQL 数据库,保障了数据读取与模型调用的高效衔接。
完成项目的容器化交付:运用 Docker 容器化技术对整个采集模块进行独立打包与自动化部署,屏蔽了环境差异,大幅提升了系统的可移植性与长期运行的稳定性。
独立负责 Bilibili 持续化数据采集模块的从零到一开发,构建高可用、反风控的工业级数据抓取与分发系统。
攻克复杂反爬与风控体系:深入分析 B 站前端加密逻辑,成功逆向并复现 WBI 签名算法,有效绕过核心风控校验;结合高匿 IP 代理池与动态 Cookie 池调度策略,突破高频抓取限制,保障系统长期稳定运行。
基于 Scrapy 构建高性能采集引擎:设计并实现定制化重点监控机制,支持对指定 UP 主视频流、评论区及弹幕生态的自动化、高频次全量抓取。
基于 Django 实现后端架构与 API 交付:搭建后台服务,将 Scrapy 清洗后的结构化数据持久化存储,并封装为标准的 RESTful API 接口,实现与下游大模型分析模块的无缝对接。
技术沉淀与开源分享:提炼 WBI 签名算法逆向全过程及系统实现细节,撰写并发布于个人博客(https://snozzz.cc/article/bilibili-spider)。