Bilibili爬虫及部署工作
独立负责B站数据持续化采集模块的工业级开发与部署,为下游大模型提供高稳定性、高质量的多模态语料库。
基于 Python 与 Scrapy 构建高可用爬虫架构:设计动态重点监控机制,支持灵活配置目标 UP 主,实现对其视频元数据、弹幕及评论区互动文本的自动化、高频次定向追踪与全量抓取。
设计并实现完整的数据 Pipeline:在 Scrapy 管道层完成原始脏数据的去重、脱敏与初步清洗,并将结构化数据高效持久化存储至 MySQL 数据库,保障了数据读取与模型调用的高效衔接。
完成项目的容器化交付:运用 Docker 容器化技术对整个采集模块进行独立打包与自动化部署,屏蔽了环境差异,大幅提升了系统的可移植性与长期运行的稳定性。
云计算