Bilibili爬虫及部署工作

2026-02-26 21:13:41

行业：云计算

载体：网站、爬虫/脚本

技术：Python、Django、Scrapy

业务和功能介绍

独立负责B站数据持续化采集模块的工业级开发与部署，为下游大模型提供高稳定性、高质量的多模态语料库。
基于 Python 与 Scrapy 构建高可用爬虫架构：设计动态重点监控机制，支持灵活配置目标 UP 主，实现对其视频元数据、弹幕及评论区互动文本的自动化、高频次定向追踪与全量抓取。
设计并实现完整的数据 Pipeline：在 Scrapy 管道层完成原始脏数据的去重、脱敏与初步清洗，并将结构化数据高效持久化存储至 MySQL 数据库，保障了数据读取与模型调用的高效衔接。
完成项目的容器化交付：运用 Docker 容器化技术对整个采集模块进行独立打包与自动化部署，屏蔽了环境差异，大幅提升了系统的可移植性与长期运行的稳定性。

项目实现

独立负责 Bilibili 持续化数据采集模块的从零到一开发，构建高可用、反风控的工业级数据抓取与分发系统。
攻克复杂反爬与风控体系：深入分析 B 站前端加密逻辑，成功逆向并复现 WBI 签名算法，有效绕过核心风控校验；结合高匿 IP 代理池与动态 Cookie 池调度策略，突破高频抓取限制，保障系统长期稳定运行。
基于 Scrapy 构建高性能采集引擎：设计并实现定制化重点监控机制，支持对指定 UP 主视频流、评论区及弹幕生态的自动化、高频次全量抓取。
基于 Django 实现后端架构与 API 交付：搭建后台服务，将 Scrapy 清洗后的结构化数据持久化存储，并封装为标准的 RESTful API 接口，实现与下游大模型分析模块的无缝对接。
技术沉淀与开源分享：提炼 WBI 签名算法逆向全过程及系统实现细节，撰写并发布于个人博客（https://snozzz.cc/article/bilibili-spider）。

示例图片视频

snozzz

30天前活跃

方向：爬虫/脚本-爬虫/脚本、前端-Web前端、

交付率：100.00%

查看主页

相似推荐

RPG玩法框架

1.深耕现有团队积累细分RPG强交互方向，利用工业化迭代，洗长尾BT硬核手Q自然量，保证收入，每次不断尝试，买量测试，那个版本数据比较好，重点优化，冲击爆款。 2.目前先专注平面战斗表现（目前利用AI绘画至少节省2倍成本，已经找到不错的表现参考） 3.找到前期轻度玩法，转强交互RPG玩法，匹配的轻度玩法，在小游戏找买量合作方，不断的尝试（已经初步尝试，24年3月左右线上测试） 4.实时关注时长最新爆火新品类玩法如果发现的比较早，并且该玩法，在工业化迭代中积累的美术，代码资源，支持可以快速抄袭，则尽量百分百快速还原，抢占新品类红利，线上不断测试迭代优化，建起壁垒。如果发现的比较晚，或现有资源不能快速抄袭，抢占先机，思考是否可以有独特的创新，创新可以在玩法，表现等，有就做，没有继续做原来的事情

大千修仙录

1.三族角色养成系统：包含人族（均衡适配）、妖族（肉身爆发）、仙族（法修天花板）三大种族，开局随机根骨、悟性等 7 项先天属性，衍生属性与隐藏属性由基础属性实时计算，隐藏属性全程不可改变，完美契合种族特色。 2.有本地存档系统，玩家做的任何决定都可以本地存档，并且已经加入bgm，bgm可自由关闭； 3.境界突破系统：覆盖炼气、筑基、金丹、元婴、化神等 14 大境界，每个境界分初 / 中 / 后 / 大圆满 4 个小阶，突破需满足修为与材料要求，成功后全属性按倍率成长，失败则扣除部分修为。 4.属性加成体系：7 项基础属性（根骨、悟性、身法等）每 + 1 点对应固定衍生属性 / 隐藏属性加成，三族叠加专属倍率，实现 “根骨影响修炼、肉身决定坦度、颜值提升社交” 的差异化养成。 5.大荒北城剧情玩法：以 “大荒北城出现天地异象，有机缘现世” 为核心剧情，玩家从凡境起步，通过修炼、探索、战斗逐步提升境界，解锁御剑飞行、神识探宝、法宝碰撞等修仙核心玩法，最终目标是飞升成仙。 6.UI / 背包系统：底部固定显示 UI 状态栏，背包模块实时展示原石、材料等资源，屏幕中间预留剧情对话与操作区域，符合移动端操作习惯。

ai文字冒险-游戏

1.目前市面上缺少与ai相关的游戏，大部分文字冒险游戏均为预设，且不支持用户自主自定义，我做一款完全可用户自定义世界观及主角的文字冒险rpg，然后ai会先进行世界观创造保存到世界观里，然后再根据创造世界观来给用户游玩

"Protocol: Deception" – Gravity & Portal Puzzle Game

🔧引擎级问题解决能力独立定位并修复 UE5 渲染线程内存竞态，涵盖节点断点调试、内存地址追踪，具备扎实的多线程底层分析能力。 ⚡ 全栈引擎子系统实现经验单人完成渲染、物理（Chaos 扩展）、输入/摄像机、AI、PCG 等 40+ 模块，覆盖引擎核心子系统。 🎮 C++ 多线程与性能意识使用 C++20 + Unreal Insights 进行帧率/内存分析，具备 GPU 调试基础及资源加载策略优化经验。 🚀 高效迭代与工程自驱力 4 个月内独立交付完整可玩 Demo，AI 辅助调试工作流将引擎源码检索效率提升约 90%。

抖音开放平台恐怖点击拖动类解谜小程序游戏-日常异象录

业务功能介绍已实现功能模块 1.点击解密类小游戏完整客户端 ·通过点击场景中的物品或选项推动剧情、解开谜题。 ·广告点位（提示）与玩法结合自然 ·设计了丰富多样的关卡，难度循序渐进，兼顾休闲与动脑的乐趣。 2.存档以及数据同步系统 ·通过用户数据进行快速的数据保存，确保用户可以从断点继续游玩 3.CDN动态加载资源管理系统 ·所有数据通过动态的CDN加载，节省完整加载时间，节省用户设备资源