星陨

• UID:18281

综合评分 34

方向：人工智能-机器学习与深度学习、爬虫/脚本-爬虫/脚本

上海市

8000元/8h

1年经验

求职意愿：接单·求职中(30天前更新)

个人简介

擅长数据爬虫，软件开发，有过一次大厂软件开发经历

技能

核心技能：

其他技能： Microsoft Exchange

交流语言：普通话（母语水平）

行业经验：电商、社交、云计算、大数据

项目案例

网络视频网站数据爬虫

一、核心功能：基础数据采集与处理核心功能是爬虫的 “基石”，主要目标是精准、稳定地获取视频平台的核心公开数据，并完成初步清洗，为后续分析或应用提供原料。 1. 目标数据采集（核心能力）爬虫可针对主流视频平台（如 B 站、抖音、YouTube、腾讯视频等），定向采集以下几类关键数据，具体采集范围需根据平台接口限制或页面结构调整：数据类别具体采集内容应用场景举例视频基础信息视频 ID、标题、发布时间、时长、封面图 URL、播放量、点赞量、收藏量、评论数、分享数视频热度分析、内容分类统计创作者信息创作者 ID、昵称、头像 URL、粉丝数、关注数、发布视频总数、账号认证类型（如 “UP 主”）创作者画像分析、达人筛选视频内容数据视频播放地址（需区分 “可下载”“仅在线播放” 权限）、字幕文本（公开字幕）、标签 / 分类视频内容检索、字幕关键词分析互动数据评论内容（用户名、评论时间、评论点赞数、回复链）、弹幕内容（发送时间、弹幕文本）用户情感分析、热门话题提取 2. 数据清洗与标准化采集到的原始数据常存在格式混乱（如时间戳格式不统一）、冗余（如重复评论）、无效值（如播放量为 “--”）等问题，爬虫需内置处理逻辑：格式统一：将不同平台的时间戳（如 “2024-05-20”“1684567890”）统一转为标准时间格式，播放量（如 “1.2 万”“12000”）统一转为数值型；冗余 / 无效数据过滤：删除重复的评论、弹幕，过滤掉 “无意义文本”（如纯表情评论）或无效字段（如封面图 URL 失效）；关键词提取：基于 NLP（自然语言处理）工具（如 jieba、NLTK），从视频标题、评论、字幕中提取核心关键词（如 “AI 生成”“美食教程”），为后续分类打标签。 3. 数据存储与导出采集并清洗后的数据需持久化存储，支持多种存储方式以适配不同需求：本地存储：适合小规模数据，如 Excel（.xlsx）、CSV（逗号分隔文件，便于 Excel/Python 读取）、JSON（轻量格式，适合程序调用）；数据库存储：适合大规模、高并发采集场景，如关系型数据库（MySQL、PostgreSQL，用于结构化数据如视频基础信息）、非关系型数据库（MongoDB，用于非结构化数据如评论、弹幕）；数据导出：支持按需导出为可视化工具兼容格式（如 PowerBI、Tableau 可读取的 CSV/Excel），或 API 接口格式（供其他系统调用）。二、扩展功能：提升采集效率与场景适配性扩展功能是在核心能力基础上，针对 “高并发、反爬对抗、多场景需求” 设计的进阶能力，决定爬虫的稳定性与实用性。 1. 反爬对抗与稳定性优化主流视频平台均设有反爬机制（如 IP 封锁、Cookie 验证、验证码、接口签名），爬虫需通过技术手段适配，确保采集过程

大数据