24小时内活跃

星陨

• UID:18281
综合评分 34
方向: 人工智能-机器学习与深度学习 爬虫/脚本-爬虫/脚本
上海市
8000元/8h
1年经验
求职意愿:接单·求职中(1天内更新)

个人简介

擅长数据爬虫,软件开发,有过一次大厂软件开发经历

技能

核心技能:
其他技能: Microsoft Exchange
交流语言: 普通话( 母语水平 )
行业经验: 电商 社交 云计算 大数据

项目案例

网络视频网站数据爬虫
一、核心功能:基础数据采集与处理 核心功能是爬虫的 “基石”,主要目标是精准、稳定地获取视频平台的核心公开数据,并完成初步清洗,为后续分析或应用提供原料。 1. 目标数据采集(核心能力) 爬虫可针对主流视频平台(如 B 站、抖音、YouTube、腾讯视频等),定向采集以下几类关键数据,具体采集范围需根据平台接口限制或页面结构调整: 数据类别 具体采集内容 应用场景举例 视频基础信息 视频 ID、标题、发布时间、时长、封面图 URL、播放量、点赞量、收藏量、评论数、分享数 视频热度分析、内容分类统计 创作者信息 创作者 ID、昵称、头像 URL、粉丝数、关注数、发布视频总数、账号认证类型(如 “UP 主”) 创作者画像分析、达人筛选 视频内容数据 视频播放地址(需区分 “可下载”“仅在线播放” 权限)、字幕文本(公开字幕)、标签 / 分类 视频内容检索、字幕关键词分析 互动数据 评论内容(用户名、评论时间、评论点赞数、回复链)、弹幕内容(发送时间、弹幕文本) 用户情感分析、热门话题提取 2. 数据清洗与标准化 采集到的原始数据常存在格式混乱(如时间戳格式不统一)、冗余(如重复评论)、无效值(如播放量为 “--”)等问题,爬虫需内置处理逻辑: 格式统一:将不同平台的时间戳(如 “2024-05-20”“1684567890”)统一转为标准时间格式,播放量(如 “1.2 万”“12000”)统一转为数值型; 冗余 / 无效数据过滤:删除重复的评论、弹幕,过滤掉 “无意义文本”(如纯表情评论)或无效字段(如封面图 URL 失效); 关键词提取:基于 NLP(自然语言处理)工具(如 jieba、NLTK),从视频标题、评论、字幕中提取核心关键词(如 “AI 生成”“美食教程”),为后续分类打标签。 3. 数据存储与导出 采集并清洗后的数据需持久化存储,支持多种存储方式以适配不同需求: 本地存储:适合小规模数据,如 Excel(.xlsx)、CSV(逗号分隔文件,便于 Excel/Python 读取)、JSON(轻量格式,适合程序调用); 数据库存储:适合大规模、高并发采集场景,如关系型数据库(MySQL、PostgreSQL,用于结构化数据如视频基础信息)、非关系型数据库(MongoDB,用于非结构化数据如评论、弹幕); 数据导出:支持按需导出为可视化工具兼容格式(如 PowerBI、Tableau 可读取的 CSV/Excel),或 API 接口格式(供其他系统调用)。 二、扩展功能:提升采集效率与场景适配性 扩展功能是在核心能力基础上,针对 “高并发、反爬对抗、多场景需求” 设计的进阶能力,决定爬虫的稳定性与实用性。 1. 反爬对抗与稳定性优化 主流视频平台均设有反爬机制(如 IP 封锁、Cookie 验证、验证码、接口签名),爬虫需通过技术手段适配,确保采集过程
大数据

工作经历

上海汇火文化传播有限公司
  
50-200人
数据分析实习生
2025.06 - 2025.10
数据分析,数据爬虫维护,软件开发

教育经历

哈尔滨远东理工学院
2022.10 - 2026.07
人工智能与机器人
本科
相似推荐
南京市
人工智能-AI应用开发、爬虫/脚本-爬虫/脚本
技能:PyTorch
西安市
人工智能-机器学习与深度学习
技能:Python
杭州市
后端-Python、人工智能-机器学习与深度学习
技能:PyTorch
广州市
前端-Web前端、爬虫/脚本-爬虫/脚本
技能:JavaScript、Python、React
深圳市
前端-Web前端、爬虫/脚本-爬虫/脚本
技能:Vue
帮助文档   Copyright @ 2021-2024 程聚宝 | 浙ICP备2021014372号
人工客服