程序聚合 软件案例 TikTok 网红邮箱采集管道

TikTok 网红邮箱采集管道

2026-03-25 15:19:51
行业:电商
载体:爬虫/脚本
技术:Python、Flask、Selenium、MySQL Workbench

业务和功能介绍

项目总结:TikTok 网红邮箱采集管道
一、立项背景与目标
跨境电商与品牌出海场景中,企业需大规模触达 TikTok 达人进行商务合作,但平台不公开达人邮箱。本项目构建一套自动化采集管道:从 TikTok 达人列表出发,经搜索引擎发现关联社交账号,AI 头像比对验证身份,最终提取商务邮箱并导出 Excel。核心目标:在保证身份准确性的前提下,最大化邮箱采集覆盖率。
二、软件功能与核心模块
系统采用 Python 开发,三大核心模块 + 辅助工具构成:
模块1 — 搜索采集器(google_search_scraper.py):从 API 拉取待处理达人,通过 DuckDuckGo(Lite/Standard 双引擎自动降级)搜索社交主页链接(YouTube/Facebook/Twitter/Instagram/个人网站),分类过滤后入库。
模块2 — 社交链接验证器(social_link_verifier.py):管道核心。多线程浏览器访问社交主页提取邮箱,找到邮箱后调用 Gemini/豆包 Vision API 做 TikTok 与社交平台的头像 AI 比对,确认同一人后更新数据库并导出 Excel。
模块3 — 网站邮箱爬取器(website_scraper_new.py):补充管道。对模块2未找到邮箱的记录,爬取其 YouTube 简介中的个人网站或 LinkBio 页面,分层抓取(首页→联系页→隐私页→帮助页)提取邮箱。
辅助工具:Excel 初筛(Gemini 头像二次比对)、看门狗(卡死自动重启)、Excel 修复、PyInstaller 打包。核心库(core/)统一封装数据库连接池、反检测浏览器、头像下载、邮箱校验、Excel 分片导出等共享能力。
三、业务流程
整体为三级串行、逐步深挖的管道架构:
搜索发现(模块1):API 拉取达人 → DuckDuckGo 搜索 → 链接分类过滤 → 写入 google_search_result 表(is_completed=0)。
身份验证与邮箱提取(模块2):读取待处理记录 → Instagram 走签名分析(轻量),YouTube/Facebook/Twitter 走浏览器访问 → 页面提取邮箱 → 有邮箱则判断:签名含 TikTok 链接直接确认身份,否则下载双方头像调 AI 比对 → 结果写库(is_completed=1)+ 导出 Excel。
补充爬取(模块3):筛选已处理但无邮箱、有个人网站链接的记录 → URL 分类(LinkBio/Website/黑名单)→ 分层爬取提取邮箱 → 第三方邮箱过滤 → 写库(is_completed=2, is_sameperson=2 待人工确认)+ 导出 Excel。
全程看门狗监控心跳,异常自动重启;网络错误不标记完成,保证可重试

项目实现

一、架构与技术栈
系统采用三级串行管道架构,Python 开发,约 10000 行代码。
搜索采集层:双搜索引擎(API + Selenium)自动降级,覆盖 YouTube/Facebook/Twitter/Instagram/个人网站五类平台,内置限流冷却与故障切换机制。
身份验证层:undetected-chromedriver 反检测浏览器 + 多线程并行处理;调用 Gemini/豆包双 Vision API 进行头像 AI 比对,主备自动降级。
补充深挖层:对未命中记录二次爬取个人网站与 LinkBio 页面(覆盖 24 个平台),分层抓取(首页→联系页→隐私页),96 个黑名单域名过滤。
公共基础层:MySQL 连接池、78 条邮箱校验规则、Excel 自动分片导出、看门狗进程三级自救、PyInstaller 打包为 exe 交付。
二、我的职责与成果
独立负责整条管道的架构设计与全量开发(3 个核心模块 + 7 个共享库 + 4 个工具脚本),核心成果:
双引擎降级机制将搜索成功率从约 70% 提升至 95%+。
补充深挖层使邮箱整体召回率提升约 15-20%。
AI 头像比对 + 签名交叉验证双通道,确保邮箱归属准确性。
看门狗 + 心跳监控 + 浏览器自动重启,支撑 7×24 无人值守稳定运行。
三、技术难点与解决方案
反爬对抗:目标站频繁触发人机验证与登录拦截。→ 反检测浏览器绕过指纹识别;Selenium→requests 两阶段降级;搜索引擎自动切换 + 限流/禁用冷却策略。
长时间运行稳定性:Chrome 内存泄漏、配置膨胀、随机崩溃。→ 定量自动重启浏览器;配置目录超阈值自动清理;连续超时触发重建;看门狗三级自救(杀进程→重复杀→重启主进程)兜底。
AI API 容错:Vision API 偶发超时,返回 JSON 格式不稳定(markdown 包裹、截断等)。→ 双 API 主备降级;四层 JSON 解析(正则提取→直接解析→逐字符扫描→兜底提取)保证解析成功率。
准确性与召回率平衡:单纯追求邮箱数量会引入大量错误归属。→ 确立"先验证身份再采邮箱"原则:有邮箱才调 AI 比对(节省开销),签名含源平台链接零成本确认,无法比对的标记待人工复核,杜绝未验证数据流入下游。

示例图片视频


沧海无水
30天前活跃
方向: 后端-Java、爬虫/脚本-爬虫/脚本、
交付率:100.00%
相似推荐
线上教育
1、立项背景:该项目是一个提供用户线上看课、学习、模拟考试的学习平台 2、核心功能模块: 用户模块:用户个人信息管理 课程中心:各类课程查询、购买、试看、直播课等功能 学习中心:记录用户的学习记录,答题记录 答疑模块:学习期间遇到的问题,线上提交、老师答疑 题库模块:用户可以在视频学习后,进行试题训练检测学习成果 学服模块:用户购买课程后续跟踪服务 支付模块:课程购买付款(微信、支付宝、银行卡等) 3、业务流程(网页端和App端): 选课:用户登录后,进入首页,可以看到推荐的系统课和公开课,可以根据科目类型选择想要学习的课程进行购买,购买后可以在我的里面看到自己购买的课程 学习:进入我的页面,展示的是最新学习的课程,可以看到学习进度、时长等信息 题库:进入我的页面,可以看到自己的答题记录,也可以继续答题练习
AI学生手册问答助手-学生手册助手
本项目是一个面向学生事务资料查询场景的 AI 问答工具,主要解决学生在阅读学生手册、校规文件和办事流程时查找困难、理解成本高、重复咨询多的问题。 系统支持基于已整理资料进行智能问答,用户可以咨询学籍管理、考试安排、奖学金、请假、处分、实践学分等规则类问题。项目提供普通回答和专业回答两种模式:普通回答适合快速查询,专业回答会补充依据、办理流程、可信度提示和必要的流程图说明。 系统还支持资料上传学习功能,可将 Markdown 或文本格式的规章文件加入知识库,使问答范围不局限于默认资料。整体目标是把分散、较长、阅读门槛较高的制度文件,转化为更容易理解和检索的交互式问答体验。
AI英语学习平台-VerbaPath
SmartLearn Pro 是一个面向英语学习场景的 AI 学习平台,核心目标是把文章、单词、听说读写训练和复习计划整合到一个学习闭环中。系统支持文本/PDF 导入、AI 阅读分析、生词提取、闪卡复习、记忆曲线复习、阅读考试训练、翻译挑战、AI 写作批改、口语教练、学习笔记、知识图谱和学习流画布等功能。 用户可以导入学习资料,系统自动生成词汇、语法结构、阅读理解题和复习内容;在学习过程中可以将生词、难句、错题和写作素材沉淀为笔记,并通过 FSRS 记忆算法安排后续复习。项目还集成了语音识别、AI 对话和 TTS 语音合成能力,用于模拟 IELTS、商务英语、日常聊天等口语训练场景,帮助用户完成从输入、练习、反馈到复习的完整学习流程。
全口义齿加工虚实结合系统
口义齿加工虚实结合系统利用虚拟现实(VR)和增强现实(AR)技术,将人体口腔、义齿制作以3D形式呈现,为学生提供沉浸式的学习体验。学生可以通过旋转、缩放和分解模型,清晰观察每个细节,这种精细化展示使学习变得更加直观和具体。学生可以通过力反馈系统或触摸屏直接与模型互动,模拟加工功能,让复杂的口腔学知识更加生动易懂。完全摆脱了对真实人体标本的依赖,解决了高质量解剖标本供不应求、获取和维护成本高昂的问题。学生可以无限次重置模型并重复操作,不再受时间和标本数量的限制,有助于熟练掌握复杂的口腔知识和操作技能。
跨平台论文检索系统
行业场景 当前毕业生、研究生等在毕业论文攥写方面对于现有论文的检索来说十分不方便,需要多个平台检索关键词搜索到符合自身专业的专业性论文,这导致在攥写毕业论文的过程中效率极具下降,所以编写了这套多平台论文检索系统 功能介绍 1.具体有论文关键词检索模块、预览模块、条件筛选模块等 2.主要功能为用户输入相关关键词后,设定筛选条件,搜索出多平台的论文后,可支持用户预览部分原文、跳转到论文原网址等功能
帮助文档   Copyright @ 2021-2024 程聚宝 | 浙ICP备2021014372号
人工客服