TikTok 网红邮箱采集管道
项目总结:TikTok 网红邮箱采集管道
一、立项背景与目标
跨境电商与品牌出海场景中,企业需大规模触达 TikTok 达人进行商务合作,但平台不公开达人邮箱。本项目构建一套自动化采集管道:从 TikTok 达人列表出发,经搜索引擎发现关联社交账号,AI 头像比对验证身份,最终提取商务邮箱并导出 Excel。核心目标:在保证身份准确性的前提下,最大化邮箱采集覆盖率。
二、软件功能与核心模块
系统采用 Python 开发,三大核心模块 + 辅助工具构成:
模块1 — 搜索采集器(google_search_scraper.py):从 API 拉取待处理达人,通过 DuckDuckGo(Lite/Standard 双引擎自动降级)搜索社交主页链接(YouTube/Facebook/Twitter/Instagram/个人网站),分类过滤后入库。
模块2 — 社交链接验证器(social_link_verifier.py):管道核心。多线程浏览器访问社交主页提取邮箱,找到邮箱后调用 Gemini/豆包 Vision API 做 TikTok 与社交平台的头像 AI 比对,确认同一人后更新数据库并导出 Excel。
模块3 — 网站邮箱爬取器(website_scraper_new.py):补充管道。对模块2未找到邮箱的记录,爬取其 YouTube 简介中的个人网站或 LinkBio 页面,分层抓取(首页→联系页→隐私页→帮助页)提取邮箱。
辅助工具:Excel 初筛(Gemini 头像二次比对)、看门狗(卡死自动重启)、Excel 修复、PyInstaller 打包。核心库(core/)统一封装数据库连接池、反检测浏览器、头像下载、邮箱校验、Excel 分片导出等共享能力。
三、业务流程
整体为三级串行、逐步深挖的管道架构:
搜索发现(模块1):API 拉取达人 → DuckDuckGo 搜索 → 链接分类过滤 → 写入 google_search_result 表(is_completed=0)。
身份验证与邮箱提取(模块2):读取待处理记录 → Instagram 走签名分析(轻量),YouTube/Facebook/Twitter 走浏览器访问 → 页面提取邮箱 → 有邮箱则判断:签名含 TikTok 链接直接确认身份,否则下载双方头像调 AI 比对 → 结果写库(is_completed=1)+ 导出 Excel。
补充爬取(模块3):筛选已处理但无邮箱、有个人网站链接的记录 → URL 分类(LinkBio/Website/黑名单)→ 分层爬取提取邮箱 → 第三方邮箱过滤 → 写库(is_completed=2, is_sameperson=2 待人工确认)+ 导出 Excel。
全程看门狗监控心跳,异常自动重启;网络错误不标记完成,保证可重试
电商