项目描述:为一家注塑的公司寻找海外的AI制造业客户,爬取用户、公司信息组合成邮件地址,发送营销邮件
1、通过web页面进行爬虫任务定义:具体的爬取的行业、公司规模、城市信息等
2、爬取公司的名称、行业、规模、linkedin公司链接、员工链接等信息
3、爬取员工名称、个性签名、地点、职位、关于等信息
4、爬虫程序支持按公司进行任务拆分支持爬取失败重试
5、增加鼠标模拟、人为等待行为和指纹浏览器等避免反爬检测
项目使用Python+asyncio+Playwright+Camoufox+MySQL
1. Web API 服务
FastAPI: 现代化的异步 Web 框架
任务管理: 提交、查询、取消爬虫任务
账号管理: LinkedIn 账号配置和状态监控
浏览器管理: 可视化管理所有浏览器实例
健康检查: 系统状态和服务可用性监控
2. 任务调度器
APScheduler: 企业级任务调度框架
智能调度: 每 10 秒检查任务,基于权重分配
子任务管理: 公司采集后自动创建员工采集子任务
状态监控: 实时监控任务执行状态
故障恢复: 自动检测失败任务并重新调度
3. 爬虫引擎
Camoufox: 反检测浏览器(默认),模拟真实用户行为
Playwright: 标准浏览器(备选)
LinkedIn 自动化: 模拟用户操作进行数据采集
反检测: 智能等待、随机延迟、人类输入模拟
邮箱验证码: 自动从 Gmail/QQ 邮箱获取验证码
4. 数据存储
MySQL: 结构化数据存储(任务、结果、账号)
Redis: 高性能缓存、分布式锁、任务状态
异步 ORM: SQLAlchemy 2.0 异步操作支持