程序聚合 软件案例 LinkedIn数据爬虫

LinkedIn数据爬虫

2026-03-24 19:30:16
行业:广告营销
载体:爬虫/脚本
技术:Python、SQLAlchemy、Selenium WebDriver

业务和功能介绍

项目描述:为一家注塑的公司寻找海外的AI制造业客户,爬取用户、公司信息组合成邮件地址,发送营销邮件
1、通过web页面进行爬虫任务定义:具体的爬取的行业、公司规模、城市信息等
2、爬取公司的名称、行业、规模、linkedin公司链接、员工链接等信息
3、爬取员工名称、个性签名、地点、职位、关于等信息
4、爬虫程序支持按公司进行任务拆分支持爬取失败重试
5、增加鼠标模拟、人为等待行为和指纹浏览器等避免反爬检测

项目实现

项目使用Python+asyncio+Playwright+Camoufox+MySQL
1. Web API 服务
FastAPI: 现代化的异步 Web 框架
任务管理: 提交、查询、取消爬虫任务
账号管理: LinkedIn 账号配置和状态监控
浏览器管理: 可视化管理所有浏览器实例
健康检查: 系统状态和服务可用性监控
2. 任务调度器
APScheduler: 企业级任务调度框架
智能调度: 每 10 秒检查任务,基于权重分配
子任务管理: 公司采集后自动创建员工采集子任务
状态监控: 实时监控任务执行状态
故障恢复: 自动检测失败任务并重新调度
3. 爬虫引擎
Camoufox: 反检测浏览器(默认),模拟真实用户行为
Playwright: 标准浏览器(备选)
LinkedIn 自动化: 模拟用户操作进行数据采集
反检测: 智能等待、随机延迟、人类输入模拟
邮箱验证码: 自动从 Gmail/QQ 邮箱获取验证码
4. 数据存储
MySQL: 结构化数据存储(任务、结果、账号)
Redis: 高性能缓存、分布式锁、任务状态
异步 ORM: SQLAlchemy 2.0 异步操作支持

示例图片视频


河源吴彦祖
15天前活跃
方向: 后端-Java、
交付率:100.00%
相似推荐
MES制造执行系统-工厂生产管理后台
本项目为面向离散制造企业的 MES 制造执行系统,旨在解决工厂生产过程中数据不透明、排产混乱、追溯困难等痛点,实现生产全流程数字化管控。系统核心功能包括:生产工单管理、车间排产调度、设备状态监控、生产数据实时采集、物料追溯管理、质量检验管控、生产报表分析等。后端基于 Java+SpringBoot+MyBatis 搭建,提供稳定的 RESTful API 接口,前端采用 Vue 实现可视化操作界面,支持多终端访问,帮助企业提升生产效率、降低成本、实现精益生产。系统已完成核心模块开发与测试,可稳定运行,具备良好的扩展性,可适配不同行业的生产管理需求。
通信数据管理系统
本系统面向通信网数字化运维需求,聚焦通信资源管理痛点,构建资源线上化、安全校核自动化、方式规划智能化、数据治理规范化、报表生成高效化的智能分析体系,解决传统模式风险发现滞后、配置周期长、资源利用率低、数据质量差、人工成本高等问题,全面支撑电力通信网安全稳定运行与智慧运营。系统提供自定义台账管理、多维度查询统计、数据质量核查、拓扑图自动生成、运行状态安全校核、历史数据回溯、智能方式规划、智能报表平台、可视化规则配置等核心功能,实现通信资源全生命周期管理与数据价值挖掘,大幅提升运维效率与管理精度。
中海油海上油气田碳排放数据平台
基于中海油研究总院已有的GIS系统以及中海油海上油气田碳排放数据平台I期,建立完善的海上油气田碳排放影响评价功能模块与碳排放数字化管理模块。建设内容主要包括: 建设手动或模板导入(WPS表格)等方式的数据采集功能,并建立源数据库,根据采集数据的不同分类进行存储,用户可以对源数据进行管理,根据检索条件进行数据查询、导出等操作。 搭建海上油气田项目碳排放评价模型库,根据中海油研究总院现有的研究成果,在系统中内置碳排放评价模型库,系统管理员可以对评价模型进行增加、删除、编辑等操作,调整计算公式、排放因子等;建立碳排放评价报告模板库,内置多种(不少于4种)类型的模板以供选择,支持系统管理员对评价模板进行增删修改等操作。 源数据采集完毕后,系统可一键自动进行评价,由用户根据选择的评价报告模板,将碳排放影响评价结果的各项数据填充到所选的模板中,自动生成碳排放影响评价报告,并支持下载word版报告。 提供可视化分析功能,将碳排放影响评价结果通过多种数据分析展示的形式,包括项目的碳排放排放及强度等,通过条形图、柱形图等图表对比项目的碳排放情况与发展水平等,以更直观、动态的方式,为各类型用户提供有价值的数据服务。 用户可以对已经输入项目数据进行管理,查看源数据、计算结果数据、数据采集方式等详细过程信息。用户可以对源数据等进行修改,修改提交后重新生成结果、报告。 建立用户权限管理模块,仅开放给系统管理员用户,其可对系统的所有用户及其权限进行统一管理,包括权限管理、角色管理、授权管理等。系统管理员对不同角色配置权限后,对不同的用户进行角色的授权管理,灵活控制用户的使用权限。 建立系统操作日志监控功能,对使用系统的所有用户的所有操作,包括但不限于:数据操作、分析操作、管理操作等进行记录,实现系统使用留痕。 为系统使用安全建立屏障,内置系统白名单IP库,由系统管理员进行管理,支持增加、删除等操作,允许白名单IP库内的IP进入本系统,非白名单IP库的IP不允许进入,以确保系统的使用安全。
DLT645上位机维护软件
一、立项背景和目标 背景 DLT/645-2007 是中国电力行业广泛使用的电能表通信规约,用于电表数据采集、参数配置、固件升级等运维场景。实际运维工作中,现场工程师需要一款轻量级 桌面工具与电能表进行交互,包括: - 抄读电表的电压、电流、功率、电能等实时数据 - 配置电表地址、密码、通信参数 - 执行终端校准(有参/无参校准) - 对电表固件进行远程升级 - 对 Modbus RTU/TCP 设备进行数据读写 传统方式依赖厂家专用调试软件,兼容性差、功能封闭。本工具旨在提供一款通用、可配置、支持多规约的电能表维护工具。 目标 多规约支持 同时支持 DLT/645-2007 和 Modbus RTU/TCP 两种规约,一键切换 多通信方式 支持串口(RS-485)、TCP 服务端、UDP 服务端三种通信链路 数据可配置 通过 XML 配置文件定义数据标识项,无需改代码即可适配不同型号电表 便携部署 单 exe + config 目录即可运行,无需安装数据库或运行时环境
南昌高新区双碳管理服务平台
南昌高新区双碳管理服务平台是园区碳达峰碳中和核心数字化系统,面向政府监管、企业降碳与绿色转型提供一站式服务。平台通过物联网实时采集企业水、电、气、热及生产数据,依托 AI 与大数据实现碳排放自动监测、精准核算、智能分析与异常预警。可生成合规碳报告,提供节能诊断、降碳方案、碳效评价等功能,并对接碳市场、绿电交易与碳普惠体系,实现碳资产台账管理与价值转化。同时为管委会提供园区碳排放在线监管、指标考核、政策落地与决策支撑,构建 “可监测、可核算、可优化、可交易” 的双碳管理闭环。
帮助文档   Copyright @ 2021-2024 程聚宝 | 浙ICP备2021014372号
人工客服