程序聚合 软件案例 多平台商业数据采集与智能分析平台

多平台商业数据采集与智能分析平台

2026-06-16 15:50:01
行业:企业内部管理、人工智能
载体:H5、网站
技术:Node.js、PHP、Puppeteer、easyocr

业务和功能介绍

企业销售团队在拓展客户时,需从58同城(商铺转让/生意转让)、安居客(商业地产租赁)、闲鱼(二手设备转让)等多个平台搜索商户信息并提取联系方式,人工操作耗时长、覆盖面窄、信息质量参差不齐。本平台目标为实现多平台数据自动采集、智能清洗、可信度评分和统一管理,构建从数据采集到精准触达的完整闭环。

模块 | 功能说明 |
|------|---------|
| **多平台爬虫引擎** | 基于 Playwright 的无头浏览器爬虫,支持58同城、安居客、闲鱼等平台 |
| **智能数据提取器** | 统一提取引擎,支持电话号码提取(正则+DOM属性+JS脚本多策略) |
| **跨平台交叉验证** | 同一电话号码在多平台出现时自动关联,提升号码可信度评分 |
| **AI辅助分析** | 集成 DeepSeek 大模型,实现号码上下文语义分析 |
| **人工介入系统** | 基于 Socket.IO 的实时验证平台,爬虫遇到验证码时自动截图推送 |
| **后台管理系统** | 基于 EasyAdmin8(Webman+Layui)的完整后台 |
| **H5移动端** | 前端 SPA 应用,支持移动端查看数据 |
| **ML智能分析** | 基于 Rubix ML 实现客户购买意向预测等机器学习功能 |
| **定时任务** | CronProcess 守护进程,支持定时爬取、定时数据清洗 |
| **WebSocket实时通信** | 后台 WebSocket 服务,支持实时数据推送 |

### 业务流程
1. 运营人员在后台配置爬虫参数
2. 定时任务或手动触发爬虫执行
3. Playwright 无头浏览器模拟访问目标平台
4. 进入详情页提取商户名称、电话、经营信息
5. 遇到验证码时自动截图推送至人工介入系统
6. 运营人员完成验证,爬虫自动恢复运行
7. 采集数据写入 MySQL,生成可信度评分
8. 后台管理系统提供数据查询、导出等管理功能

项目实现

### 整体架构和设计思路

本项目采用前后端分离+微服务化的架构设计,核心思想是**采集、处理、管理三大模块**,通过Docker容器化实现统一部署和进程管理。

**架构分层说明:**
- **采集层**:Node.js爬虫服务独立运行,基于Playwright模拟真实浏览器行为,支持多页面并发采集,通过Socket.IO与人工介入服务保持实时通信
- **接入层**:人工介入服务作为独立进程运行,提供Web界面供运营人员处理验证码/截图,爬虫遇到异常时自动截图推送,实现自动化与人工的协同
- **管理层**:Webman后台服务基于PHP常驻内存框架,提供RESTful API和WebSocket实时推送,支撑后台管理、H5移动端、定时任务调度等业务
- **数据层**:MySQL统一存储采集数据,支持跨平台交叉验证和可信度评分算法,数据模型设计以电话号码为核心关联键

**容器化部署**:采用Supervisord统一管理Webman、Node.js爬虫、人工介入三个进程,实现自动重启、日志统一输出、一键部署。

### 我的负责模块

- **爬虫引擎**:Playwright框架,支持3平台采集,效率提升50倍
- **数据提取器**:多策略电话提取,召回率95%+
- **人工介入系统**:Socket.IO实时验证,中断恢复率98%
- **后台管理系统**:EasyAdmin8完整后台搭建

### 难点与解决方案

| 难点 | 解决方案 |
|------|---------|
| 反爬机制 | Playwright真实浏览器+人工介入系统 |
| 电话提取准确率 | 正则+DOM属性+JS脚本三策略融合 |
| 跨平台数据关联 | 电话号码为关联键,交叉验证评分 |
| 爬虫稳定性 | 自动重连+超时控制+状态持久化 |

示例图片视频


西安全栈老张
24小时内活跃
方向: 后端-PHP、后端-Python、
交付率:100.00%
相似推荐
TOPTOY自助机器人商店
为名创优品的子公司提供技术开发TOPTOY潮玩机器人商店的功能,使机器人商店其可以整合到对方的零售shop和仓储wms体系中,整合多个厂家的设备到一个零售体系中,添加物流和运维数据让机器人商店部署全国各个大城市的各大商场点位售卖运营。
供应商管理系统(SRM)
本项目为制造工厂打造的供应商全生命周期管理平台,解决传统供应商信息分散、准入流程不规范、考核数据不透明等问题。系统采用前后端分离架构,后端基于 Spring Boot 搭建服务,Redis 缓存供应商基础信息与考核规则,提升系统响应速度。核心功能模块包括:供应商准入管理(资质审核、样品检验、现场审核流程)、供应商信息维护(基础信息、资质文件、合作品类管理)、采购订单协同(订单下发、供应商确认、交货进度跟踪)、供应商绩效考核(来料质量、交货及时率、价格竞争力等多维度评分)、供应商分级管理(按考核结果分级、淘汰 / 优化管理)、供应商对账与结算(对账单生成、结算状态跟踪)。通过系统实现供应商管理流程标准化、数据透明化,帮助工厂筛选优质供应商,降低供应链风险,提升采购协同效率。
打印控制上位机
功能与应用: 1可视化标签文档设计。 2数据驱动的标签生成,可传递数据实时更新打印内容。 3支持后台打印,支持打印配置设置。 4支持常见条码二维码生成打印。 5支持sdk,用于其他程序调用主程序功能,支持集成二次开发。
全自动过磅
一、小程序预约(司机端) 面向外部货车司机、供应商或内部转运司机,通过微信小程序完成入场前的预约申请。 子功能 详细说明 实名认证 首次使用需手机号一键登录 + 身份证/驾驶证OCR识别,绑定车牌号。 预约表单 填写:物资名称(如钢材、沙石、废纸)、规格、预估重量、供货/收货单位、计划入场时间段(精确到30分钟)。 排队状态查询 实时显示当前预约队列序号、预计等待时间,支持地图导航至厂区。 预约码生成 审核通过后生成动态二维码(含预约单号、车牌、物资),用于道闸与地磅识别。 预约修改/取消 允许在未审核或入场前1小时修改预约信息或取消,避免占位。 历史记录 查看已完成及被驳回的预约记录,支持再次发起相同预约。 二、手机端审核(管理员端) 管理员通过专属微信小程序(或嵌入企业微信)对司机提交的预约进行远程审核,支持移动办公。 子功能 详细说明 待审列表 按申请时间倒序展示所有未处理的预约,显示车牌号、物资、预估重量、计划时间。 快速核验 点击预约单,查看司机证件、历史违规记录(如有)、黑名单标记。 审核操作 ① 通过:自动分配入场排队序号,发送微信模板消息通知司机; ② 驳回:填写驳回原因(如物资不符、重量超限),司机可修改后重提; ③ 待定:标记为暂缓,需补充资料。 统计看板 当日审核总数、通过率、预约高峰时段图表、待入场车辆数。 黑白名单管理 一键将违规车辆加入黑名单(禁止再次预约)或移除。 多厂区支持 若企业有多个地磅点,可切换厂区分别审核预约。 三、全自动过磅(无人值守称重) 车辆到达现场后,通过车牌识别、道闸联动、红外防作弊、视频抓拍等技术,实现自动称重、数据上传。 子功能 详细说明 车牌识别 入口高清摄像头抓拍车牌,与预约审核通过的车辆库比对,比对成功则道闸自动抬杆。 红绿灯指引 红绿灯+语音播报引导车辆上磅(红灯禁止上秤,绿灯允许)。 红外防作弊 地磅四周部署红外对射,检测车轮是否完全在磅板上;若压边或半上磅,系统暂停称重并报警。 自动称重 车辆停稳后,仪表数据稳定,系统自动记录毛重/皮重,并抓拍4张照片(车头、车尾、驾驶室、车厢)。 任务绑定 首次上磅为“毛重”流程,系统自动关联预约单号;卸货后第二次上磅为“皮重”流程,自动计算净重。 异常干预 管理人员可通过远程控制台(PC/手机)手动抬杆、重置称重、查看实时视频。 数据推送 称重完成后,实时生成电子磅单(含毛重、皮重、净重、时间、照片),自动推送到司机小程序和管理后台。 防重复过磅 同一车辆同一预约单号只允许一次毛重+一次皮重,完成后自动锁定,防止重复计费。 语音引导 整个过程由AI语音提示:“请上磅”、“请停稳”、“称重完成,请下磅”。
打孔机器人
项目描述: 基于嵌入式Linux工控平台,参与建筑自动化设备(打孔机器人)控制系统开发与调试。完成交叉编译环境配置、通信模块开发、多线程业务逻辑开发及软硬件联调,协助完成设备控制逻辑优化与现场问题排查。
帮助文档   Copyright @ 2021-2024 程聚宝 | 浙ICP备2021014372号
人工客服