程序聚合软件案例 Yelp商家数据采集与统计系统

Yelp商家数据采集与统计系统

2026-04-08 15:58:30

行业：生活服务

载体：爬虫/脚本

技术：Python、AntiCaptcha

业务和功能介绍

一套完整的商家公开数据采集与统计分析系统，支持按城市、区域、商家类型（餐饮、酒店、加油站、商场、教育机构等）多维度自动采集Yelp平台上的商家信息，包括名称、地址、联系电话、用户评分、评论数量、营业时间、商家官网等。系统可满足市场调研、竞品分析、商圈评估、选址决策等商业需求，采集结果自动去重、清洗，并导出为Excel/CSV等结构化文件。帮助企业快速获取大规模、高可信度的本地商家数据。

项目实现

使用 Python 编写爬虫，以 Playwright 为核心引擎处理页面的动态渲染。
Playwright 启动 Chromium 实例时，通过 launch 参数禁用自动化特征（如 --disable-blink-features=AutomationControlled），并利用 add_init_script 注入脚本抹除 navigator.webdriver 属性。

针对平台的反爬机制，重点实施了以下绕过策略：

模拟真实设备指纹
通过 Playwright 的 context 配置，随机化视口大小、时区、语言、地理位置等浏览器环境。
使用第三方库 playwright-stealth 或自定义脚本，伪造 Canvas 指纹、WebGL 渲染器、字体列表、音频上下文等硬件指纹特征，避免被识别为自动化工具。
每次创建上下文时，随机生成 User-Agent（匹配主流 Chrome 版本）并携带真实的 Accept-Language、Sec-Ch-UA 等请求头。

动态代理 IP 轮换
集成住宅代理池，为每个 Playwright 上下文绑定不同的代理 IP。
实现代理健康检查机制：对连续失败 3 次的 IP 自动剔除，并从池中获取新 IP 重试。
针对同一商家的分页请求，维持 IP 粘性（sticky session），避免频繁切换 IP 触发风控。

请求行为模拟
在两次请求之间加入随机延迟（2-5 秒），并模拟人类鼠标移动轨迹与滚动行为。

通过上述等手段，系统能够稳定采集公开数据，成功绕过目标站点的反爬策略。

示例图片视频

溯流破冰

30天前活跃

方向：爬虫/脚本-爬虫/脚本、安全/逆向-安全/逆向、

交付率：100.00%

查看主页

面向会议记录、工业对讲、人机交互及嵌入式智能终端在风扇、空调、键盘敲击和室内混响等噪声环境下的语音采集需求，设计并实现一套基于GD32H759IMT6微控制器的边缘语音降噪系统。系统通过ES7210音频采集模块、SAI和DMA连续获取48 kHz多通道音频，在本地完成通道选择、音量统计、短时傅里叶变换、频带特征提取、神经网络推理、频谱掩蔽和语音重建，无需依赖云端服务器。系统支持RAW原始音频、RNNoise对照降噪和自研CRN降噪三种工作模式，可通过触摸屏完成模式切换、输入通道选择、增益调整、开始或停止录音以及屏幕截图。LCD实时显示原始与降噪波形、音量、模型状态、录音时间、缓存状态和输出文件名；TF卡可保存原始WAV录音、CRN降噪音频及LCD截图，形成“音频采集—边缘推理—效果显示—文件保存”的完整闭环。

图片数据智能提取

本程序用于信息录入场景，可将截图内容整理为规范表格。先借助 OCR 识别提取截图内图文原始信息，再调用大模型 API，按预设规则完成数据筛选与结构化解析，属于专用数据格式提取脚本。支持自定义提取规则灵活适配不同业务需求，可按需调整输出模板，高效完成图片信息标准化导出，大幅减少人工录入整理工作量。

excel智能体

立项背景与目标：日常办公中，表格合并、文档处理、数据看板生成等重复性工作耗时且门槛高。雪球旨在利用大语言模型的自然语言理解能力，让用户通过一句话即可完成复杂办公任务，实现"对话即操作"的智能办公体验。软件功能与核心模块：平台围绕四大模块构建——表格处理引擎（JOIN联查、批量填充、分组聚合、拆分合并）、文档处理引擎（Word改写/模板填充、PDF提取/拆分/合并、PPT生成）、BI看板生成器（11种ECharts图表，支持HTML/PNG/PDF/PPT导出）和PPT自适应渲染引擎（四级降级策略）。所有工具通过DeepSeek Agent统一调度。业务流程与功能路径：用户自然语言输入 → Agent解析意图并编排步骤 → 自动调用工具链执行 → SSE流式返回执行进度与结果 → 任务快照持久化存档。全程支持审计日志脱敏和中断恢复，确保数据安全与操作可追溯。

基于多智能体与知识图谱的复杂知识分析平台

1. 立项背景和目标面向复杂知识问答、多步任务拆解和证据驱动分析场景，搭建统一的 AI Agent 平台。旨在解决传统问答系统在复杂任务中可分解性不足、证据链不可追溯、文档与图谱数据割裂、模型选型缺乏统一评测等痛点，降低知识密集型分析任务的人工操作成本。 2. 核心功能模块多智能体协作：采用 planner -> dispatcher -> summary 主链路，支持任务拆解、依赖编排和拓扑执行。知识检索与定位：集成文档多格式解析、片段级检索、页级定位及 Neo4j 知识图谱 Cypher 检索。评测与选型底座：支持对不同模型、提示词策略和子代理组合进行横向对比与流程稳定性观察。前端工作台：支持多会话聊天、模型参数配置、执行轨迹面板、知识图谱可视化及结果下载。 3. 业务流程与功能路径用户上传多格式文档或输入复杂分析任务 -> 系统提取分析并构建图谱 -> 多智能体协作编排并调度任务（子代理执行文档精读和图谱检索） -> 聚合生成可追溯、可信的结构化报告或演示文稿 -> 通过 SSE 流式反馈、渲染任务轨迹并展示给前端。

豪视界-AI 图像处理平台

AI 图像处理平台（"流行智能"后更名"豪视界"） —— 一个面向电商卖家的 SaaS 化 AI图像处理工具站。核心业务逻辑:卖家上传商品图,平台调用多个 AI引擎完成换背景、生成模特图、扩图/高清/去水印等处理,按张扣积分,处理结果存云端图库。支撑业务的系统能力 - 账户体系:邮箱/手机注册登录、JWT 鉴权、图形验证码、访客可浏览(登录才可下单) - 积分计费系统:注册赠送 100 积分、按任务类型差异化定价(可后台配置)、消费流水记录、积分套餐 - 异步任务系统:任务状态机(等待→处理中→完成/失败)、批量提交、全局任务列表、结果轮询 - 图库:处理结果云端存储(阿里云 OSS)、缩略图、任务详情回看 - 管理后台:用户管理(禁用/启用/改积分)、任务监控与重试、系统配置、积分规则/套餐配置、操作日志、仪表盘统计