搜索 爬虫/脚本 软件定制 案例

合规公开数据采集工具
立项背景和目标: 日常需要批量采集公开网页数据,市面上的爬虫工具要么依赖繁琐的第三方库,要么缺乏合规保障。目标是做一个"开箱即用、合规优先"的本地爬虫控制台,双击脚本即可启动,无需任何安装。 核心功能: ①粘贴 URL 批量爬取,自动提取标题、正文摘要、图片链接;②自动检查 robots.txt,隐私内容(手机号/身份证)自动过滤;③蜘蛛模式支持递归爬取,可设定最大深度、域名页面上限;④429/5xx 自动冷却限速,连续失败自动停止;⑤内置轻量 NLP 引擎(TextRank 摘要 + TF-IDF 关键词提取 + 中文实体识别),无需大模型;⑥数据存入 SQLite,支持搜索、排序、CSV 导出;⑦SSE 实时日志推送,三色主题切换。 业务流程: 前端(原生 JS)→ HTTP API(Python 内置 http.server)→ 爬虫引擎(状态机调度)→ Fetcher(请求/重试/代理/内容解析)→ NLP 处理 → SQLite 持久化 → 前端实时展示。
搜索
Python
微信小程序-家教预约平台
经实地考察,发现该地区某大学家教业务火爆,且机构管理方式需要大量的人力物力成本,故制作该程序,将管理成本大幅降低,只需广告推销成本,并结合平台的营收方案,进一步扩大盈利。 目标是做到全国最大的家教信息中转站。 软件功能: 1.最新教育咨询实时获取 2.内嵌ai智能体,可进行实时对话 3.根据不同地区,不同需求,筛选出最合适的老师或学生人选 4.个人信息展示 5.预约功能
在线教育、搜索
Java、JavaScript、UniA...
采集某网站书籍信息
采集某网站书籍信息 构建一个面向多源图书电商平台的分布式数据采集系统,实现书籍元信息(基础属性、价格、评分、评论等)的自动化采集、清洗与结构化存储,为后续的价格监控、推荐系统和数据分析提供数据基础。
搜索、生活服务
Python、AutoHotkey、Py...
Python爬虫项目-线上接单平台猿急送项目信息爬取
一个可执行的Python脚本文件,用于爬取线上接单平台-猿急送发布的项目信息数据,包括项目名称、合作方式、预估价格、项目周期、需求描述、是否可投递等信息,整合处理后汇总到一个csv文件内。(后期可视需求添加筛选条件)
搜索
Python
多线程爬取樱花动漫视频
. 动漫视频下载器 (网站克隆工具/) 业务功能: 在樱花动漫网站搜索动漫资源 获取动漫简介、剧集列表 解析M3U8播放地址,多线程下载TS分片 自动合并为MP4视频文件 技术特点: Base64/Hex URL解密算法 多线程并发下载(可配置线程数) 集成FFmpeg视频合并 进度条实时显示下载状态
音视频、搜索
Cheerio、Colly
文件搜索及数量统计工具-文件数量统计工具
智能搜索:支持搜索文件和文件夹,包含模糊匹配和精确匹配 灵活范围:可选择当前目录、整个硬盘或所有硬盘进行搜索 详细统计:统计找到的文件/文件夹所在目录的文件数量和大小 快速访问:双击搜索结果可直接打开文件或文件夹 性能优化:多线程处理,避免界面卡顿
搜索
Python
淘宝运单号获取
获取发货订单的收货地址以及运单号信息 获取发货订单的收货地址以及运单号信息 获取发货订单的收货地址以及运单号信息 获取发货订单的收货地址以及运单号信息 获取发货订单的收货地址以及运单号信息
搜索
Selenium WebDriver
  • 1
帮助文档   Copyright @ 2021-2024 程聚宝 | 浙ICP备2021014372号
人工客服