兴趣班搜索系统

2026-03-11 13:02:15

行业：在线教育

载体：网站

技术：Python、FastAPI

业务和功能介绍

业务和功能介绍
1、立项背景和目标：
针对北美课后教育市场商家信息高度分散（独立建站）、传统搜索引擎难以实现垂直领域精细化搜索，且聚合平台人工维护数据成本高昂的痛点，Richoo项目应运而生。本系统旨在打造一个垂直领域的SaaS+平台，核心目标是通过引入AI大模型（LLM）技术，实现海量商家网站课程信息的自动化采集、同步与智能解析，从而为北美家长和儿童提供高效的课程发现、个性化推荐以及统一的日程管理服务。
2、核心功能模块：
系统主要由五大核心业务模块构成：
课程查询系统：基于Elasticsearch提供BM25文本匹配与向量语义搜索相结合的混合召回能力。
课程推荐系统：结合用户画像与实时点击行为数据，为用户提供个性化的课程推荐。
课程日历系统：提供便捷的可视化工具，帮助家长统一管理小孩的课后班日程。
课程信息爬虫系统：负责在后台周期性并发抓取数万个商家网站的更新内容。
智能客服系统：利用Langraph技术，将家长复杂的自然语言需求精准转化为搜索过滤条件。
3、业务流程与路径：
系统的整体业务流呈现高度自动化的数据闭环：首先，爬虫系统从分散的商家网站抓取原始网页数据；随后，数据进入异步消息队列，由LLM解析服务接管，利用大模型将非结构化网页文本提取为结构化的课程JSON数据并建立索引；在用户端，家长通过前端发起搜索、对话（智能客服）或浏览推荐，网关将请求路由至对应的检索或推荐微服务，系统结合热度数据进行快速响应，最终用户可将心仪的课程一键加入个人日历中。

项目实现

项目实现
1、整体架构与设计思路及技术栈：
为了应对AI驱动型项目高异构性、高并发及快速迭代的要求，系统整体采用了微服务架构风格（MSA）。设计思路是基于业务能力将系统解耦为六大自治服务（爬虫、解析、索引、搜索、推荐、BFF网关），实现计算密集型AI服务与高并发I/O服务的资源隔离与独立伸缩。
技术栈方面：爬虫模块采用Playwright并发抓取结合MongoDB存储状态；解析模块调用Gemini API大模型；不同服务间的异步通信与解耦重度依赖Kafka消息队列；搜索与API网关采用高性能异步Python框架FastAPI，对接Elasticsearch和Redis进行检索与缓存，结合Clickhouse处理热度数据；智能客服则独立采用Langraph/LangChain技术栈。
2、“我”的负责模块和量化结果：
我在本项目中担任系统架构师及核心算法工程师。主要负责：①主导微服务架构的选型与落地；②设计核心数据流，特别是爬虫与LLM解析服务之间的异步通信机制；③亲手实现搜索召回（BM25+语义）与推荐算法。
量化结果：在我的主导下，系统研发效率极大提升，从启动到核心功能上线仅耗时3个月；系统成功聚合了北美新泽西州和纽约州3万家培训机构、15万次课后班的实时课程信息；保障了系统于2025年6月顺利上线，并能够支撑高峰期LLM解析资源10倍以上的弹性扩容，持续稳定运营。
3、“我”遇到的难点、坑，和解决方案：
难点一：数据采集与AI解析的速度鸿沟。爬虫产出HTML速度极快，但LLM解析资源消耗大且受外部API限速，传统同步调用会导致爬虫阻塞甚至系统崩溃。
解决方案：我引入了Kafka作为异步消息队列缓冲层。爬虫服务作为生产者仅负责将原始HTML推入raw_html主题即刻返回；解析服务作为消费者根据自身算力按需拉取处理。这完美实现了流量削峰，即便外部API延迟，系统依然高可用。
难点二：微服务拆分带来的运维与监控黑洞。随着服务增多，系统初期面临链路追踪困难、故障定位周期长的“坑”。
解决方案：我牵头引入了统一的日志采集系统（ELK Stack），实现了跨服务的链路追踪。配合标准化的微服务治理和自动化CI/CD部署工具，有效化解了微服务带来的额外运维复杂度，让新算法更新能在数分钟内安全上线。

示例图片视频

八月

30天前活跃

方向：后端-Java、前端-小程序、

交付率：100.00%

查看主页

面向会议记录、工业对讲、人机交互及嵌入式智能终端在风扇、空调、键盘敲击和室内混响等噪声环境下的语音采集需求，设计并实现一套基于GD32H759IMT6微控制器的边缘语音降噪系统。系统通过ES7210音频采集模块、SAI和DMA连续获取48 kHz多通道音频，在本地完成通道选择、音量统计、短时傅里叶变换、频带特征提取、神经网络推理、频谱掩蔽和语音重建，无需依赖云端服务器。系统支持RAW原始音频、RNNoise对照降噪和自研CRN降噪三种工作模式，可通过触摸屏完成模式切换、输入通道选择、增益调整、开始或停止录音以及屏幕截图。LCD实时显示原始与降噪波形、音量、模型状态、录音时间、缓存状态和输出文件名；TF卡可保存原始WAV录音、CRN降噪音频及LCD截图，形成“音频采集—边缘推理—效果显示—文件保存”的完整闭环。

图片数据智能提取

本程序用于信息录入场景，可将截图内容整理为规范表格。先借助 OCR 识别提取截图内图文原始信息，再调用大模型 API，按预设规则完成数据筛选与结构化解析，属于专用数据格式提取脚本。支持自定义提取规则灵活适配不同业务需求，可按需调整输出模板，高效完成图片信息标准化导出，大幅减少人工录入整理工作量。

excel智能体

立项背景与目标：日常办公中，表格合并、文档处理、数据看板生成等重复性工作耗时且门槛高。雪球旨在利用大语言模型的自然语言理解能力，让用户通过一句话即可完成复杂办公任务，实现"对话即操作"的智能办公体验。软件功能与核心模块：平台围绕四大模块构建——表格处理引擎（JOIN联查、批量填充、分组聚合、拆分合并）、文档处理引擎（Word改写/模板填充、PDF提取/拆分/合并、PPT生成）、BI看板生成器（11种ECharts图表，支持HTML/PNG/PDF/PPT导出）和PPT自适应渲染引擎（四级降级策略）。所有工具通过DeepSeek Agent统一调度。业务流程与功能路径：用户自然语言输入 → Agent解析意图并编排步骤 → 自动调用工具链执行 → SSE流式返回执行进度与结果 → 任务快照持久化存档。全程支持审计日志脱敏和中断恢复，确保数据安全与操作可追溯。

基于多智能体与知识图谱的复杂知识分析平台

1. 立项背景和目标面向复杂知识问答、多步任务拆解和证据驱动分析场景，搭建统一的 AI Agent 平台。旨在解决传统问答系统在复杂任务中可分解性不足、证据链不可追溯、文档与图谱数据割裂、模型选型缺乏统一评测等痛点，降低知识密集型分析任务的人工操作成本。 2. 核心功能模块多智能体协作：采用 planner -> dispatcher -> summary 主链路，支持任务拆解、依赖编排和拓扑执行。知识检索与定位：集成文档多格式解析、片段级检索、页级定位及 Neo4j 知识图谱 Cypher 检索。评测与选型底座：支持对不同模型、提示词策略和子代理组合进行横向对比与流程稳定性观察。前端工作台：支持多会话聊天、模型参数配置、执行轨迹面板、知识图谱可视化及结果下载。 3. 业务流程与功能路径用户上传多格式文档或输入复杂分析任务 -> 系统提取分析并构建图谱 -> 多智能体协作编排并调度任务（子代理执行文档精读和图谱检索） -> 聚合生成可追溯、可信的结构化报告或演示文稿 -> 通过 SSE 流式反馈、渲染任务轨迹并展示给前端。

豪视界-AI 图像处理平台

AI 图像处理平台（"流行智能"后更名"豪视界"） —— 一个面向电商卖家的 SaaS 化 AI图像处理工具站。核心业务逻辑:卖家上传商品图,平台调用多个 AI引擎完成换背景、生成模特图、扩图/高清/去水印等处理,按张扣积分,处理结果存云端图库。支撑业务的系统能力 - 账户体系:邮箱/手机注册登录、JWT 鉴权、图形验证码、访客可浏览(登录才可下单) - 积分计费系统:注册赠送 100 积分、按任务类型差异化定价(可后台配置)、消费流水记录、积分套餐 - 异步任务系统:任务状态机(等待→处理中→完成/失败)、批量提交、全局任务列表、结果轮询 - 图库:处理结果云端存储(阿里云 OSS)、缩略图、任务详情回看 - 管理后台:用户管理(禁用/启用/改积分)、任务监控与重试、系统配置、积分规则/套餐配置、操作日志、仪表盘统计