搜索 软件定制 案例

跨模态检索tranning-free框架
立项背景与目标 背景: 跨模态检索(Cross-Modal Retrieval)是视觉-语言理解领域的核心任务,包含两类方向: - I2T(Image-to-Text): 给定一张图片,从候选文本库中检索最匹配的文本描述 - T2I(Text-to-Image): 给定一段文本,从候选图像库中检索最匹配的图片 传统的跨模态检索方法通常依赖大规模标注数据对模型进行微调训练(training-based),计算成本高、周期长,且跨领域泛化能力有 限。本项目探索一种**完全无训练(Training-Free)**的跨模态检索新范式——直接利用多模态大模型(MLLM)的语义理解和推理能力 ,结合层次化的上下文嵌入策略,在不进行任何模型微调的情况下,达到甚至超越有训练方法的检索精度。 目标: 1. 构建一个完整的、模块化的无训练跨模态检索流水线 2. 通过多维度图像描述生成和层次化语义嵌入,提升检索召回率 3. 引入 MLLM 重排序(Reranking)机制,在粗排的基础上做精细化语义匹配 4. 在 Flickr30K 和 COCO 2017 等标准数据集上验证方案的有效性 5. 通过一系列消融实验,系统分析各模块对最终性能的影响 软件功能 1. 图像多维度描述生成: 利用VL模型对每张图片从多个语义角度生成描述文本,为后续向量检索提供丰富的语义覆盖 2. 嵌入粗排: 采用自研嵌入策略,将多维度描述编码为高质量向量,计算图文相似度矩阵,输出 R@1/5/10 评估指标,并导出 Top-K 候选集供精排使用 3. MLLM Bidirectional Reranking: 在粗排 Top-K 候选集的基础上,对候选结果进行深度语义重排序,同时支持 I2T 和 T2I 两个方向 4. 自动化实验流水线: 通过 main.py 统一调度三阶段流程,自动进行 GPU 显存管理,支持大规模数据集批量处理 5. 稳定性测试: 对重排序模块进行多次重复推理,统计模型输出的一致性和稳定性 核心功能模块介绍 模块一:Stage1 - 图像描述生成(stage1_captioning.py) - 功能: 对数据集中的每张图片,利用 Qwen3模型生成四个独立维度的详细描述 模块二:Stage2 - HCE 粗排与评估(stage2_HCE.py) - 功能: 采用层次化上下文嵌入策略进行图文粗排检索,计算相似度矩阵并评估性能 - 核心类: CaptionRetrievalEvaluatorFast 模块三:Stage3-进行重排序Reranking
人工智能、搜索
PyTorch、Transformers
文件搜索(文件搜索极速版App)
强大的本地文件搜索与文件浏览/文件管理工具,可搜索手机里的各种文件,包括PDF、办公文件、文本文件等,支持按文件名检索,也能搜索文档内部文字内容。 主要功能: - 支持按文件名、关键词搜索文件 - 支持PDF、Word、Excel、PPT、TXT等文档全文内容搜索 - 搜索结果按相关度智能排序,关键词高亮显示 - 支持数十种常用语言 - 可直接打开、分享文件,一键跳转到所在文件夹 - 内置文件浏览器,支持按目录层级浏览 - 可对文件进行新建、复制、剪切、删除、重命名等管理操作 - 按图片、视频、文档等类型快速筛选文件 详细介绍及演示:https://zhuanlan.zhihu.com/p/22545329794 OPPO、VIVO、小米、联想、三星可通过软件商店安装(OPPO、VIVO搜索“文件搜索极速版App”)。其它手机可下载apk安装:https://www.pgyer.com/X8FfsPzr
搜索
Java、Kotlin
toc内容平台APP-夸克文档会员付费-夸克文档
项目概述:夸克文档是内置于夸克App中的云端办公套件,集文档、表格、PPT的编辑与强大的PDF工具于一体。凭借海量模板和便捷的文档编辑能力,主要为学生和职场用户提供一站式、轻量化的移动办公解决方案,是夸克构建“搜索+创作+存储”生产力生态的核心环节。
内容平台、搜索
Sketch、Axure RP
运营工具-店主工具
让每一份微小的商业理想,都有燎原之力 以种子用户为起点,通过AI技术普惠与价值共生,通过精准赋能与裂变传播,助力企业实现从0到1的突破,最终形成指数级增长的市场影响力,如星火燎原般覆盖全域。 核心定位 「智能种子用户增长引擎,点燃企业从0到1的爆发力」 技术基因:AI算法+行为科学,打造“种子用户育种系统”。 生态赋能:构建“公海-私域-平台”共生网络,帮助企业实现“线索精准-获客简单-销售成本降低-精准触达-人工介入”,直达成交核心。 企业愿景 「重塑商业生态,赋能万企生长」 1. 行业变革:成为全球企业用户增长的底层引擎,推动传统获客模式向数据化、精准化、可持续化转型。 2. 社会价值:通过降低企业获客成本、提升资源效率,助力中小企业突破增长瓶颈,促进经济生态多元化繁荣。 3. 未来使命:构建去中心化的用户增长网络,让每一家企业都能平等获取增长动能,推动全球商业向「用户共生」时代演进。 企业品格: 用智者之态,挖掘数据洞察增长本质 用园丁心态,长期陪伴客户成长 用先锋之驱,科技之心创造商业新模式,让商业更简单 核心价值 - 精微致远:以种子用户为支点,撬动长期价值 - 共生共燃:用户与企业互为燃料,共享增长红利 -数据驱动:以算法为核心竞争力,提供可量化、可复制的增长模型 -降本增效:降低人力运营和销售成本,增加人效
广告营销、搜索
Java、Spring Boot、Uni...
多语言学习网站-世界语言
## 业务和功能介绍 ### 核心功能 1. 多语言词典查询 :支持英语、日语、韩语、法语、俄语、德语、西班牙语、意大利语、葡萄牙语等9种语言的单词查询 2. 智能翻译服务 :集成DeepSeek API实现文本翻译,支持短语和句子级翻译 3. 生词本管理 :用户可创建多个生词本分组,支持单词添加、删除、分组管理 4. 单词发音 :集成TTS语音合成服务,支持单词和例句发音 5. 学习测试 :提供智能测试功能,记录学习成绩和进度 ### 辅助功能 - 用户注册与登录(JWT认证) - 搜索历史记录(自动清理超过500条的旧记录) - 翻译历史记录 - 用户行为分析统计 - 单词反馈系统
在线教育、搜索
JavaScript、Python、Fl...
个人爱好
这是一个使用PyQt5开发的数据管理系统,基于MySQL数据库,支持多用户登录、表格管理、SQL执行工具、应用系统(录入/查询/修改)、AI助手等功能,管理员可进行用户和服务器配置管理。这是一个使用PyQt5开发的数据管理系统,基于MySQL数据库,支持多用户登录、表格管理、SQL执行工具、应用系统(录入/查询/修改)、AI助手等功能,管理员可进行用户和服务器配置管理。
搜索
Python
智能影视搜索爬取与多线程下载脚本
一、业务介绍 本项目是基于 Python 开发的影视剧集智能爬取与 M3U8 多线程下载工具,针对动态渲染影视网站开发。 用户只需输入影视名称,程序自动完成全网剧集检索、页面动态 JS 渲染解析、M3U8 流媒体地址逆向抓取,支持自选集数、多线程高速分片下载,并自动规范命名保存,解决传统手动找资源、单线程下载慢、文件杂乱难管理的痛点,实现搜剧、爬集、解析、下载、自动命名一站式自动化处理。 二、核心功能介绍 影视关键词搜索 支持输入任意影视名称,程序自动检索匹配相关影视资源,抓取对应全部剧集列表。 剧集列表爬取展示 自动爬取该影视下所有分集信息,展示可下载集数,供用户自由选择需要下载的单集或多集。 JS 动态渲染解析 调用浏览器内核进行 JS 渲染,逆向解析动态网页,精准提取隐藏的M3U8 流媒体真实地址。 多线程分片下载 采用多线程技术对 M3U8 分片资源并行下载,大幅提升下载速度,相比单线程效率显著提升。 智能文件自动命名 下载完成后自动按照 影视名称 + 所选集数 规则命名文件,格式规整、方便本地整理和查找。 整体流程自动化 全程无需手动抓包、找链接,从搜剧→爬集→选集→解析 M3U8→多线程下载→自动命名,全流程自动化运行。
音视频、搜索
Python
易择网
2. 搜索引擎性能攻坚,准确率大幅提升 技术方案优化:升级到Elasticsearch 8.13.x 替代原有es6.1实现,优化中文分词算法(融合IK分词 +自定义行业词库),重构搜索排序策略(结合用户行为权重+内容相关性评分),引入AI大模型实现用户搜索意图分析,训练本地微模型实现不规则词拆分。 数据治理升级:清洗历史脏数据 300万+条,建立数据质量校验规则,实现搜索结果去重与实时更新 核心指标突破:搜索准确率从60%提升至85%,搜索响应时间从300ms优化至80ms,用户搜索转化率提升25% 3. 全链路安全加固,漏洞清零攻坚 安全体系搭建:整合SonarQube代码审计、Nessus漏洞扫描、OWASP Top 10合规整改,建立「开发-测试-上线」全流程安全校验机制 漏洞集中治理:重点修复SQL注入、XSS跨站脚本、权限绕过等高危漏洞187个,优化接口鉴权逻辑与数据加密传输方案(采用RSA+AES混合加密) 安全成果落地:系统漏洞总数从234个降至30个(均为低危且无explot风险),通过等保三级合规检测,全年无安全事件发生 4. 工程化与运维体系升级,提效降本 自动化部署落地:搭建Jenkins CI/CD 流水线,集成代码拉取、编译打包、自动化测试、多环境部署全流程,部署时间从2小时/次缩短至15分钟/次,全年减少人工操作800+小时 任务调度优化:引入XXL-Job替代原生@Scheduled,实现定时任务分片执行、失败重试、可视化监控,解决原任务并发冲突问题,任务执行成功率从92%提升至 99.9% 监控体系搭建:基于 Prometheus+Grafana 构建全栈监控平台,覆盖服务器(CPU/内存/磁盘IO)、应用(接口响应时间/异常率)、数据库(连接数/慢查询)三大维度,实现故障提前预警,系统可用性提升至99.95% 数据层优化:针对MySQL进行慢查询优化(优化SQL50+条、新增索引30+个),清理过期数据与碎片,释放存储空间30GB,数据库查询性能提升60% 外链抓取提效:基于Docker部署Flask爬虫系统,实现抓取任务一键触发、分布式执行与数据自动入库,抓取效率提升3倍,支持100+数据源同步 5. 跨团队协作与
搜索、房地产
Java
AI搜索工具-秘塔AI搜索
面向C端用户的智能搜索与对话应用,提供多轮检索、内容聚合、结果消费等能力,业务场景包含高频交互、实时返回和复杂状态同步。 负责核心模块开发与重构,参与实时通信链路、数据层与稳定性体系建设,推动复杂需求在多版本中的持续落地。
人工智能、搜索
Kotlin、Swift
智能桌面文件管理器
针对用户日常文件管理的需求,解决系统自带文件管理器功能单一、界面简陋的问题,面向办公、开发、个人用户,提供高效、美观、可扩展的文件管理方案,支持多平台桌面环境,适配日常文件浏览、路径跳转等高频操作。项目包含文件树状浏览、路径跳转、返回上级、列表刷新、文件筛选五大核心模块;支持双击进入文件夹、地址栏手动输入跳转、实时状态栏路径提示,采用Material风格UI设计,支持文件排序、交替行颜色显示,操作直观高效,可快速定位目标文件。
企业服务(saas)、搜索
C++、SQL、Qt
纯前端本地 RAG 工具
RAGClaw 是一款纯前端本地运行的 AI 知识库问答工具,所有文档、向量数据都存在你的浏览器里,不上传第三方服务器,隐私拉满。 核心亮点: 📄 多格式解析:支持 TXT/Markdown/PDF/DOCX,自动提取纯文本 🧩 智能分块:文档按段落 / 句号重叠分块,代码按函数 / 类边界精准切割 🔍 混合检索:通义千问向量模型 + BM25 关键词检索,RRF 融合排序,召回更准 🤖 AI 问答:qwen-turbo 大模型对话,支持多轮上下文,回答带原文溯源 📊 全本地存储:IndexedDB 持久化,数据不上传,隐私无风险 📱 响应式设计:支持亮色 / 暗色模式,移动端适配 适合开发者、学生、职场人用来做资料整理、论文阅读、文档问答,现在国内直接访问就能用👇
搜索
Vue
LightS4·微光小溪:S3 兼容存储在线文件管理器
LightS4·微光小溪是一款面向个人用户与开发者的 S3 兼容对象存储在线管理器,支持对接任意兼容 S3 协议的存储服务(如阿里云 OSS、Cloudflare R2、缤纷云等),提供现代化的 Web 界面替代繁琐的命令行或官方控制台操作。核心功能模块分为两部分:一是文件管理模块,涵盖目录浏览、模糊搜索与后缀过滤、面包屑导航、文件操作历史记录及使用统计,用户可在浏览器中直观管理存储桶内的全部文件;二是视频站模块,集成自适应在线播放器,支持智能缩略图生成、视频元数据展示与播放历史持久化,将对象存储直接用作个人视频库。整体业务流程为:用户配置 S3 端点与密钥 → 前端调用后端 API 获取文件列表 → 用户在 Web 界面完成文件浏览、搜索与视频播放 → 操作记录写入 MongoDB 供后续统计查阅。此外项目支持 PWA 本地安装与完整移动端适配,可作为轻量 App 日常使用。
企业服务(saas)、搜索
TypeScript、FastAPI、M...
烤箱原材料类多商品聚合聚合平台
1. 立项背景和目标 随着电商市场多元化发展,中小商家急需低门槛、高效率的线上开店解决方案。本项目旨在构建一个多品类商品交易平台,通过整合店铺管理、智能推荐与便捷登录体系,帮助商家快速入驻并实现商品数字化运营,同时为消费者提供AI驱动的精准选购体验,提升平台交易转化率。 2. 软件功能与核心模块 平台核心功能包括:①商家入驻与开店系统——提供资质审核、店铺装修、经营权限配置等一站式入驻流程;②后台商品管理——支持多规格商品上架、库存管理、价格策略设置及数据分析看板;③手机号登录体系——基于短信验证码的安全快速登录,支持一键注册与身份绑定;④AI智能筛选设备——利用机器学习算法分析用户需求,智能匹配推荐适合的商品型号与规格,降低选购决策成本。 3. 业务流程与功能路径 商家端:注册账号→提交入驻申请→平台审核→开通店铺→后台发布/管理商品→查看经营数据。用户端:手机号登录→浏览/使用AI筛选设备匹配需求→下单购买→订单跟踪。AI筛选模块通过收集用户偏好标签,实时计算最优推荐结果,形成"入驻-管理-推荐-交易"的完整业务闭环。
搜索
Java
合规公开数据采集工具
立项背景和目标: 日常需要批量采集公开网页数据,市面上的爬虫工具要么依赖繁琐的第三方库,要么缺乏合规保障。目标是做一个"开箱即用、合规优先"的本地爬虫控制台,双击脚本即可启动,无需任何安装。 核心功能: ①粘贴 URL 批量爬取,自动提取标题、正文摘要、图片链接;②自动检查 robots.txt,隐私内容(手机号/身份证)自动过滤;③蜘蛛模式支持递归爬取,可设定最大深度、域名页面上限;④429/5xx 自动冷却限速,连续失败自动停止;⑤内置轻量 NLP 引擎(TextRank 摘要 + TF-IDF 关键词提取 + 中文实体识别),无需大模型;⑥数据存入 SQLite,支持搜索、排序、CSV 导出;⑦SSE 实时日志推送,三色主题切换。 业务流程: 前端(原生 JS)→ HTTP API(Python 内置 http.server)→ 爬虫引擎(状态机调度)→ Fetcher(请求/重试/代理/内容解析)→ NLP 处理 → SQLite 持久化 → 前端实时展示。
搜索
Python
微信小程序-家教预约平台
经实地考察,发现该地区某大学家教业务火爆,且机构管理方式需要大量的人力物力成本,故制作该程序,将管理成本大幅降低,只需广告推销成本,并结合平台的营收方案,进一步扩大盈利。 目标是做到全国最大的家教信息中转站。 软件功能: 1.最新教育咨询实时获取 2.内嵌ai智能体,可进行实时对话 3.根据不同地区,不同需求,筛选出最合适的老师或学生人选 4.个人信息展示 5.预约功能
在线教育、搜索
Java、JavaScript、UniA...
采集某网站书籍信息
采集某网站书籍信息 构建一个面向多源图书电商平台的分布式数据采集系统,实现书籍元信息(基础属性、价格、评分、评论等)的自动化采集、清洗与结构化存储,为后续的价格监控、推荐系统和数据分析提供数据基础。
搜索、生活服务
Python、AutoHotkey、Py...
Python爬虫项目-线上接单平台猿急送项目信息爬取
一个可执行的Python脚本文件,用于爬取线上接单平台-猿急送发布的项目信息数据,包括项目名称、合作方式、预估价格、项目周期、需求描述、是否可投递等信息,整合处理后汇总到一个csv文件内。(后期可视需求添加筛选条件)
搜索
Python
多线程爬取樱花动漫视频
. 动漫视频下载器 (网站克隆工具/) 业务功能: 在樱花动漫网站搜索动漫资源 获取动漫简介、剧集列表 解析M3U8播放地址,多线程下载TS分片 自动合并为MP4视频文件 技术特点: Base64/Hex URL解密算法 多线程并发下载(可配置线程数) 集成FFmpeg视频合并 进度条实时显示下载状态
音视频、搜索
Cheerio、Colly
植物识别
该项目聚焦植物生长状态智能化监测场景,是一套以 Java 后端为核心的物联网系统,通过对接专用植物监测摄像头设备,实现植物生长数据采集、设备管理、数据存储与分析的全流程管理,核心服务于园艺种植、农业科研、智能温室等场景下的植物生长监测需求。 核心业务场景 设备接入与管控:支持植物监测摄像头的远程接入,兼容 MQTT、RTSP 等主流物联网 / 音视频协议,可对摄像头进行远程参数配置(如拍摄频率、监测区域、分辨率)、在线状态检测、心跳保活,保障设备稳定运行。 植物数据采集与处理:采集摄像头拍摄的植物图像 / 视频流,以及集成传感器的温湿度、光照等环境数据,对原始数据进行清洗、格式标准化,过滤无效数据,为后续分析提供基础。 数据存储与管理:结构化存储设备信息、用户配置、告警规则等数据,非结构化存储植物图像 / 视频文件,支持数据的多维度查询(如按设备、时间、监测指标检索)。 告警与预警(扩展):预留基于监测数据的告警规则配置能力,如植物叶片异常、环境参数超标时触发告警,适配农业生产中及时干预的需求。 核心功能模块 设备管理模块:提供摄像头设备的注册、绑定、注销、参数配置、状态监控功能,支持批量设备管理,适配多场景下的设备规模化部署。 数据采集模块:实现音视频流 / 传感器数据的接收、解析与预处理,支持高并发设备数据接入,保障数据采集的实时性。 数据存储模块:整合关系型数据库(存储结构化数据)、缓存(提升访问效率)、对象存储(存储非结构化文件),兼顾数据存储的性能与扩展性。 接口服务模块:基于 RESTful API 对外提供设备管控、数据查询等能力,支持与前端管理平台、第三方系统(如农业管理平台)对接。 整体而言,项目以 “轻量化接入、标准化处理、可扩展分析” 为核心设计,聚焦植物监测的核心数据链路,同时预留 AI 图像分析、多端可视化等扩展能力,适配不同场景下的植物智能化监测需求。
搜索
Java
高校查询平台-基因数据库
1、编写一个供学生查询基因库的网站,要求页面简洁,功能完备 2、支持通过三种方式查询对应的基因内容并下载到本地 3、网站包含首页、物种介绍、基因查询、下载文件、帮助等页面,无需登录即可访问 4、首页新闻内容跳转
内容平台、搜索
JavaScript、Bootstrap...
  • 1
  • 2
  • 3
帮助文档   Copyright @ 2021-2024 程聚宝 | 浙ICP备2021014372号
人工客服