人工智能算法模型软件定制 | 软件外包案例-程聚宝

主要负责RealMan六自由度机械臂与五指灵巧手的目标视觉识别与抓取算法研发，支撑团队多机器人取餐配送系统。实现闭环抓取工作流，融合视觉模型与控制模块，构建从视觉感知到精准抓取的完整解决方案，进行较为可靠的抓取操作。

人工智能、在线教育

Python、OpenCV、PyTorc...

在人工智能领域飞速发展的背景下，抖音集团正积极投入建设具备世界领先水平的内部多模态大模型。该模型旨在深度理解和生成结合文本、图像、视频、音频等多种模态的数据，以此赋能集团旗下多样化的产品与业务场景（如内容推荐、智能创作、用户交互、内容审核等）。为了确保这些强大的多模态大模型不仅具备卓越的性能，更能精准对齐人类偏好（Human Alignment）、提升其安全性、有用性、一致性与个性化表现，我们引入了 **Direct Preference Optimization (DPO)作为关键的后训练（Post-training）** 策略。DPO 通过利用人类偏好反馈数据直接优化模型，相比传统的 RLHF（基于强化学习的人类反馈）流程更高效、稳定。本项目的核心目标正是 ——构建一个高效、稳定、可扩展的端到端数据链路，为 DPO 训练提供高质量、高通量的结构化数据。这一数据链路的搭建，是确保我们的多模态大模型能够持续迭代、不断优化、最终在复杂现实场景中表现卓越的基石。它不仅将加速模型迭代周期，更是我们在下一代 AI 技术竞争中保持领先的关键一步。本项目的核心在于设计与实现一个自动化、智能化的DPO 训练数据生产平台。其核心功能可概括为三个紧密相连的阶段：大规模、周期性数据采集与整合：平台将具备强大的数据集成能力，能够定期、自动化地从集团内部多样化的原始数据源（如用户交互日志、内容创作数据、搜索查询、运营反馈、模型推理日志等）以及特定外部数据集获取海量多模态数据。确保数据的新鲜度、全面性和多样性，为后续的精细化标注提供充足的 “原材料”。高度定制化与智能化的复杂标注工作流：平台将支持一个多阶段、多模态融合、且深度定制化的标注链路。此环节并非简单的标签分类，而是专注于DPO 训练所需的偏好型数据构建。它将引导专业标注员或通过 AI 辅助标注，根据预设的严苛评估标准（如安全性、事实准确性、逻辑连贯性、指令遵循度、创意性、语气风格等），对模型在特定 Prompt 下的多个响应进行优劣排序、对比选择，乃至识别并生成对抗性样本。此流程将针对多模态内容的特点，支持文本 - 图像、文本 - 视频等多维度关联信息的标注与评估。标准化、可追溯的 DPO 训练数据输出（Pair 对数据）：最终，数据链路将把经过复杂标注处理后的信息，精确地格式化为 DPO 训练框架可直接消费的 “Pair 对数据”。这意味着，对于给定的一个 Prompt 或上下文，我们将输出至少包含一个 **“偏好响应（Preferred Response）”和一个“拒绝响应（Rejected Response）”** 的结构化数据对。这些数据将包含必要的元信息（如评估维度分数、置信度、标注员 ID、时间戳等），确保数据质量高、可追溯，并可直接无缝地灌入集团的 DPO 训练系统，为模型的持续优化提供高质

人工智能、大数据

Python、PyTorch、Ray

内部大模型应用管理平台

随着公司AI战略的深入，各类业务对基于领域知识的智能问答需求激增。同时对于不同的应用场景需要支持不同的系统能力，比如解析学城文档表格、大模型对长文本内容总结summary、提供通用AI检索API接口等后续部分应用可能会对文档文本、图片、表格等多模态AI检索能力有部分诉求，因此期望建设支持公司特殊业务场景专有知识管理平台，包括数据解析、知识管理、知识检索能力，大幅提升同类项目的搭建效率。另外随着多模态应用（如故障图片识别）的兴起，缺乏高效的数据标注工具，人工标注成本高昂，因此建设一个面向公司垂类的AI 基础设施平台，成为支撑业务快速创新与降本增效的关键。

企业内部管理、人工智能

Java、Python、Spring B...

企业级多模态智能问答中台-Multimodal Agentic RAG (智能体检索增强系统)

立项背景与目标：针对传统 RAG 系统在处理“图文混合文档”时无法识别图片内容，以及面对“复杂逻辑问题”时回答准确率低的痛点，本项目旨在构建一个生产级、多模态、具备推理能力**的企业知识问答中台，助力企业将非结构化文档（PDF/Word）转化为可交互的智能资产。核心功能与业务流程： 1. Agentic RAG (智能体检索)**：基于 LangGraph 构建了具备“自我反思”能力的 Agent 状态机。意图路由：精准区分闲聊/问答，避免资源浪费。自我评估 (Self-Reflection)：Agent 会对检索结果进行质量打分。如果发现相关性不足（Score < 0.8），会自动触发查询改写 (Query Rewrite) 并重新检索，直到找到满意答案或达到重试上限。动态规划：针对复杂问题，自动拆解为多个子任务并行执行。 2. 多路混合检索 (Hybrid Search)**：摒弃单一的向量检索，采用 Vector (语义) + BM25 (关键词) + Rerank (重排序)的黄金组合。引入 Cross-Encoder 模型进行二次精排，像“阅卷老师”一样剔除伪相关文档，检索准确率提升至 89%。 3. 全链路多模态 (Multi-modal)：集成 VLM (视觉大模型)，不仅能读懂文本，还能理解 PDF 中的图片、图表，实现真正的“图文跨模态检索”。 4. 生产级异步架构：利用 Celery + Redis 构建高并发流水线，实现 GB 级大文件的异步解析与后台向量化，确保前端操作零卡顿。

人工智能

Python、FastAPI、React...

电商数字人

### 数字人模型训练 - **功能描述**：通过上传训练视频和音频，训练个性化的数字人模型 - **主要特性**： - 支持自定义模型名称和参数配置 - 多种图像尺寸选择（256×256、512×512、1024×1024） - 可配置批次大小、学习率、训练轮数等参数 - 实时训练进度监控和损失曲线展示 - 支持训练任务的暂停、继续和停止操作 ### 数字人推理 - **功能描述**：使用已训练的数字人模型，根据音频生成数字人视频 - **主要特性**： - 模型列表管理和选择 - 支持音频驱动和视频驱动两种模式 - 可配置输出质量和格式 - 实时推理进度显示

电商、人工智能

Python、ONNX Runtime、...

RoboMaster英雄机器人电控负责人

参加机甲大师超级对抗赛，负责英雄机器人的电气布线、开发板配置、控制算法编写与调试。机器人的功能需包括麦克纳姆式底盘解算，云台pitch、yaw双自由度，摩擦轮与拨弹盘电机协同实现42mm弹丸发射并精准打击16m距离目标。同时机器人需搭载miniPC与相机实现实时目标检测与瞄准，我们电控需与视觉协调通信实现云台快相应自动瞄准与击打。

人工智能

C++

cv, nlp, data-analysis

LLM微调，CV，NLP多个项目经历： yolov8，yolov11，yolov12，yolo26应用，优化，集成 swin-tf，U-net，VIT分割，识别，分类，标注 RAG，情感分类，分词，生词，熟练应用BERT 可嵌入到软件，网页中，需后端可接入一些LLM（如GPT，DS等）的API 可接中型/小型软件开发可接科研项目，论文复现，AI/大数据/数据分析都可

人工智能、大数据

PyTorch、Transformers

深圳某医院内窥镜 AI 辅助手术项目

采用 CAD 辅助医师诊断进行消化道系统检查，包括操作质量检测、病变检测和分类，一方面可以在一定程度上提升肠道息肉的检出率，从而降低漏诊率；另一方面可以加快每次诊断的时间，从而提升对病人的检测效率。本项目拟构建人工智能辅助的消化道内窥镜实时定位和检测系统。前期甲方构建了基于卷积神经网络的消化系统图关键位置定位算法和病变检测分割的算法。基于此系统现需要对已有算法进行包装，构建可用于临床测试的系统，并整理此项目中涉及用于系统接口，以便于后续平台开发。

人工智能

Python、PyTorch、PyTor...

全国信息学竞赛智能机器人项目

项目介绍：可编程控制的人形或仿生类行走机器人。根据公布的任务和现场发布的任务，参与现场展示交流的学生能够运用各种传感器包括视觉（大小、形状、颜色）识别、材质（铁质、塑料）分类、位置（坐标、方向）确定等，设计制作一款双足人或仿生类多足机器人，并具备对指定物品进行分拣与搬运的能力。

人工智能

Python、PyTorch、Trans...

人工智能-长尾问题

对于长尾问题，运用一些模型对数据集头部、中部类别准确率较高和尾部类别数据量极少的不平衡问题进行优化改进。使其对于数据集识别分类效果得到准确度精准度的提升、优化。从而提升头部尾部不平衡的问题点。

人工智能

Python、PyTorch

基于stable-diffusion-V1.5开发的文生图兼图生图模型

本项目基于Stable Diffusion v1.5模型开发，是一个功能强大的文生图与图生图综合模型。主要功能包括：文生图：输入文本提示词，生成高质量图像（如"一只戴着太阳镜的猫坐在赛博朋克摩托车上"）图生图：基于输入图像+文本提示，生成修改后的图像图像修复：对图像中指定区域进行智能修复和填充可控扩散：通过ControlNet支持姿势图、边缘图、深度图等约束生成内容人体细节优化：针对手、脸、姿势等人体细节进行专门优化，提升生成质量

人工智能

Python、OpenCV、PyTorc...

基于Numpy实现的线性分类器

项目背景随着Pytorch的集成化越来越高，基于torch.nn可以跳过底层神经网络的搭建，这样虽然提高了效率，但也不利于对人工智能的底层原理的理解。该项目作为Numpy构建神经网络的起始项目，旨在通过Numpy将底层的数学原理转换为代码，在实践中理解神经网络的底层原理。项目功能本项目实现了以下功能： ·生成模拟输入和标签数据 ·线性分类器的前向传播 ·线性分类器的反向传播 ·神经网络的常用算子

人工智能

NumPy

基于Python的AI智能模拟防火墙系统

Builder 一、项目背景与目标（立项原因） <br/> 随着Web业务和互联网服务的快速发展，传统仅依赖静态规则的防火墙难以及时发现未知攻击、变种攻击和低频扫描行为，同时安全运维人员缺乏一套集“监控、分析、配置、审计”于一体的可视化平台。 <br/> 本项目以“智能防火墙实验系统”为目标，结合网络空间安全专业教学与实战需求，旨在构建一个集规则过滤、入侵检测、AI 异常检测和安全态势可视化于一体的综合实验平台，实现： - 对常见 Web 与网络攻击的有效拦截； - 对未知异常行为的智能发现与预警； - 对安全策略与运维操作的可视化管理与可审计追踪； - 为教学和科研提供完整的安全系统实践样例。二、软件整体功能与核心功能模块从功能上看，系统主要包含以下几个模块： 1. 用户认证与权限控制模块 - 基于 JWT 的登录认证，支持管理员账号登录； - 区分不同角色权限，对规则管理、系统设置等敏感操作进行访问控制。 2. 实时仪表盘与态势感知模块 - 展示总流量、允许/拦截数量、威胁告警数量等关键指标； - 显示协议分布、按类型分类的流量统计和趋势图； - 提供系统运行状态（服务是否正常、CPU/内存等）概览。 3. 流量分析与告警模块 - 实时展示安全告警列表：时间、源/目的 IP、端口、协议、攻击类型、告警等级； - 支持按时间、IP、类型等条件筛选告警，查看详细信息； - 标记 AI 异常检测告警，区分规则命中与模型判断来源。 4. 规则管理模块 - 可视化维护防火墙规则：协议、源/目的 IP、端口范围、动作（允许/拒绝/记录）、优先级等； - 支持规则的新增、修改、删除、启用/禁用； - 优先级管理影响匹配顺序，实现精细化访问控制。 5. 核心安全引擎与 AI 检测模块 - 基于五元组的包过滤与规则匹配； - 特征规则识别常见攻击（SQL 注入、XSS、路径遍历等）； - 使用孤立森林、LOF 等无监督算法，对流量行为进行异常评分，识别未知威胁与异常模式。 6. 日志审计与运维记录模块 - 记录登录、规则变更、告警触发等关键操作； - 支持日志查询与导出，为合规审计与溯源提供依据。三、核心业务流程与功能路径描述从“用户登录”到“威胁发现与处置”，系统整体业务流程可以概括为： 1. 登录与认证路径 - 用户访问登录页面 → 输入账号密码 → 后端验证凭证 → 生成 JWT 令牌 → 前端携带令牌访问各类管理接口。 - 功能路径示例： <br/> 登录页面 → 输入凭证 → /api/login → 返回 Token → 访问仪表盘及其他模块 2. 流量处理与检测路径

在线教育、人工智能

Python、SQL、Django、Fa...

物体识别自动瞄准算法

帮助机器人在五米内，通过相机捕获画面，通过图像处理，解算出装甲板相对于机器人的相对坐标，使得机器人发射的弹丸可以击打到敌方装甲板上项目背景（Situation）在智能机器人竞技领域，为提升我方机器人在复杂环境下对敌方机器人的追踪与打击能力。开发资源包括工业相机、liunx平台、陀螺仪，以及深度学习框架和 OpenCV 库等软件工具。

人工智能

OpenCV、PyTorch

Stable Diffusion 模型推理优化

1.以 Stable Diffusion XL 模型为重点，保证一定延时的条件下，最大化地提高吞吐。以 Pytorch Fp16 格式模型为基准，可在无损条件下实现单模型推理 1.41 倍加速，单 GPU 整体吞吐提升 1.52 倍，考虑 Int8 量化的有损情况下可达到单模型 2.1 倍加速。 2. 搭建文生图模型推理服务框架，支持 Lora、Controlnet 等主流功能以及高并发推理场景。

人工智能

Deeplearning4j

机器视觉

机器视觉是利用计算机技术模拟人类视觉的一种技术，主要通过摄像头获取图像，并使用图像处理算法进行分析和识别。它广泛应用于工业自动化、质量检测、机器人导航等领域，能够提高生产效率、增强精度，减少人为错误。随着人工智能的发展，机器视觉的应用前景愈加广阔。

人工智能

Python

人工智能-音色音准鉴别APP

核心功能: 1.一键录音，通过AI对用户的声音进行音高，音准进行分析 2.通过AI,对共鸣位置进行检测，以及音色的检查 3.首次嗓音监测，并生成个人嗓音档案 3.将各项指标展示成雷达图，并对其各个分项进行评分，以及简要问题说明和建议

人工智能、音视频

Java、Python、UniApp

基于Vision Transformer的阿尔兹海默症MRI图像分类

使用GFNet 模型对来自 ADNI（阿尔茨海默病神经影像学倡议）的脑部 MRI 图像进行分类，以识别阿尔茨海默症（AD）与认知正常（CN）状态，准确率达到 74.85%，并展示了优秀的泛化能力和鲁棒性。系统以GFNet模型为核心，具备以下功能模块： 1. 图像预处理模块支持图像统一缩放至224×224像素；提供数据增强功能（随机水平翻转、随机擦除等）；支持灰度转换与自动黑边裁剪，突出关键区域。 2. 特征提取与分类模块基于GFNet的块嵌入与位置编码，提取图像全局特征；通过频域全局滤波层（Global Filter）捕获长程依赖关系；经多层Transformer块与MLP层进行高层次特征融合与分类。 3. 训练与评估模块支持余弦退火学习率调整、早停机制等训练策略；提供准确率、损失曲线、混淆矩阵等可视化评估工具；支持模型检查点保存与最佳模型自动选择。 4. 预测服务模块提供单张或批量MRI图像的AD/CN状态预测；输出分类结果及相关置信度。

医疗健康、人工智能

Python、PyTorch、Trans...

最小生成树算法演示系统-MST

图论算法在交通网络规划、通信网络设计、电力系统布线等领域应用广泛。本项目旨在通过实现最小生成树的核心算法（Prim和Kruskal），构建一个交互式的算法演示系统。目标不仅在于展示算法原理，更重要的是建立理论与实际应用之间的桥梁，帮助学习者直观理解算法在资源优化配置中的价值，培养解决实际工程问题的能力。包含六大核心功能模块： 1. 图结构管理模块：支持邻接矩阵表示的加权无向图，提供预置高速公路示例图和随机图生成功能 2. Prim算法模块：实现基于贪心策略的最小生成树算法，时间复杂度O（V3），适合稠密图 3. Kruskal算法模块：实现基于并查集的算法，时间复杂度O（Elog E），适合稀疏图 4.算法对比分析模块：对比两种算法的执行过程、时间空间复杂度、适用场景 5. 高速公路应用场景模块：将抽象算法转化为具体的工程规划问题，提供成本效益分析 6. 交互式演示系统：提供7种操作的命令行菜单，支持用户交互和实时演示。用户启动程序后，首先加载预置的高速公路网络示例图。通过交互式菜单，用户可选择：①查看图结构；②从指定城市开始执行 Prim算法并观察逐步构建过程；③执行 Kruskal算法并观察按权重排序的选择过程；④对比两种算法的结果和性能差异；⑤查看如何将最小生成树应用于高速公路建设规划；⑥创建新的随机测试图验证算法通用性；⑦查看算法正确性证明。整个流程形成"理论一实现一验证一应用"的完整学习

在线教育、人工智能

基于深度学习的时间序列数据去噪

基于深度学习的算法框架，能够对多维度时间序列数据实现精准识别、高效去噪与可靠预测三大核心功能。通过构建 CNN、LSTM、TCN 等网络模型，可自动挖掘数据中的隐藏特征与时序规律，滤除复杂噪声干扰，同时结合历史数据趋势，对未来序列走势进行科学推演，为金融、工业监测、音频处理等领域提供强有力的技术支撑。

人工智能

Python、PyTorch

人工智能 算法模型 软件定制 案例

人工智能算法模型软件定制案例