程序聚合 软件案例 数据链路搭建-DPO数据链路

数据链路搭建-DPO数据链路

2026-02-19 08:27:28
行业:人工智能、大数据
载体:算法模型、网站
技术:Python、PyTorch、Ray

业务和功能介绍

在人工智能领域飞速发展的背景下,抖音集团正积极投入建设具备世界领先水平的内部多模态大模型。该模型旨在深度理解和生成结合文本、图像、视频、音频等多种模态的数据,以此赋能集团旗下多样化的产品与业务场景(如内容推荐、智能创作、用户交互、内容审核等)。
为了确保这些强大的多模态大模型不仅具备卓越的性能,更能精准对齐人类偏好(Human Alignment)、提升其安全性、有用性、一致性与个性化表现,我们引入了 **Direct Preference Optimization (DPO)作为关键的后训练(Post-training)** 策略。DPO 通过利用人类偏好反馈数据直接优化模型,相比传统的 RLHF(基于强化学习的人类反馈)流程更高效、稳定。
本项目的核心目标正是 ——构建一个高效、稳定、可扩展的端到端数据链路,为 DPO 训练提供高质量、高通量的结构化数据。这一数据链路的搭建,是确保我们的多模态大模型能够持续迭代、不断优化、最终在复杂现实场景中表现卓越的基石。它不仅将加速模型迭代周期,更是我们在下一代 AI 技术竞争中保持领先的关键一步。

本项目的核心在于设计与实现一个自动化、智能化的DPO 训练数据生产平台。其核心功能可概括为三个紧密相连的阶段:
大规模、周期性数据采集与整合: 平台将具备强大的数据集成能力,能够定期、自动化地从集团内部多样化的原始数据源(如用户交互日志、内容创作数据、搜索查询、运营反馈、模型推理日志等)以及特定外部数据集获取海量多模态数据。确保数据的新鲜度、全面性和多样性,为后续的精细化标注提供充足的 “原材料”。
高度定制化与智能化的复杂标注工作流: 平台将支持一个多阶段、多模态融合、且深度定制化的标注链路。此环节并非简单的标签分类,而是专注于DPO 训练所需的偏好型数据构建。它将引导专业标注员或通过 AI 辅助标注,根据预设的严苛评估标准(如安全性、事实准确性、逻辑连贯性、指令遵循度、创意性、语气风格等),对模型在特定 Prompt 下的多个响应进行优劣排序、对比选择,乃至识别并生成对抗性样本。此流程将针对多模态内容的特点,支持文本 - 图像、文本 - 视频等多维度关联信息的标注与评估。
标准化、可追溯的 DPO 训练数据输出(Pair 对数据): 最终,数据链路将把经过复杂标注处理后的信息,精确地格式化为 DPO 训练框架可直接消费的 “Pair 对数据”。这意味着,对于给定的一个 Prompt 或上下文,我们将输出至少包含一个 **“偏好响应(Preferred Response)”和一个“拒绝响应(Rejected Response)”** 的结构化数据对。这些数据将包含必要的元信息(如评估维度分数、置信度、标注员 ID、时间戳等),确保数据质量高、可追溯,并可直接无缝地灌入集团的 DPO 训练系统,为模型的持续优化提供高质

项目实现

1.整体架构:训练数据要使用成对的视频和单一的prompt,根据DPO训练的要求,需要构造差异化链路,链路分多个支路,通过不同方式构造出6-10个差异性视频,最后经由人工标注选择出一个最好和一个最差的视频
2.我负责的部分:链路内部全量算子的开发与链路的整体串联

示例图片视频


shy
5天前活跃
方向: 后端-Python、人工智能-数据标注和训练支持、
交付率:100.00%
相似推荐
国家电网电力系统管理后台
1.以电网各系统数据依据,通过RPA及python等技术,获取变电站,输电线路,变压器,配 电线路,电费回收率,反窃电完成累计金额等数据。将电网数据呈现至一体化大屏 2.基于数据中台建运经验,结合RPA技术完成数据中台服务组件运行情况监控,开展中台运行状态分析,建立数据中台运行状态监控指标分析模型,实施自动化巡检机器人,提升数据中台智能化巡检能力
管屏自动化设计系统-AutoCAD插件
本项目是一个面向锅炉管屏制造行业的AutoCAD插件系统,用于自动化设计和生成管屏装配图纸。系统主要解决传统手工绘制管屏图纸效率低、易出错的问题。 核心功能包括: 1.BOM管理: 从MOM系统获取项目BOM数据,包括装配体、零件、管段的层级结构和材质规格信息 2.参数化设计: 通过可视化界面输入设计参数(起点坐标、方向向量、管段尺寸等),系统自动计算几何数据并生成CAD图形 3.几何计算引擎: 支持直线、平面圆弧、空间圆弧等复杂几何元素的自动计算,包括弯曲补偿、长度累计等 4.焊点管理: 自动计算焊点位置和不可焊接区域,支持附件引起的特殊不可焊接区域标注 5.镜像装配: 支持管屏的镜像装配功能,自动处理坐标变换和几何翻转 6.数据持久化: 使用本地BoltDB数据库和云端Go服务双重存储,保证设计数据的安全性和可追溯性
德能能源
本项目为校园能源管理应用系统,主要面向在校学生提供便捷、安全、可计量的热水使用服务。系统通过 蓝牙智能水表 + 移动端应用 的方式,实现学生用水全过程数字化管理与精准计费。 1. 学生账户与余额管理 学生通过校园能源 APP 登录个人账户,可实时查看账户可用余额。系统支持在线充值,余额变动即时同步,确保学生在使用热水前即可明确当前可用金额,避免超额或误扣费情况。 2. 蓝牙水表智能控制 在洗浴场景中,学生通过手机与蓝牙智能水表进行连接,完成设备识别与绑定。系统展示当前设备名称、所在位置及预扣金额信息,确保学生明确所使用的具体热水设备。 3. 一键启动洗浴用水 学生点击“开始洗澡”后,系统通过蓝牙指令远程控制水表开启供水,同时进行用水计费计时。在洗浴过程中,后台实时采集水量数据,确保计量精准、过程可控。 4. 用水结束与费用结算 洗浴结束后,系统自动关闭供水并完成费用结算,向学生清晰展示: 使用结束时间、预扣金额、实际消费金额、返还金额、当前账户余额 整个结算过程自动完成,费用透明可追溯,有效保障学生权益。 5. 信息公告与服务提示 系统首页提供学校能源公告、热水供应时间说明及故障报修指引等信息,方便学生第一时间了解用水相关通知,提升校园后勤服务效率与信息触达率。
西安长庆监理数智化管理平台
随着全国推广数字化管理,长庆油田监理也需要一个与自身业务结合的软件系统,我们基于总监宝软件的定制开发,基本满足了油田监理的工作要求,后续进行业务深入的了解,一步一步的修改完善系统。长庆监理的责任,就是需要把握采油、输油、炼油过程中相关工程的各项事宜,最注重的是安全行为和工程质量,之前需要到现场才能查看施工情况、问题描述,现在只需在手机软件就可以完成;以往需要人力手动维护的数据,再汇集成表格文档,或归档资料,打印出来核验递交上级单位,流程繁琐且易出错,结合使用系统之后,只需要关注数据内容的变化即可,极大方便了监理的日常工作。 系统共分为九大模块,指挥大屏用于分析工程项目、各类问题、监理履职、对施工方的监督考核; 综合管理的作用是维护企业的组织信息、系统的菜单数据权限、审批流程、报表、公告、考试、企业资料的存储、会议管理,考核测评是上级对下级的工作评价,履职民主测评是下级对上级的工作监督,企业车辆、设备资源的管理;工程信息管理中包含项目工程的概况、资料、归档; 质量控制模块是监理的日常巡视、平检、旁站工作,方案的审核,事项的协调,以及工程日志和工程质量问题,且对问题的处理措施下发给施工单位; 试验检测包含见证取样、试验室检查,以及系统核心功能无损检测,是施工单位进行报审各类管道的焊口,监理对报审的数据进行审核,通过之后下发指令给检测单位进行焊口的检测,检测方再对检测结果进行上传,不合格的焊口下达返修指令,需要施工方处理之后复探报审,存在不合格的情况需要对报审的焊口再进行扩探; 安全管理主要是对安全进行规范,安全检查、四不两直、危大工程、环保、专项检查、职业健康、安全问题都是为了做好施工的安全防护,安全施工是项目良好发展的基础,是领导时刻关注的重点; 进度控制是对项目节点进行跟踪,大屏可及时查看项目进度情况; 合同投资分为合同信息、设计变更、签证管理、材料代用、投资管理、投资问题; 考核督导中有对公司人员的考核、监理部的考核,焊工的管理,焊工信息的录入,黄名单阈值的设置,黄名单人员转黑名单,之后该焊工被除名; 企业标准分为技术管理标准和业务基础数据库,都是对系统基础数据的维护,技术标准是工程类型、工程分解、检查标准化叙述的定义,业务数据库是GB标准规范、GB分项工程、通用问题库、质量问题库、安全问题库、生产经营库、承包商协作单位和承包商人员的录入。
变电站智能巡视系统-变电站智能巡视系统
变电站进行智能巡视系统可以对变电站的视频摄像机实现实时监测;利用图像识别技术对设备异常情况和场景隐患进行识别;利用消息中间件完成告警分析和推送。利用系统设计逻辑实现智能运维管理和业务智能化管理;利用以上物联网和图像识别技术,实现智能分析、告警管理和智能运维。
帮助文档   Copyright @ 2021-2024 程聚宝 | 浙ICP备2021014372号
人工客服