k8s加ray集群部署

2026-05-28 16:46:00

行业：人工智能

载体：云服务/云平台

技术：Kubernetes、Linux

业务和功能介绍

基于 Kubernetes 和 Ray 构建大规模分布式训练系统，常常会面对一个典型需求：训练任务需要调用独立的仿真环境（如游戏引擎、机器人模拟器、工业仿真软件等），而这些仿真环境本身已打包为 Docker 镜像，必须在一个隔离的容器内运行。此时，将容器化的仿真环境与 Ray 的工作节点相结合，并在 Kubernetes Pod 内安全、高效地运行仿真容器，就成了架构的关键。Docker‑in‑Docker（DinD）便是解决此类场景的重要技术之一。

项目实现

Kubernetes：集群编排，负责网络、存储、调度、自动恢复。
Ray + KubeRay：Ray 提供分布式任务/角色模型，RLlib 直接支持分布式训练。KubeRay 通过 CRD（RayCluster、RayJob、RayService）在 K8s 上管理 Ray 集群。
仿真容器镜像：封装好的仿真环境，例如基于 Unity、MuJoCo、Isaac Sim、自定义 Gazebo 等，通常暴露一个控制接口（REST/gRPC/共享内存）。
Docker‑in‑Docker (DinD)：允许在容器内部运行 Docker 守护进程，从而创建和管理其他容器。
Docker SDK for Python：在 Ray worker 内用 docker 库与 Docker daemon 交互，启动仿真容器。
KubeRay Worker 镜像：需要包含 Ray、Python 环境、Docker 客户端（或 SDK），以及可能需要的 GPU 支持组件。

示例图片视频

ddy123

15天前活跃

方向：人工智能-机器学习与深度学习、

交付率：100.00%

查看主页

相似推荐

能耗管理平台

项目主要实现将图像识别，机器学习等技术融入室内雪场环境。利用图像识别实时监控冷风机结霜情况，并根据识别结构进行实时融霜；将制冷造雪相关参数输入模型，结合能耗分析，生成相应的控制策略，实现节能减排的目的。

表格生成器

本质是 “窗体容器化 + 数据库驱动” 的业务管理原型，目标解决：多业务流程的分步操作（通过窗体嵌入、切换实现）。业务规则、数据的可视化管理（结合数据库与 DataGridView ）。桌面应用的交互体验（动态布局、多窗体协作）。

城市物联网消防远程监控系统

城市远程监控系统主要是以服务企业主旨，基于国家消防标准，对企业消防设施实现在线监控及日常巡查工作，为消防监管部门减负，为消防救援处置工作提供便捷。 1.在线监测模块包括智能消防主机预警系统、消防水系统、消防电气预警系统、智能风机等系统。 2.日常巡查模块，是根据国家规范，通过小程序定时下发巡查任务，按照年度、季度、月底制定不同的消防巡查内容。 3.企业应预案管理模块主要是对企业台账信息、图纸信息、培训信息、维保信息实现可视化，在消防救援过程中提供有效支撑。 4.3D建模系统，根据企业平面图，标注重要部位位置，并联动在线监测设备，有异常及时推送。

远程设备控制系统-设备控制

本远程设备控制系统面向物联网智能设备管控场景，配套网页管理端与微信小程序双载体，实现全流程设备远程可视化管控：设备数据实时采集：在线读取温湿度、电量、设备运行状态等传感数据，数据实时刷新展示；远程控制操作：支持远程开关设备、调节灯具亮度、继电器通断、参数阈值自定义配置；设备资产管理：设备分组管理、在线离线状态监测、历史运行数据存储与查询；告警提醒机制：设备异常、超温断电等场景自动推送消息提醒，方便运维人员及时处置；权限分级管控：区分管理员、普通操作员账号，限定设备操作与数据查看权限。

工业控制程序-电镀

权限控制:指纹识别。采集参数:采集整流器、温控器、液位器、PH检测器、镭射机、电机、参数远端设定设备参数采集oee数据生成生产数量，不良品，生产时间记录自动列印标签:接受plc信号，自动列印标签 plc交互，长读取地址映射，小区块拼接大块，防止读取次数过多，交互时间变长 modbus rtu asii tcp