GPU虚拟化

2025-08-30 23:39:02
行业:云计算
载体:框架或代码包
技术:C、C++

业务和功能介绍

为更大效率利用公司GPU资源、节省成本,通过对NVIDIA的驱动库、运行库和函数库进行劫持,将公司k8s集群中GPU卡的算力和显存资源进行统计和管理,使单卡资源利用率提高13%;并引入远程共享池化的概念,使没有GPU卡的机器能通过网络使用GPU池中的资源。
为更大效率利用公司GPU资源、节省成本,通过对NVIDIA的驱动库、运行库和函数库进行劫持,将公司k8s集群中GPU卡的算力和显存资源进行统计和管理,使单卡资源利用率提高13%;并引入远程共享池化的概念,使没有GPU卡的机器能通过网络使用GPU池中的资源。

项目实现

1)确定资源值统计方案:在抓取资源值的间隔中,多进程间通过IPC计数、进程内多线程间通过原子变量计数来保证正确性,并让不同资源种类和不同卡单独使用一套IPC管理,提高并发度;最终按此方案实现后顺利上线,并通过公司名义发表专利一篇。
2)使用RAII机制解决了资源频繁申请和释放引发的漏释放问题,并对IPC回收增加巡检机制,确保进程异常崩溃后机器的IPC仍能正常回收,保证系统稳定运行。
3)为减少劫持逻辑耗时,设计异步日志系统并通过recover机制保证日志完整性,利用线程变量缓存优化系统时间的获取,最终减少耗时50%+。
4)通过阅读brpc源码和demo测试验证,确定采用brpc通信;规定了通信的应用层协议和数据排列形式;将通信模块和逻辑模块解耦,完成服务端/客户端的劫持入口逻辑开发,并通过脚本生成各个劫持函数的雏形,提升开发效率。
5)按模块完成功能设计与开发,包括:i、守护进程模块,包含配置文件处理、端口号维护、请求监听和fork创建server等工作,采用无锁队列替代加锁操作优化端口号维护;ii、客户端模块,包括上下文、网络连接器的维护等,使用double check方式保证网络连接器的唯一性;iii、服务端和客户端在显存的分配、拷贝和回收等劫持逻辑映射,并适配pinned memory、有参launch kernel等特殊功能。最终顺利完成项目交付。

示例图片视频


六边形战士
30天前活跃
方向: 后端-Go、后端-C++、
交付率:100.00%
相似推荐
后台文案管理-文案管理系统
本系统为页面文案管理系统,旨在对网站各页面的展示文案进行集中化、多语言版本管理。管理员可为每个页面录入默认语言文案,在新增语言时,支持一键导出待翻译文案包,交由外部翻译人员处理。日常文案的微调与更新,均需通过内置的审批流程提交与审核,确保线上文案的准确性与合规性,实现高效、可控的多语言文案全生命周期管理。
省级财政惠农系统
1. 项目背景与目标 本系统旨在实现惠农补贴资金(如耕地地力保护补贴、农机购置补贴、粮食直接补贴等)的全流程闭环管理。通过信息化手段解决传统手工发放过程中存在的申报难、审批慢、数据不透明、资金发放滞后等痛点,确保每一分惠农资金都能“精准、安全、高效”地发放到农民手中。 2. 核心功能模块 基础数据管理: 建立完善的农户电子档案(包括身份证、一卡通账号、承包地面积等),与公安、民政数据对接进行身份校验。 政策与标准设置: 灵活配置各类补贴政策,支持按面积、按人口或定额等多种计算模型,支持多级部门联合审批流设置。 申报与审核流: 采用“村级采集、乡镇审核、县级审批”的三级管理模式。支持移动端照片上传、地理位置打卡,确保申报真实性。 资金发放管理: 与各大银行(农商行、邮储等)系统深度集成,实现一键批量代发。系统自动接收银行回执,实时更新发放状态。 阳光公示平台: 设立线上公示栏,农户可通过微信小程序或触摸屏查询个人发放明细,实现政务公开。 预警与审计巡查: 利用大数据分析,自动识别重复领取、超标准领取、跨区域领取等异常数据,为纪检监察提供线索。
蜀道集团工单系统-蜀道集团养护平台
一、项目业务介绍 蜀道养护平台是面向公路、桥梁、隧道等交通基础设施的一体化智慧养护管理系统,主要服务于蜀道集团、地方交通局、养护公司、施工单位等相关主体。 平台以**“安全、高效、降本、可追溯”为目标,通过数字化、流程化、智能化手段,实现道路养护从巡查上报、问题诊断、任务派发、施工执行、验收归档、数据分析**全生命周期管理,解决传统养护模式中响应慢、监管难、数据散、效率低等问题,提升道路运维安全与管理水平。 二、核心功能模块 1. 巡查上报管理 - 支持移动端现场拍照、定位、录音、文字描述,快速上报路面破损、裂缝、沉降、护栏损坏等问题。 - 自动生成养护工单,支持问题等级分类与紧急程度标注。 2. 工单全流程管理 - 工单派发、转派、催办、撤回、挂起等操作。 - 实时跟踪处理状态:待处理、处理中、已完成、已验收、已归档。 - 权责清晰,记录每一步操作人与处理时间。 3. 养护任务执行 - 施工方案上传、材料使用登记、现场施工记录。 - 支持施工进度实时回传,管理人员远程查看现场情况。 - 规范养护作业标准,确保施工质量与安全。 4. 验收与归档 - 多级验收机制,支持现场复核、图片对比、质量评定。 - 验收通过自动归档,形成完整养护档案,支持历史追溯与查询。 5. 基础信息管理 - 道路、桥梁、隧道、涵洞等设施信息管理。 - 养护单位、人员、设备、车辆、材料基础数据维护。 6. 统计分析与可视化 - 养护工单统计、问题类型分析、区域病害分布图。 - 养护成本、工作量、完成率、及时率等多维度报表。 - 大屏数据展示,为管理决策提供数据支撑。 7. 系统管理 - 用户权限、角色分配、组织架构管理。 - 日志审计、数据字典、消息通知配置。 - 接口管理与第三方系统对接。
深圳安博电子有限公司ERP系统
系统主要由市场部的跟单查询功能,计调部的计划管理,仓库的发料,车间的晶圆切割信息管理,减薄车间的物料流转与损耗计算,测试车间的不良率计算与补料,测试探针的管理,绑定车间的bom清单配料,及各个车间的流转单据打印,车间与仓库的入库与出库
机动车驾驶培训计时系统
驾校资料信息的备案,驾校教练员,教练车,训练场的资料信息备案管理,学员信息备案管理,学时统计上传,学时查询,教练车的定位追踪,学时打卡设备的管理与车辆绑定解绑等功能。配合交通局实现学员托管名额控制和驾校车辆名额控制。协助交通局对驾校车辆和驾校学员的管理,可以配合交通局对驾校实行招生备案限制。
帮助文档   Copyright @ 2021-2024 程聚宝 | 浙ICP备2021014372号
人工客服