GPU虚拟化

2025-08-30 23:39:02
行业:云计算
载体:框架或代码包
技术:C、C++

业务背景

为更大效率利用公司GPU资源、节省成本,通过对NVIDIA的驱动库、运行库和函数库进行劫持,将公司k8s集群中GPU卡的算力和显存资源进行统计和管理,使单卡资源利用率提高13%;并引入远程共享池化的概念,使没有GPU卡的机器能通过网络使用GPU池中的资源。

功能介绍

为更大效率利用公司GPU资源、节省成本,通过对NVIDIA的驱动库、运行库和函数库进行劫持,将公司k8s集群中GPU卡的算力和显存资源进行统计和管理,使单卡资源利用率提高13%;并引入远程共享池化的概念,使没有GPU卡的机器能通过网络使用GPU池中的资源。

项目实现

1)确定资源值统计方案:在抓取资源值的间隔中,多进程间通过IPC计数、进程内多线程间通过原子变量计数来保证正确性,并让不同资源种类和不同卡单独使用一套IPC管理,提高并发度;最终按此方案实现后顺利上线,并通过公司名义发表专利一篇。
2)使用RAII机制解决了资源频繁申请和释放引发的漏释放问题,并对IPC回收增加巡检机制,确保进程异常崩溃后机器的IPC仍能正常回收,保证系统稳定运行。
3)为减少劫持逻辑耗时,设计异步日志系统并通过recover机制保证日志完整性,利用线程变量缓存优化系统时间的获取,最终减少耗时50%+。
4)通过阅读brpc源码和demo测试验证,确定采用brpc通信;规定了通信的应用层协议和数据排列形式;将通信模块和逻辑模块解耦,完成服务端/客户端的劫持入口逻辑开发,并通过脚本生成各个劫持函数的雏形,提升开发效率。
5)按模块完成功能设计与开发,包括:i、守护进程模块,包含配置文件处理、端口号维护、请求监听和fork创建server等工作,采用无锁队列替代加锁操作优化端口号维护;ii、客户端模块,包括上下文、网络连接器的维护等,使用double check方式保证网络连接器的唯一性;iii、服务端和客户端在显存的分配、拷贝和回收等劫持逻辑映射,并适配pinned memory、有参launch kernel等特殊功能。最终顺利完成项目交付。

示例图片视频


六边形战士
24小时内活跃
方向: 后端-Go、后端-C++、
交付率:100.00%
相似推荐
客户管理系统
客户信息管理系统的主要功能是[5]对客户信息进行录入、删除、修改、浏览、查找和排序等操作[3],用户可以对文件中存储的客户信息进行查找和浏览。 · 新增客户:当有新客户时,向客户信息表里面添加一条新的记录。 · 修改客户:当有客户的信息如联系方式需要修改时,可更新客户资料。 · 盘存管理:系统的使用用户可以根据各自的权限查询各自权限范围的各种记录。 · 查找客户:当需要查找客户的消费记录时,可以通过查询客户的简短关键信息。 · 删除客户:当客户有需求,可以对客户信息进行删除。 · 浏览客户:当客户有需要,或用户调用,可以对客户的信息进行浏览查询。
呼叫中心企业管理系统
本系统针对呼叫中心核心需求,设计员工管理、考勤管理、审批管理、工资管理、排班管理等模块,为管理员、主管及员工提供高效操作。员工管理支持信息CRUD、权限分配、档案维护,使用者可批量导入或查询数据;考勤管理实现自动打卡、请假记录、异常统计及报表,员工提交申请、主管实时审核;审批管理构建多级流程(如请假、加班),支持模板自定义及通知,使用者追踪进度;工资管理集成薪资计算、扣除配置、发放记录及税务报表,自动关联考勤生成工资单;排班管理提供智能调度、规则设置、冲突检测及调整,优化峰谷期覆盖。 对使用者而言,实现全链条管理:管理员全局监控;主管专注审批调度;员工自助服务减负。主要路径:登录仪表盘查看指标(如考勤率、待审项);菜单导航模块,如员工管理:搜索→详情→编辑→保存;考勤:打卡→记录→报表→导出;审批:发起→类型选择→提交→审核→通知;工资:自动计算→审核→查询;排班:规则设置→计划生成→调整→发布。系统采用角色访问控制,确保安全,并辅以搜索、导出、通知功能,提升体验。
缺陷产品退货理赔系统
理赔申请模块:经销商可以通过系统在线提交理赔申请,系统支持上传相关证明材料(如产品照片、检测报告等),自动生成申请单号。同时,系统会对申请信息进行初步校验,如产品型号是否在理赔范围内、申请金额是否符合规定等,减少无效申请。 多角色审批模块:基于 Flowable6.7 工作流引擎,实现了多角色的审批流程。系统根据预设的审批规则,如单笔金额大于 10 万自动流转至财务负责人,将申请单分配给相应的审批人员。审批人员可以在系统中查看申请详情和证明材料,进行审批操作(同意、驳回、退回修改),并填写审批意见。系统会实时记录审批进度,经销商和企业内部管理人员可随时查看。 折货处理模块:对于审批通过的理赔申请,系统提供折货处理功能。根据理赔金额和相关规则,自动计算可折换的产品数量和种类,经销商可以选择相应的折换产品,系统生成折货单,并与库存管理系统联动,确保折货流程的顺畅进行。 配件库存管理模块:该模块实现了配件的入库、出库、库存查询等功能。入库时,系统自动生成入库单号,并与采购订单关联,确保入库信息的准确性,同时实时更新库存数量;出库时,系统先进行库存校验,只有库存充足时才能进行出库操作,且出库需经过相应的审批流程,保障库存管理的规范性。通过库存台账功能,可实时查询配件的库存数量、出入库记录等信息,为采购和销售提供数据支持。
企业内部MES系统
工厂建模 工艺管理 质量管理 生产管理 排产管理 设备管理 系统管理 包含以上系统模块。并包括各系统接口对接和设备对接。实现了信息系统与关键设备、关键工序的信息对接。并可以通过数据形成系统相关报表大屏
安全管控平台
系统规划与功能设计: 深入调研化工企业的安全管理需求,量身定制平台功能框架与业务流程。 设计并实施双重预防机制,形成风险辨识、评估、管控及隐患排查治理的闭环管理流程。 开发智能巡检系统,利用物联网技术自动分配巡检任务并实时监控执行情况,提高巡检效率与准确性。 制定特殊作业管理流程,严格把控作业许可、安全措施审批及现场监管,确保作业安全。 引入GIS技术,实现人员定位与追踪功能,实时掌握人员位置与移动轨迹,提升应急响应速度。 建立重大危险源监控系统,采用influxdb存储关键数据,结合AI识别技术分析危险源,实现实时监测与预警。
帮助文档   Copyright @ 2021-2024 程序聚合 | 浙ICP备2021014372号
人工客服