rece

• UID:27845

综合评分 39

方向：人工智能-具身智能与机器人、人工智能-机器学习与深度学习

西安市

100元/8h

1年经验

求职意愿：接单·求职中(30天前更新)

个人简介

动手能力强，习惯通过写代码把论文里的算法跑通验证；学习新东西比较快，本科期间自己复现了DDPG、MAPPO等强化学习算法，也做过目标检测和双目视觉的落地项目；遇到问题愿意主动查资料、反复调试，能独立推进任务。

技能

核心技能： Python、PyTorch

其他技能：

交流语言：普通话（母语水平）、韩语（母语水平）

行业经验：人工智能

项目案例

双目视觉下的目标定位追踪

1. 立项背景与目标随着《新一代人工智能发展规划》的提出，多模态环境感知与目标跟踪技术成为重点发展方向。在公共安全、交通监控、物流机器人、无人机蜂群等场景中，目标在被遮挡或复杂环境下仍能被稳定追踪，具有重要的现实意义。本项目旨在基于双目视觉，实现目标的三维定位与轨迹追踪，并能够在目标被遮挡或预测其未来位置时，仍保持追踪的连续性与准确性。最终目标是模拟真实道路环境，验证系统在车辆追踪任务中的有效性。 2. 功能概述 a.双目相机采集左右视图，实时获取目标三维坐标 b.使用YOLO算法进行目标识别 c.通过中位数平滑和样条插值构建目标的三维轨迹 d.支持多双目相机的轨迹融合（通过坐标系变换） e.在目标被遮挡或识别精度下降时，结合物理约束进行轨迹预测 3. 核心功能模块目标识别模块：基于YOLO算法，实时检测图像中的目标（如车辆、包裹）双目定位模块：使用SGBM算法进行立体匹配，计算视差并还原三维坐标轨迹生成模块：对识别到的坐标进行平滑与插值，生成连续轨迹轨迹预测模块：在目标被遮挡或识别异常时，结合历史轨迹与物理约束预测未来位置多相机融合模块：将不同双目相机的轨迹通过坐标系变换统一为全局轨迹 4. 业务流程 (1).双目相机采集左右图像 (2)YOLO检测目标，输出目标在图像中的边界框 (3)对左右视图中的目标进行立体匹配，计算视差 (4)根据视差计算目标的三维坐标（相机坐标系） (5)对坐标进行中位数平滑与样条插值，生成轨迹 (6)若目标被遮挡或识别异常，进入预测模块 (7)可选：将多个双目相机的轨迹进行融合，输出全局轨迹 5. 功能路径描述正常追踪路径：图像采集 → YOLO识别 → 立体匹配 → 坐标计算 → 轨迹平滑 → 输出轨迹异常/遮挡路径：图像采集 → 识别失败 → 触发预测模块 → 基于历史轨迹 + 物理约束预测 → 输出预测轨迹

人工智能出行

基于DDPG的连续动作空间强化学习控制实验

1. 立项背景和目标随着强化学习在连续控制领域（如机器人、自动驾驶、机械臂控制）中的广泛应用，深度确定性策略梯度（DDPG）算法因其能够处理高维连续动作空间而成为重要的研究工具。本项目旨在通过实现DDPG算法，模拟一个二维平面内“末端执行器”通过调整两个关节角度，实现对动态目标点的追踪任务。 2. 功能本系统实现了以下核心功能：机械臂运动仿真：模拟两个关节角度（0~360°）的连续控制，并计算末端执行器的二维坐标。 DDPG智能体训练：通过与环境交互，自主学习调整关节角度以接近目标点。课程学习机制：先让机械臂学习抵达固定目标点，然后每隔一定回合随机重置目标点，逐步训练其追踪能力。训练过程监控与数据记录：记录每回合的最小/最大奖励、总奖励、步数等，并定期保存模型参数。 3. 核心功能模块描写模块功能描述 qNet Critic网络，输入状态+动作，输出Q值，评估当前动作的好坏。 aNet Actor网络，输入状态，输出连续动作（两个关节的角度变化量，范围-2~2度）。 DDPG 主算法类，包含经验存储、动作选择、网络更新、软目标更新等核心逻辑。环境交互模块（在DDPGlearning.py中）定义状态转移、奖励计算、末端坐标计算等物理仿真逻辑。课程学习调度模块控制目标点重置频率，逐步提高任务难度。训练监控与存储模块记录训练指标，定期保存模型参数和奖励日志。 4. 业务流程初始化：创建DDPG智能体，初始化环境状态（两个关节角度随机、目标点固定或随机）。交互采样：智能体根据当前状态选择动作，环境执行动作并返回新状态和奖励。经验存储：将(s, a, r, s_)存入经验池。经验回放与学习：当经验池数据足够时，随机采样批次数据，更新Actor和Critic网络。目标网络软更新：每TARGET_REPLACE_ITER步，通过Polyak平均更新目标网络参数。课程学习调整：每完成一定回合数，重置目标点位置，并记录训练数据。模型保存与日志输出：定期保存网络参数，输出奖励统计信息。 5. 功能路径描述启动训练：运行DDPGlearning.py。阶段一（固定目标）：目标点固定为[0.2, 0.2]（归一化坐标），智能体学习如何调整关节角度使末端执行器抵达该点。阶段二（动态追踪）：成功抵达目标点的轮次进行随机重置目标点，智能体需适应新目标并持续追踪。监控输出：控制台不直接输出，但n_rn.txt文件会记录每回合的奖励统计，模型参数保存为.pkl文件。继续训练：可通过加载已保存的模型参数继续训练或测试。

人工智能