15天前活跃

海山

• UID:24076
综合评分 34
方向: 爬虫/脚本-爬虫/脚本
青岛市
800元/8h
1年经验
求职意愿:接单·不求职(15天前更新)

个人简介

熟练掌握Linux操作系统,具备Hadoop大数据处理框架的使用经验。 精通SQL语言,能够高效进行数据库设计与查询。 掌握Python和C语言编程,具备良好的编程基础和逻辑思维能力。 完成基于Hadoop的分布式数据处理实验,熟悉MapReduce编程模型

技能

核心技能:
其他技能: C++、Python
交流语言: 普通话( 母语水平 )
行业经验: 大数据

项目案例

小分子 HOMO-LUMO Gap 预测
1. 背景与目标 PCQM4Mv2 是一个基于图神经网络(GNN)的分子属性预测项目,旨在解决量子化学分子特性预测的挑战。该项目使用了 Open Graph Benchmark (OGB) 中的 PCQM4Mv2 数据集,这是一个大规模的量子化学分子数据集,包含约 400 万个分子的量子力学性质预测任务。 项目目标 : - 提供完整的工具链,从数据下载、预处理到模型训练和评估 - 实现基于 PyTorch Geometric (PyG) 和 Deep Graph Library (DGL) 的基线模型 - 为研究人员和开发者提供一个标准化的框架,用于开发和测试分子图神经网络模型 - 支持用户生成符合 OGB 竞赛要求的提交结果 2. 功能模块介绍 2.1 数据处理模块 - 数据下载 :从 OGB 官方服务器下载 PCQM4Mv2 数据集的 SDF 文件 - 数据验证 :使用 MD5 校验确保下载的数据完整性 - 数据提取 :解压缩 SDF 文件 - 图构建 :使用 RDKit 将分子的 SMILES 表示转换为图结构,包括原子特征和键特征 2.2 模型训练模块 - PyG 基线 :基于 PyTorch Geometric 实现的图神经网络模型 - DGL 基线 :基于 Deep Graph Library 实现的图神经网络模型(可选) - 训练配置 :支持自定义设备、批量大小、训练轮数等参数 - 模型保存 :自动保存最佳模型检查点 2.3 评估与提交模块 - 性能评估 :计算预测结果的平均绝对误差 (MAE) - 提交生成 :生成符合 OGB 竞赛要求的测试提交文件 - 结果可视化 :使用 TensorBoard 记录训练过程和性能指标 3. 功能路径描述 3.1 环境搭建与数据准备 1. 环境配置 : - 创建并激活 conda 环境 - 执行 install_rdkit.sh 安装 RDKit(分子处理库) - 执行 pip install -r requirements.txt 安装 Python 依赖 2. 数据下载与预处理 : - 下载 SDF 文件: python download_and_preprocess.py --root dataset/ --download-sdf --extract - 构建 OGB 数据集(图结构): python download_and_preprocess.py --root dataset/ --build (可能需要数小时) 3.2 数据集使用 - SMILES 操作演示 : python dataset_demo.py (仅使用 SMILES 表示的操作,快速运行) - 评估器演示 : pyth
医疗健康

工作经历

太平人寿青岛分公司
  
50-200人
实习专员
2025.06 - 2025.08
负责日常活动开展,数据统计报表制作等

教育经历

山东大学
2022.09 - 2026.06
数据科学与大数据技术
本科
相似推荐
吉林市
爬虫/脚本-爬虫/脚本
技能:C++、Python
长沙市
爬虫/脚本-爬虫/脚本
技能:Blender、Anime.js、Automake、JavaScript
忻州市
爬虫/脚本-爬虫/脚本
技能:Python
重庆市
测试-测试、爬虫/脚本-爬虫/脚本
技能:Java、Python、ActiveMQ、JMeter、Postman、Selenium IDE、LoadRunner、Oracle Database
长沙市
后端-C#、爬虫/脚本-爬虫/脚本
技能:C#、Angular、Vue
帮助文档   Copyright @ 2021-2024 程聚宝 | 浙ICP备2021014372号
人工客服