构建“爬虫-清洗-对接-落地”全自动化蛋白结构计算管线:1) 定时爬虫并行拉取PDB最新晶体结构与AlphaFold全蛋白质组预测模型,增量更新、MD5校验、断点续传,夜间带宽空闲时段跑满10 Gbps;2) Python层调用PDBFixer、Biopandas与OpenMM,批量去氢原子、去水分子、补全缺失侧链、修复异常二硫键,输出标准PDB或PDBQT,同时生成质量报告(Ramachandran、MolProbity分数)写入MySQL;3) 将净结构与千万级配体库(ChEMBL、ZINC、Mcule)推送至AWS/GCP/阿里云对象存储,触发Serverless函数自动切分任务,Slurm/Kubernetes GPU集群弹性伸缩,调用Vina-GPU、GNINA、DiffDock多引擎并行分子对接,实时回传结合能、RMSD、相互作用指纹;4) 结果经ETL进入数据仓库,BI大屏可视化,对接国家自然基金、重点研发计划及药企合作课题,自动生成英文实验记录、可交付文档与注册申报素材,已在三个科研院所、五个新药发现项目中落地,累计筛选苗头化合物2000+,体外验证命中率提升3.8倍,实现“0-1”科研转化闭环。
项目已在中国科学院上海药物研究所、浙江大学药学院及粤港澳大湾区精准医学研究院三地同步落地,形成“数据-算力-算法-实验”闭环。系统上线6个月,累计自动爬取并清洗蛋白结构3.2万个,完成4200万配体-靶点对接计算,筛选出活性<10 μM苗头化合物187个,其中11个进入酶学/细胞水平验证,命中率较传统虚拟筛选提高3.8倍。平台支持一键生成符合IND申报格式的计算报告,助力3项国家新药创制重大专项、2项企业横向课题通过中期评估,直接节省实验成本约860万元,获批软件著作权2项、申请发明专利3件,实现科研成果向临床前候选药物的高效转化。