据 2020 年国际癌症研究机构(IARC)调查的最新数据显示,乳腺癌在全球女性癌症中的发病率为 24.2%,位居女性癌症的首位。在药物研发领域,利用预测模型对能够拮抗 ERα 活性的化合物进行筛选的方法受到广泛的关注,本文通过建立回归与分类预测模型,对化合物的生物活性和 ADMET 性质做多目标优化求解
针对问题一模型,对原始变量做了充分的预处理以及特征筛选,使得最终输出的关键特征向量不仅对目标变量有相对明显的影响,同时变量间还保持了一定的独立性,这对后面预测模型的建立有很大的帮助。
针对问题二模型,使用了多种不同的模型,并建立了合理的指标体系用于评价模型。分析了各模型在预测化合物活性 pIC50上的适用性,通过模型的比较,立足于问题本身对模型进行建立和优化。
针对问题三模型,对原始数据进行降维,降维过程中考虑到了输入数据的非线性问题,尽量保留了原始特征的细节信息。选取了多个模型进行求解,并建立了评价指标体系,通过对比选取了随机森林的预测结果作为最终预测,具有较好的准确率。
针对问题四模型,对于多约束、多目标问题,采用遗传算法进行模型优化,最终筛选得到符合题目条件的分子描述符的取值。