立项背景是品牌复购率仅12%,需精准识别高复购潜力用户以降低营销成本,目标是预测用户30天内复购概率。核心功能包括用户行为特征工程、复购预测模型训练、高价值用户分群;业务流程为从数据库提取用户消费、浏览、互动数据,清洗后构建特征,输入模型输出复购概率,按概率分群推送差异化营销活动。
整体采用“特征工程+集成学习”框架:用Pandas清洗10万条用户数据,构建“消费频率/客单价/互动时长”等28个特征;对比Logistic回归、随机森林、XGBoost,最终选择XGBoost模型(AUC=0.89);实现按复购概率分“高/中/低”三群,输出用户列表。我负责特征构建与模型调参,最终高潜力用户群的营销转化率提升21%,营销成本降低35%。难点是特征共线性问题,通过方差膨胀因子(VIF)筛选特征解决。