面向长上下文/序列建模评估,构建一个受控 lag-kernel 任务 benchmark,用于分析不同序列模型在不同依赖结构下的偏好区域。项目包含任务生成、模型训练、结果汇总、可视化分析、鲁棒性检查和论文投稿流程,目标是证明 aggregate score 会掩盖模型在不同 task neighborhood 上的结构化差异。目前ICML26CTB在投
负责从零实现一个机器学习 benchmark 实验 pipeline,包括受控任务生成、四类序列模型训练、自动化结果聚合、统计分析和论文图表生成。使用 Python/PyTorch 构建 1021 个 lag-kernel 序列回归任务,累计管理 12k+ 次训练结果,并通过 Pandas/Matplotlib 完成 family-level preference region、9-NN winner prediction、seed stability 和 fixed-LR sanity check 等分析。项目重点体现了实验工程、数据处理、可复现研究和模型评估能力。