本项目旨在搭建一个基于大模型(LLM)的认知决策实验平台,支持单步或多步推理任务的可视化实验。平台能够模拟模型在噪声干扰下的决策过程,记录轨迹、Commit Time、敏感性指标等关键统计量,并生成可视化图表,如决策流形、H-Basin 稠密度图、轨迹重合图等。系统支持多种实验模式,可用于论文实验复现、模型解释性研究与决策动力学分析。核心功能包括参数配置、实验运行、日志记录、结果可视化和实验历史管理
平台整体采用前后端分离架构,前端基于 Vue + ECharts 实现参数配置界面与可视化模块,后端使用 Python(FastAPI)构建实验调度与计算核心。决策模拟器基于 LLM 推理代理,结合状态空间模型生成轨迹数据,并输出 Loss、Accuracy、Commit Time、敏感性等关键指标。在数据层面使用 Numpy / Pandas 完成轨迹解析,并通过 Matplotlib 绘制 Phase Portrait、H-Basin 密度图、噪声重合轨迹图等可视化结果。
我主要负责实验核心模块,包括轨迹生成、Commit Time 统计、噪声与干净轨迹重合度计算、敏感性曲线拟合等功能,并实现实验日志与结果文件的自动化生成。在实验中,我对轨迹数据进行了批量并行处理,使 300+ Trial 的计算时间下降约 40%。同时,为了保证图形解释性,我对 H-Basin 密度分布和决策流形展示进行了多次调优,使两类吸引子结构更加清晰。
遇到的主要难点是噪声条件下轨迹波动较大,导致 Commit Time 的统计出现偏移。我通过重新定义潜在 commit 点(latent t_c)并构建 Δt 分布图进行修正,最终使模型的 Trial accuracy 稳定在 88% 左右,Probe accuracy 达到 0.899,并成功得到可用于论文的全部可视化分析结果。