项目定位:以"网文自动生成"为题材,跑通 RAG+ 多 LLM Agent+ LLM-as-judge全链路的个人演示项目。核心目的不是做商业产品,而是通过 5 阶段持续迭代探索 LLM / Agent / Prompt 工程的能力边界,输出可迁移的产品判断,当前为完全完成整体迭代,部分功能待后续迭代。
技术栈:
- 后端:Python 3.12 + FastAPI+ LangChain+ LangGraph(状态机框架)+ DashScope(阿里云 LLM 服务,主力模型 Qwen-Plus + 向量模型 text-embedding-v3)+ DeepSeek-v4-pro+ ChromaDB(向量数据库)+ jieba(中文分词)+ Pydantic v2(结构化输出校验)
- 前端:Next.js 16(React 全栈框架)+ React 18 + TailwindCSS+ shadcn/ui(UI 组件库)
- 部署:阿里云 ECS(云服务器)+ Docker Compose+ Nginx+ PostgreSQL 16 + GitHub Actions(CI/CD 自动部署)
5 阶段迭代 + 核心发现:
1. v0.1(基线版):搭建完整流水线 — 把已有小说切成 27989 个文本片段(用 jieba 中文分词 + ChromaDB 向量库 / HNSW 向量索引算法),采用 BM25 关键词检索 + 向量语义检索的混合检索方案,由 LangGraph 状态机驱动写作任务循环
2. v0.2(评分框架):建立 5 维度的 LLM 评分体系(小说术语具体度 / 画面感 / 叙事连贯 / 修辞克制 / 章末留扣)+ 跨模型评审(用 deepseek-v4-pro 给 qwen-plus 写的内容打分,避免让 qwen 自评产生偏见)+ Pydantic 结构化输出 + 随机种子锁定让评分可复现,作为后续每次迭代的回归测试基线
3. v0.3(核心发现 · Prompt 工程天花板):
- 可拉动维度:小说术语具体度通过加风格参考片段 + 少样本示例,从 5 分提到 9 分
- 拉不动维度:反 AI 味(修辞克制维度)卡在 4-4.5 上不去——这是 LLM 的反射级问题(排比 / 升华 / 形容词堆叠是训练数据本身的写作习惯,无法靠 Prompt 层修正)
- 产品判断:单次 Prompt 优化触不到反射级问题,继续在 Prompt 上打磨不可能在有太大的效果提升,需要换路线
4. v0.4(人机协同编辑流):
- 不再追求"AI 自己写得更好",转向"AI 给评分定位问题段 + 用户手动改写 + 一键重评看分数提升"
- 实现章节编辑模式 + 问题段高亮面板 + 评分变化可视化(AI 初稿分 → 用户精修后分)
- 对齐商业 AI 写作工具的标准范式(Sudowrite / NovelCrafter / 番茄写作助手都是人机协同流,不是纯 AI 优化)
- 核心使用流程:用户看 AI 写的章节 + 评分标注 → 改 4-5 处违规段落 → 一键重评 → 反 AI 味维度从 4.5 涨到 6