立项背景
当前网文IP轻量化可视化需求激增,但传统小说转视频流程繁琐、门槛高,分镜、背景、字幕语音需专业操作且多工具协同,效率低下。现有AI工具多聚焦单一环节,缺乏全链路解决方案,且生成质量不稳定,无法满足高效创作需求,为此立项研发绘聚AI。
立项目标
1.打造全链路小说可视化工具,实现“上传小说即出视频”,大幅缩短制作周期;
2.提升AI生成精准度,解决语义偏差、质量不稳问题;
3.降低使用门槛,让普通用户无需专业技能即可完成创作;
4.适配多类型小说,支持个性化编辑,助力IP多元化传播。
整体软件功能
绘聚AI以“全流程自动化、精准化、便捷化”为核心,涵盖小说上传解析、自动分镜、背景生成、字幕语音拆分、视频合成导出五大核心功能,搭配辅助功能,实现文字到视频一站式转化。
核心功能模块介绍
四大核心模块协同联动,兼顾自动化与个性化编辑:
1.小说解析与自动分镜模块:解析小说信息,自动生成分镜脚本;
2.分镜背景图生成模块:联动分镜,自动生成适配风格的背景图;
3.字幕与语音生成模块:自动拆分子幕、合成贴合语气的语音;
4.视频合成模块:整合三大元素,自动合成视频。
整体业务流程
整体流程:用户添加小说→系统自动生成分镜→生成对应背景图→拆分字幕并合成语音→合成视频→用户导出视频,形成闭环创作流程。
详细功能路径描述
1. 初始路径:登录系统→配置添加小说;
2. 创建章节:创建任务添加章节内容;
3. 执行任务:自动生成分镜→自动生成背景→自动拆分合成语音和字幕→自动合成视频;
4. 视频导出。
整体采用前后端分离架构,设计思路以“自动化、轻量化、高适配”为核心,拆分前端交互层、后端服务层、AI算法层、数据存储层,各层独立部署、协同联动。技术栈如下:前端(Vue3+Element Plus,负责交互界面与操作流程);后端(go+python,负责接口开发与流程调度);分镜模块(NLP+多模态大模型,基于BERT微调,实现小说语义解析);背景图模块(Stable Diffusion,搭配自定义提示词工程);字幕语音模块(WhisperX分词幕、GPT-SoVITS合成语音);视频合成模块(FFmpeg,实现多元素整合同步);数据存储(MySQL+Redis,存储小说、分镜、视频等数据)。
该项目由我独立完成,全程负责从需求梳理、架构搭建、各模块开发优化,到全流程协同对接、测试调试及落地交付的所有工作,核心重点推进分镜生成模块,同时统筹完成其他模块的联动适配。量化结果:独立完成全项目核心代码开发与整合,优化小说语义解析模型,实现单章节(5000字内)分镜生成耗时≤30秒,解析准确率达97%;优化各模块间数据交互接口(含分镜与背景图模块),接口响应速度提升60%,全项目异常报错率降至0.8%以下;输出分镜脚本标准化,支撑视频合成模块高效对接,确保全流程自动化运行顺畅,顺利完成项目落地。
1. 难点:小说语义解析偏差,分镜易遗漏关键情节、人物动作。解决方案:新增10万+小说语料微调模型,增加情节、人物关键词权重,加入人工标注样本优化,解析准确率从78%提升至95%。
2. 难点:分镜与背景图风格不匹配,接口数据交互卡顿。解决方案:设计结构化提示词模板,让分镜模块向背景图模块传递场景、风格参数;优化接口调用逻辑,引入异步处理,卡顿率从35%降至5%以下。
3. 难点:长章节分镜生成碎片化,逻辑混乱。解决方案:加入章节情节脉络梳理算法,按场景转换拆分镜头,设置分镜数量阈值,长章节分镜逻辑连贯率提升88%。