本项目基于Stable Diffusion v1.5模型开发,是一个功能强大的文生图与图生图综合模型。主要功能包括:
文生图:输入文本提示词,生成高质量图像(如"一只戴着太阳镜的猫坐在赛博朋克摩托车上")
图生图:基于输入图像+文本提示,生成修改后的图像
图像修复:对图像中指定区域进行智能修复和填充
可控扩散:通过ControlNet支持姿势图、边缘图、深度图等约束生成内容
人体细节优化:针对手、脸、姿势等人体细节进行专门优化,提升生成质量
模型基础:基于runwayml/stable-diffusion-v1-5官方模型(Stability AI和RunwayML合作开发,2022年底发布)
训练流程:
使用火影忍者数据集(1200条图像-描述对)进行微调训练
显存要求约22GB(需NVIDIA显卡)
通过SwanLab监控训练过程和评估模型效果
采用非LoRA方式的微调方法(基于SD1.5在火影忍者数据集上微调)
部署与使用:
通过阿里云PAI平台部署Stable Diffusion V1.5模型
启动WebUI应用进行模型测试和使用
支持阿里云百炼API调用(如调用stable-diffusion-v1.5模型API)
可集成ControlNet插件,实现更精确的图像生成控制
应用场景:
个性化角色/风格生成(如火影风格图像生成)
商业设计辅助(如Logo艺术字海报制作)
个性化图像创作与编辑
电商产品视觉展示生成