在当今人工智能和计算机图形学迅猛发展的浪潮中,以大模型语言(Large language model, LLM)为核心的跨模态生成能力正深刻重塑内容创作生态。在文本到图像生成(Text-to-image generation,TTI)领域,基于预训练大模型的 AI 生成内容(AI Generated Content,AIGC)技术已实现从语义描述到视觉内容的端到端映射,展现出颠覆传统创作流程的巨大潜力。
然而,现有方法在生成高分辨率图像时面临显著挑战。传统扩散模型由于计算密集型架构,存在训练成本高昂、推理效率低下的问题,且其固定的渐进式放大机制难以适配复杂场景的动态需求。为突破分辨率限制,众多研究学者探索了多种扩展策略,但像 MultiDiffusion 通过并行扩散路径拼接实现分辨率扩展时,在生成以物体为中心的高分辨率图像易引发边界伪影与内容重复;Demofusion 尝试整合预训练 SDXL 模型的多尺度特征实现超分重建,却因固定步长的级联架构缺乏对图像内容复杂度的动态感知,导致简单区域过优化与复杂区域欠优化的资源错配问题。这些方法暴露出现有框架在跨尺度语义一致性保持与计算资源动态分配方面的根本性缺陷,超分辨率图像生成领域亟需一种能应对跨尺度语义保持与计算资源优化双重挑战的解决方案。
借助图像复杂度分析网络、动态上采样策略、语义引导机制和自适应特征融合,生成不同超分辨率图像。
采用动态上采样策略(DUS),基于复杂度热图动态分配计算资源,对复杂区域投入更多迭代步骤,同时采用重叠率 50% 的滑动窗口实现自适应分块处理,平衡计算效率与生成质量,减轻拼接伪影。
具备语义引导机制(SGM),通过全局和区域双层控制实现文本到图像的精确映射。全局层面融合用户提示与语义特征构建增强提示;区域层面根据描述自动应用细节增强、边缘锐化或质量提升策略,实现精确的局部控制。
基于该模型开发的交互式超分辨率图像生成系统,支持自然语言驱动,用户可通过自然语言指令和中间结果可视化调整局部细节,通过渐进式指令优化中间结果,显著提升生成过程的可控性,实现丰富的图像生成。
项目实现
我主要负责提出复杂度感知的动态超分辨率生成框架,该框架整合图像复杂度分析网络、动态上采样策略、语义引导机制和自适应特征融合等关键技术,以生成不同超分辨率图像。
设计动态上采样策略(DUS),先通过图像复杂度分析得到复杂度热图,再依据热图对复杂区域分配更多迭代步骤,采用特定重叠率的滑动窗口进行自适应分块处理。
构建语义引导机制(SGM),在全局层面融合用户提示与语义特征形成增强提示,在区域层面根据描述自动应用相应策略实现局部控制。
开发支持自然语言驱动的交互式超分生成原型系统,该系统允许用户通过渐进式指令优化中间结果,实现对生成过程的有效控制,提升超分辨率生成技术的实用化程度。通过实验验证了所提方法的有效性,展示了 FlexDiffusion 在复杂场景理解、多尺度细节重建等方面的出色表现。