1. 任务定义与研究背景

“故事图像生成”(Story-to-Image Generation)任务指的是:给定一段包含多个句子的自然语言故事,生成一系列连贯的图像来可视化该故事。与传统的单句描述生成单张图像的文本生成图像不同,故事图像生成面临着跨图一致性等独特挑战 ( StoryGAN: A Sequential Conditional GAN for Story Visualization ) ( [2211.13319] Make-A-Story: Visual Memory Conditioned Consistent Story Generation )。具体而言,在一个故事的多张图像中,需要保持主要角色的身份特征、服饰和背景场景的一致,同时根据情节发展进行变化。这与视频生成有所区别:故事可视化强调全局一致的场景和角色,而不是逐帧的连续运动 ( StoryGAN: A Sequential Conditional GAN for Story Visualization )。例如,在故事中人物会反复出现、场景会延续或变化,模型必须解析指代(如代词 he/she 所指的人物)并决定何时在帧间保持角色/背景一致,何时随剧情引入新元素 ( [2211.13319] Make-A-Story: Visual Memory Conditioned Consistent Story Generation )。这要求模型具备对文本剧情的深刻理解和跨图记忆能力。

故事图像生成任务具有重要的研究价值和应用前景。例如,它可用于数字故事书的自动绘制、漫画生成、影片分镜头草图等。然而,由于需要生成长序列的相关图文, 模型既要生成连贯的叙事文本(如有需要)又要生成符合情节的图像序列 ( [2407.08683] SEED-Story: Multimodal Long Story Generation with Large Language Model )。近年来,大规模预训练的文本生成模型和图像生成模型取得了显著进展,这为跨模态的故事生成打下基础 ( [2407.08683] SEED-Story: Multimodal Long Story Generation with Large Language Model )。早期视觉故事研究主要集中在 _ 视觉故事叙述 _(如给定图像序列生成故事文本,典型数据集如 VIST ( Visual Storytelling Dataset (VIST) Dataset - NLP Hub - Metatext.AI )),而故事可视化(Story Visualization)即我们讨论的故事图像生成,是相反方向、更具挑战性的任务 ( StoryGAN: A Sequential Conditional GAN for Story Visualization )。下面我们将梳理近年来该领域的方法进展。

2. 早期方法与基础模型

StoryGAN (Li 等, 2019) 是故事图像生成的开创性工作之一 ( StoryGAN: A Sequential Conditional GAN for Story Visualization )。它提出了一个序列条件生成对抗网络,用于将多句故事逐步生成图像序列,每句对应一张图。为保证生成的序列连贯,StoryGAN 引入了一个上下文编码器(基于循环神经网络)来在生成每张图像时融入之前的剧情上下文,以及两个判别器:图像级判别器保证每张生成图像的真实性,故事级判别器保证整段图像序列与故事语义的一致性 ( StoryGAN: A Sequential Conditional GAN for Story Visualization )。StoryGAN 在经过卡通动画(Pororo-SV) ( StoryGAN: A Sequential Conditional GAN for Story Visualization ) 和合成场景(CLEVR-SV)数据集的训练后,能够比逐帧独立生成的方法生成更连贯的图像序列 ( StoryGAN: A Sequential Conditional GAN for Story Visualization )。它证明了通过在模型中显式建模故事上下文,可以在一定程度上缓解跨图不一致的问题。

在 StoryGAN 之后,陆续有研究提出改进的 GAN 或 VAE 架构来提高故事图像生成的质量和一致性。例如,Yang 等人在增强故事语境建模的基础上,引入自适应上下文模块,根据当前句子的内容动态调整对历史的引用,从而提升长故事情节的连贯性 ( Boosting Consistency in Story Visualization with Rich-Contextual … )。还有工作采用集群判别或语义对齐的方法,通过聚类故事中的角色/物体语义,使同一角色在不同图像中的视觉外观更加一致 ( Clustering Generative Adversarial Networks for Story Visualization )。这些早期方法大多沿用“编码文本 ->逐帧生成图像”的两阶段流程,包括:先利用文本编码器提取每句故事描述的语义向量,再结合先前帧的隐变量或隐藏状态,由图像生成器输出当前帧图像,循环往复。由于生成对抗网络在保持长程一致性方面能力有限,这一时期的成果在图像质量和跨帧一致性上仍有较大提升空间。

值得一提的是,早期数据集限制了模型的表现。例如真实照片级的故事数据获取困难,研究者多使用合成或动画数据集来验证概念。随着这一任务受到关注,新的数据集(如 FlintstonesSV、PororoSV ( [2211.13319] Make-A-Story: Visual Memory Conditioned Consistent Story Generation ),以及之后提到的大规模 StorySalon、StoryStream 等)被构建,为更复杂的模型提供了训练和评测基础。

3. 基于扩散模型的故事生成方法

近两年,扩散模型(Diffusion Models)的兴起为故事图像生成带来了新的契机。扩散模型(如Stable Diffusion ( Intelligent Grimm - Open-ended Visual Storytelling via Latent Diffusion Models | OpenReview ))经过大规模图文预训练,能够生成高清且多样性的图像。直接将稳定扩散应用于故事情节,可采取每句描述分别生成图像的方法,但这样往往导致角色外观和场景在各帧之间不一致,无法形成连贯故事。为此,研究者探索了在扩散模型中注入跨帧条件约束的策略,以兼顾单帧质量和多帧一致。

一个代表性方向是构建自回归的扩散生成器。Wu 等人(2023)将预训练稳定扩散模型改造为顺序生成架构,提出了 StoryGen 模型 ( Intelligent Grimm - Open-ended Visual Storytelling via Latent Diffusion Models | OpenReview )。他们在扩散模型的噪声输入中引入前一帧图像隐表示,使模型在生成当前帧时以上一帧为条件,从而保证视觉连续性。此外,他们通过分阶段训练(首先迁移风格,其次引入上下文,再进行人类偏好对齐)来稳定多帧生成,使整个故事在画风和内容上更一致 ( Intelligent Grimm - Open-ended Visual Storytelling via Latent Diffusion Models | OpenReview )。实验表明,与传统单帧独立扩散生成相比,StoryGen 在图像内容和风格的一致性、以及图文对齐度上都有明显提升 ( Intelligent Grimm - Open-ended Visual Storytelling via Latent Diffusion Models | OpenReview )。

另一类方法引入显式的记忆模块来辅助扩散模型。Rahman 等人提出的 Make-A-Story (CVPR 2023) 利用了一个视觉记忆单元记录已生成帧的关键信息 ( [2211.13319] Make-A-Story: Visual Memory Conditioned Consistent Story Generation )。具体来说,在每次扩散采样生成图像时,都将上一时刻的角色和背景特征存入内存,并通过软注意力机制决定当前句子应重点参考哪些记忆,从而解决故事中的指代消解问题 ( [2211.13319] Make-A-Story: Visual Memory Conditioned Consistent Story Generation )。该方法在 MUGEN、PororoSV、FlintstonesSV 等数据集上的结果显示,借助记忆模块,生成的序列在角色身份连续性和背景持续性方面超过了早期 GAN 方法 ( [2211.13319] Make-A-Story: Visual Memory Conditioned Consistent Story Generation )。类似地,Wu 等(2024)的 StoryPainter 方法(亦称 Visual Memory Conditioned Diffusion)也采用了图像级的隐变量记忆,通过在扩散网络中对历史帧特征建模,增强了长序列故事生成的稳定性。

除了在模型结构中显式加入上下文,一些研究尝试通过条件控制技术提高跨帧一致性。例如,控制模型 ControlNet ( GitHub - HVision-NKU/StoryDiffusion: Accepted as [NeurIPS 2024] Spotlight Presentation Paper ) 可以将额外的条件(如草图、姿态骨架或边缘图)融入扩散过程。如果在故事的各帧使用相同角色的骨架序列或参考图作为条件,能够在一定程度上约束生成结果保持一致的造型和动作。然而,这类硬条件往往需要额外的信息,实际应用中获取不易。另外,还有个性化生成技术如 DreamBooth 可令扩散模型记忆特定人物的视觉特征,再在不同场景下生成该人物。结合 DreamBooth,对主要角色进行微调,可以改进同一角色在不同图像中的身份一致性 ( [2405.01434] StoryDiffusion: Consistent Self-Attention for Long-Range Image and Video Generation )。不过强引导也可能降低对新场景的多样性表达 ( [2405.01434] StoryDiffusion: Consistent Self-Attention for Long-Range Image and Video Generation )。

近期的一项创新是修改扩散模型内部的自注意力机制来实现跨帧约束。Zhou 等人提出 StoryDiffusion,设计了一种一致性自注意力(Consistent Self-Attention)计算方法 ( [2405.01434] StoryDiffusion: Consistent Self-Attention for Long-Range Image and Video Generation )。它在不改变扩散模型文本输入的情况下,调整生成过程中的注意力计算,使模型在长序列图像生成时倾向于产出主体一致的内容 ( [2405.01434] StoryDiffusion: Consistent Self-Attention for Long-Range Image and Video Generation )。该方法可无缝应用于预训练的 Stable Diffusion 模型,在零样本设置下大幅提升跨图像的一致性 ( [2405.01434] StoryDiffusion: Consistent Self-Attention for Long-Range Image and Video Generation )。例如,相较于仅用图像参考的 IP-Adapter 方法 ( [2405.01434] StoryDiffusion: Consistent Self-Attention for Long-Range Image and Video Generation ),StoryDiffusion 能在保持用户文本控制的同时,让不同帧中的角色身份和服饰高度统一 ( [2405.01434] StoryDiffusion: Consistent Self-Attention for Long-Range Image and Video Generation )。这一机制的巧妙之处在于不需要额外训练特定于故事的数据,即通过架构改动实现了多帧一致生成的新能力。

总体而言,基于扩散模型的方法很好地利用了预训练模型的强大图像合成能力,再通过加入历史信息(无论是通过自回归输入、记忆模块还是修改注意力)来保证故事连贯性。当下的扩散式模型已成为故事图像生成的主流选择,其生成的逼真度和多样性显著优于早期 GAN 模型 ( [2405.01434] StoryDiffusion: Consistent Self-Attention for Long-Range Image and Video Generation )。

4. 融合多模态大模型的生成方法

随着大语言模型(LLM)在跨模态理解与生成方面的突破,一些工作开始探索将多模态大模型与扩散模型结合,构建端到端的图文生成系统,以生成包含文本叙事和图像的完整故事 ( [2407.08683] SEED-Story: Multimodal Long Story Generation with Large Language Model ) ( [2407.08683] SEED-Story: Multimodal Long Story Generation with Large Language Model )。这类方法试图让模型同时产出故事文本和对应的图像,从而实现真正的“一站式”故事生成。代表性方法是腾讯 ARC 实验室提出的 SEED-Story ( [2407.08683] SEED-Story: Multimodal Long Story Generation with Large Language Model )。该模型基于一个多模态大型语言模型(如 Qwen-VL 等视觉 - 文本模型)的架构进行扩展。具体来说,SEED-Story 在多模态模型中引入了视觉标记序列:模型在生成文本 token 的同时,也可以生成图像的 token 序列,这些 token 经由特定训练的视觉解码器(类似 Stable Diffusion 的反向扩散模型)还原出图像 ( [2407.08683] SEED-Story: Multimodal Long Story Generation with Large Language Model )。通过这种设计,一个模型即可交替地产生故事段落文字和对应图像。值得注意的是,SEED-Story 的视觉生成部分经过特别设计,能保证跨帧的角色和风格一致 ( [2407.08683] SEED-Story: Multimodal Long Story Generation with Large Language Model )。例如,模型会为同一角色生成一致的视觉 tokens 表示,使得解码出的多个画面中角色形象保持不变 ( [2407.08683] SEED-Story: Multimodal Long Story Generation with Large Language Model )。同时,他们提出了 _ 多模态注意力汇聚机制 _ 来提升长故事生成的效率:当序列长度超出模型原始缓存长度时,通过将较早内容的注意力“汇聚”(sink)以释放计算资源,从而支持最多 25 段图文连续生成,而不会遗忘前文 ( [2407.08683] SEED-Story: Multimodal Long Story Generation with Large Language Model )。借助该机制,SEED-Story 成功生成了长度远超训练集的连贯故事(训练时仅 10 段,推理可达 25 段以上) ( [2407.08683] SEED-Story: Multimodal Long Story Generation with Large Language Model )。官方发布的StoryStream数据集和实验结果显示,在文本 - 图像对齐、一致性和长篇幅生成方面,该方法明显优于以往将文本和图像分开生成的管线 ( [2407.08683] SEED-Story: Multimodal Long Story Generation with Large Language Model )。

除了 SEED-Story 这样将图文统一建模的方案,还有一些方法利用 LLM 作为辅助模块来提升扩散模型的表现。DreamStory ( DreamStory: Open-Domain Story Visualization by LLM-Guided Multi-Subject Consistent Diffusion ) 即是一个将 LLM 融入故事可视化流程的范例:它使用 LLM 作为“故事导演”,先读懂完整故事文本,解析出其中涉及的主要角色和场景,为每一幕生成详细的场景描述和角色说明 ( DreamStory: Open-Domain Story Visualization by LLM-Guided Multi-Subject Consistent Diffusion )。接着,DreamStory 为每个主要角色生成一张肖像图(利用扩散模型,根据 LLM 给出的角色描述),这些肖像作为后续图像生成的参考锚点 ( DreamStory: Open-Domain Story Visualization by LLM-Guided Multi-Subject Consistent Diffusion )。最后,多主体一致扩散模型(带有遮蔽互注意机制)以文字描述和角色肖像为条件,逐帧生成故事各个场景的图像 ( DreamStory: Open-Domain Story Visualization by LLM-Guided Multi-Subject Consistent Diffusion )。这种两阶段策略有效确保了多个角色在不同场景中的外观一致,因为扩散模型在生成每帧时都参考了预先生成的标准肖像 ( DreamStory: Open-Domain Story Visualization by LLM-Guided Multi-Subject Consistent Diffusion )。类似地,Shen 等人提出的 StoryGPT-V 方法则利用预训练语言模型强大的推理与长程记忆能力,让 LLM 先行对故事文本中的代词、指代进行消歧和解析,然后指导扩散模型生成对应角色更精确的图像 ( StoryGPT-V: Large Language Models as Consistent Story Visualizers | OpenReview ) ( StoryGPT-V: Large Language Models as Consistent Story Visualizers | OpenReview )。他们通过在扩散模型的条件输入中对接 LLM 输出的隐藏表示,实现了 LLM 对图像生成的隐性引导,从而提高角色的准确性和一致性 ( StoryGPT-V: Large Language Models as Consistent Story Visualizers | OpenReview )。

总的来看,多模态大模型的引入为故事生成提供了新的范式。一方面,LLM 善于长文本生成和逻辑推理,弥补了纯图像模型在理解复杂剧情上的不足;另一方面,扩散模型保证了生成图像的细节和质量。当二者结合得当时,能够统一输出高质量文本和相应图像。在 ( [2407.08683] SEED-Story: Multimodal Long Story Generation with Large Language Model ) 的示例中,SEED-Story 从用户提供的故事开头文字和一张图像出发,生成了一个包含多幅插图的长篇故事,各插图风格统一、角色连贯,文本和图像情节紧密对应。这证明了融合模型在跨模态故事编排上的潜力。

( [2407.08683] SEED-Story: Multimodal Long Story Generation with Large Language Model ) 图 1:SEED-Story 模型生成的卡通故事片段示例 ( [2407.08683] SEED-Story: Multimodal Long Story Generation with Large Language Model )。该故事围绕小猴子 George 展开,各图为故事不同情节:可以看到主角 George 和狗狗等角色在多个画面中形象保持一致,整体画风统一。这体现了多模态大模型结合扩散生成在角色一致性故事连贯性上的效果。

5. 关键问题与挑战

综合上述研究,可以归纳出“故事图像生成”任务中需要解决的若干关键问题:

综上,故事图像生成需要在视觉一致文本匹配之间反复权衡,同时顾及长程记忆美学风格等多方面要求。这些问题相互交织,使该任务成为多模态生成领域极具挑战性的前沿课题。

6. 方法比较分析

近年来提出的主要故事图像生成方法在上述关键能力上的支持程度各不相同。我们综合几项代表性工作,进行如下对比:

方法年份模型类型角色一致性长故事支持风格控制多模态输出
StoryGAN ( StoryGAN: A Sequential Conditional GAN for Story Visualization )2019GAN+RNN 序列生成部分支持(隐含于上下文)限制(短序列 4-5 帧)否(固定于训练域)否(仅图像)
Make-A-Story ( [2211.13319] Make-A-Story: Visual Memory Conditioned Consistent Story Generation )2023扩散 (自回归 + 记忆)是(视觉记忆模块)一定程度(≤10 帧)部分(可限定画风)否(仅图像)
StoryGen ( Intelligent Grimm - Open-ended Visual Storytelling via Latent Diffusion Models )2024扩散 (自回归 + 两模块)是(参考前帧图像)是(训练大数据)是(训练涵盖风格迁移)
StoryDiffusion ( [2405.01434] StoryDiffusion: Consistent Self-Attention for Long-Range Image and Video Generation )2024扩散 (注意力改进)是(自注意力绑定)是(长序列零样本)部分(文本提示控制)否(仅图像)
DreamStory ( DreamStory: Open-Domain Story Visualization by LLM-Guided Multi-Subject Consistent Diffusion )2024LLM+ 扩散 (多阶段)是(肖像参考多主体)是(无明显长度上限)是(可通过描述调整)否(仅图像)
SEED-Story ( [2407.08683] SEED-Story: Multimodal Long Story Generation with Large Language Model )2024多模态 LLM 统一生成是(视觉 token 一致)是(≥25 帧)是(风格整体一致)是(文本 + 图像)

表格: 不同方法在关键能力上的支持情况对比。可以看出,早期 GAN 方法如 StoryGAN 缺乏对角色一致性和长序列的支持,而扩散模型结合各种机制后,在角色一致性和长故事生成上有明显改进。SEED-Story 作为统一多模态方法,独具文本和图像联合生成的能力,实现了真正的多模态输出。

需要说明的是,表中“风格控制”一列强调方法是否允许指定或改变整体画风。多数扩散模型由于预训练于多风格数据,具有一定风格灵活性,但只有在提示或模型设计中显式考虑风格的情况下才能精确控制。此外,“长故事支持”指模型在实验中能处理的故事长度,StoryDiffusion 虽未专门训练长序列但其机制天然适用于任意长度,而其他模型通常受训练集或架构限制。

7. 潜在创新空间和未来方向

尽管故事图像生成取得了显著进步,上述比较也表明现有方法在一些方面仍有提升空间。未来的研究可以从以下几个方向探索创新:

  • 引入结构化的叙事表示:当前模型多直接基于纯文本进行故事理解,缺乏对剧情结构的显式表示。未来可考虑构建故事脚本图谱或情节树状图,将故事中的事件、角色关系以图结构形式表示,并作为生成的指导。这种结构化叙事图谱有望帮助模型理清复杂剧情脉络,确保生成的图像序列在逻辑上更加合理一致。
  • 增强超长序列的记忆模块:面对超长故事(例如数十幅图像),模型需要更有效的长程记忆机制。可以探索分层记忆网络,例如在每章节结束时提炼摘要向量,或者借鉴 Transformer 的长序列优化(如 Sparse Attention、Memory Transformer 等)来保留更久远的上下文。这样模型在第 50 帧生成时仍能准确重现第 1 帧引入的伏笔。
  • 更精细的角色身份建模:角色一致性仍是核心难题之一。未来可结合人脸识别、人体姿态估计等预训练模型提供的高层特征,对生成过程施加约束。例如,引入一个识别模型实时检测生成图像中的角色身份,反馈给生成模型进行调整。此外,可以为主要角色引入独特向量表示或专属生成子模型(类似于多主体的子生成器),确保每个角色由特定参数去生成,避免混淆。
  • 用户可控的交互式生成:实际应用中,用户往往希望参与创作过程。例如在故事某一幕指定角色的服装或表情,或替换某帧的背景。未来系统应支持人机交互,允许用户通过简单的文字或草图指令调整生成结果。这可能需要开发实时的故事编辑模型,支持对中间帧的修改并传播影响后续帧,同时保持整体故事一致性不崩溃。
  • 多模态扩展:故事不仅可以是图文,还可能包括音频、视频等。未来或可将生成范围扩展到图像 + 文本 + 音频的多模态故事。如为每个场景生成背景音乐或解说声音,形成沉浸式的多媒体故事体验。这需要将现有的图文生成与音频生成结合,并确保各模态在时间轴上同步对应。
  • 评估指标与基准完善:最后,社区应建立更完善的评测标准和数据集。当前常用的 FID、IS、CLIP Score 等指标难以全面衡量故事生成质量 ( DreamStory: Open-Domain Story Visualization by LLM-Guided Multi-Subject Consistent Diffusion ) ( DreamStory: Open-Domain Story Visualization by LLM-Guided Multi-Subject Consistent Diffusion )。未来可能需要引入针对故事连贯性的度量(如角色跟踪准确率、事件一致性评分等)。同时,发布更多贴近现实应用的大规模故事图像数据集(如开放域的小说片段配图)将有助于训练更强健的模型,并客观比较不同方法的优劣。

8. 总结

故事图像生成作为多模态生成领域的新兴课题,近年涌现出大量创新方法。从早期基于 GAN 的探索,到借助扩散模型大幅提升生成质量,再到融合多模态大模型实现端到端生成,每一步进展都在逐步攻克故事可视化的难题。跨帧角色与场景一致性、长篇幅上下文依赖、图文配合默契,是这一任务区别于普通文本图像生成的关键挑战 ( StoryGAN: A Sequential Conditional GAN for Story Visualization ) ( [2211.13319] Make-A-Story: Visual Memory Conditioned Consistent Story Generation )。为此,研究者发展出上下文编码、记忆网络、跨图注意力等多种机制,并充分利用预训练模型的知识 ( [2405.01434] StoryDiffusion: Consistent Self-Attention for Long-Range Image and Video Generation ) ( [2407.08683] SEED-Story: Multimodal Long Story Generation with Large Language Model )。综述现有方法,我们看到跨模态协同正在成为主流趋势:让语言模型和图像生成模型各展所长,弥补单一模型的不足,联合完成复杂的故事生成。本领域仍处于快速发展阶段,未来的模型将在一致性、可控性和多样性上继续提升,并拓展更丰富的应用场景。我们期待在不久的将来,AI 能创作出情节引人入胜、画面栩栩如生的长篇故事,为人们带来全新的视觉阅读体验。

( DreamStory: Open-Domain Story Visualization by LLM-Guided Multi-Subject Consistent Diffusion ) 图 2:DreamStory 框架示意 ( DreamStory: Open-Domain Story Visualization by LLM-Guided Multi-Subject Consistent Diffusion ) ( DreamStory: Open-Domain Story Visualization by LLM-Guided Multi-Subject Consistent Diffusion )。首先,LLM 从输入的完整故事文本中解析出主要角色和场景,并为每个场景生成详细描述和涉及角色列表(绿色部分);然后为每个角色生成肖像图(蓝色部分);最后,多主体一致性的扩散模型生成各个场景画面,并可选地将图文序列合成为视频 ( DreamStory: Open-Domain Story Visualization by LLM-Guided Multi-Subject Consistent Diffusion ) ( DreamStory: Open-Domain Story Visualization by LLM-Guided Multi-Subject Consistent Diffusion )。该框架将复杂任务分解为模块,使生成的故事在角色一致和内容连贯方面效果显著。