故事图像生成综述

1. 任务定义与研究背景

“故事图像生成”（Story-to-Image Generation）任务指的是：给定一段包含多个句子的自然语言故事，生成一系列连贯的图像来可视化该故事。与传统的单句描述生成单张图像的文本生成图像不同，故事图像生成面临着跨图一致性等独特挑战 ( StoryGAN: A Sequential Conditional GAN for Story Visualization ) ( [2211.13319] Make-A-Story: Visual Memory Conditioned Consistent Story Generation )。具体而言，在一个故事的多张图像中，需要保持主要角色的身份特征、服饰和背景场景的一致，同时根据情节发展进行变化。这与视频生成有所区别：故事可视化强调全局一致的场景和角色，而不是逐帧的连续运动 ( StoryGAN: A Sequential Conditional GAN for Story Visualization )。例如，在故事中人物会反复出现、场景会延续或变化，模型必须解析指代（如代词 he/she 所指的人物）并决定何时在帧间保持角色/背景一致，何时随剧情引入新元素 ( [2211.13319] Make-A-Story: Visual Memory Conditioned Consistent Story Generation )。这要求模型具备对文本剧情的深刻理解和跨图记忆能力。

故事图像生成任务具有重要的研究价值和应用前景。例如，它可用于数字故事书的自动绘制、漫画生成、影片分镜头草图等。然而，由于需要生成长序列的相关图文, 模型既要生成连贯的叙事文本（如有需要）又要生成符合情节的图像序列 ( [2407.08683] SEED-Story: Multimodal Long Story Generation with Large Language Model )。近年来，大规模预训练的文本生成模型和图像生成模型取得了显著进展，这为跨模态的故事生成打下基础 ( [2407.08683] SEED-Story: Multimodal Long Story Generation with Large Language Model )。早期视觉故事研究主要集中在 _ 视觉故事叙述 _（如给定图像序列生成故事文本，典型数据集如 VIST ( Visual Storytelling Dataset (VIST) Dataset - NLP Hub - Metatext.AI )），而故事可视化（Story Visualization）即我们讨论的故事图像生成，是相反方向、更具挑战性的任务 ( StoryGAN: A Sequential Conditional GAN for Story Visualization )。下面我们将梳理近年来该领域的方法进展。

2. 早期方法与基础模型

StoryGAN (Li 等, 2019) 是故事图像生成的开创性工作之一 ( StoryGAN: A Sequential Conditional GAN for Story Visualization )。它提出了一个序列条件生成对抗网络，用于将多句故事逐步生成图像序列，每句对应一张图。为保证生成的序列连贯，StoryGAN 引入了一个上下文编码器（基于循环神经网络）来在生成每张图像时融入之前的剧情上下文，以及两个判别器：图像级判别器保证每张生成图像的真实性，故事级判别器保证整段图像序列与故事语义的一致性 ( StoryGAN: A Sequential Conditional GAN for Story Visualization )。StoryGAN 在经过卡通动画（Pororo-SV） ( StoryGAN: A Sequential Conditional GAN for Story Visualization ) 和合成场景（CLEVR-SV）数据集的训练后，能够比逐帧独立生成的方法生成更连贯的图像序列 ( StoryGAN: A Sequential Conditional GAN for Story Visualization )。它证明了通过在模型中显式建模故事上下文，可以在一定程度上缓解跨图不一致的问题。

在 StoryGAN 之后，陆续有研究提出改进的 GAN 或 VAE 架构来提高故事图像生成的质量和一致性。例如，Yang 等人在增强故事语境建模的基础上，引入自适应上下文模块，根据当前句子的内容动态调整对历史的引用，从而提升长故事情节的连贯性 ( Boosting Consistency in Story Visualization with Rich-Contextual … )。还有工作采用集群判别或语义对齐的方法，通过聚类故事中的角色/物体语义，使同一角色在不同图像中的视觉外观更加一致 ( Clustering Generative Adversarial Networks for Story Visualization )。这些早期方法大多沿用“编码文本 ->逐帧生成图像”的两阶段流程，包括：先利用文本编码器提取每句故事描述的语义向量，再结合先前帧的隐变量或隐藏状态，由图像生成器输出当前帧图像，循环往复。由于生成对抗网络在保持长程一致性方面能力有限，这一时期的成果在图像质量和跨帧一致性上仍有较大提升空间。

值得一提的是，早期数据集限制了模型的表现。例如真实照片级的故事数据获取困难，研究者多使用合成或动画数据集来验证概念。随着这一任务受到关注，新的数据集（如 FlintstonesSV、PororoSV ( [2211.13319] Make-A-Story: Visual Memory Conditioned Consistent Story Generation )，以及之后提到的大规模 StorySalon、StoryStream 等）被构建，为更复杂的模型提供了训练和评测基础。

3. 基于扩散模型的故事生成方法

近两年，扩散模型（Diffusion Models）的兴起为故事图像生成带来了新的契机。扩散模型（如Stable Diffusion ( Intelligent Grimm - Open-ended Visual Storytelling via Latent Diffusion Models | OpenReview )）经过大规模图文预训练，能够生成高清且多样性的图像。直接将稳定扩散应用于故事情节，可采取每句描述分别生成图像的方法，但这样往往导致角色外观和场景在各帧之间不一致，无法形成连贯故事。为此，研究者探索了在扩散模型中注入跨帧条件约束的策略，以兼顾单帧质量和多帧一致。

一个代表性方向是构建自回归的扩散生成器。Wu 等人（2023）将预训练稳定扩散模型改造为顺序生成架构，提出了 StoryGen 模型 ( Intelligent Grimm - Open-ended Visual Storytelling via Latent Diffusion Models | OpenReview )。他们在扩散模型的噪声输入中引入前一帧图像隐表示，使模型在生成当前帧时以上一帧为条件，从而保证视觉连续性。此外，他们通过分阶段训练（首先迁移风格，其次引入上下文，再进行人类偏好对齐）来稳定多帧生成，使整个故事在画风和内容上更一致 ( Intelligent Grimm - Open-ended Visual Storytelling via Latent Diffusion Models | OpenReview )。实验表明，与传统单帧独立扩散生成相比，StoryGen 在图像内容和风格的一致性、以及图文对齐度上都有明显提升 ( Intelligent Grimm - Open-ended Visual Storytelling via Latent Diffusion Models | OpenReview )。

另一类方法引入显式的记忆模块来辅助扩散模型。Rahman 等人提出的 Make-A-Story (CVPR 2023) 利用了一个视觉记忆单元记录已生成帧的关键信息 ( [2211.13319] Make-A-Story: Visual Memory Conditioned Consistent Story Generation )。具体来说，在每次扩散采样生成图像时，都将上一时刻的角色和背景特征存入内存，并通过软注意力机制决定当前句子应重点参考哪些记忆，从而解决故事中的指代消解问题 ( [2211.13319] Make-A-Story: Visual Memory Conditioned Consistent Story Generation )。该方法在 MUGEN、PororoSV、FlintstonesSV 等数据集上的结果显示，借助记忆模块，生成的序列在角色身份连续性和背景持续性方面超过了早期 GAN 方法 ( [2211.13319] Make-A-Story: Visual Memory Conditioned Consistent Story Generation )。类似地，Wu 等（2024）的 StoryPainter 方法（亦称 Visual Memory Conditioned Diffusion）也采用了图像级的隐变量记忆，通过在扩散网络中对历史帧特征建模，增强了长序列故事生成的稳定性。

除了在模型结构中显式加入上下文，一些研究尝试通过条件控制技术提高跨帧一致性。例如，控制模型 ControlNet ( GitHub - HVision-NKU/StoryDiffusion: Accepted as [NeurIPS 2024] Spotlight Presentation Paper ) 可以将额外的条件（如草图、姿态骨架或边缘图）融入扩散过程。如果在故事的各帧使用相同角色的骨架序列或参考图作为条件，能够在一定程度上约束生成结果保持一致的造型和动作。然而，这类硬条件往往需要额外的信息，实际应用中获取不易。另外，还有个性化生成技术如 DreamBooth 可令扩散模型记忆特定人物的视觉特征，再在不同场景下生成该人物。结合 DreamBooth，对主要角色进行微调，可以改进同一角色在不同图像中的身份一致性 ( [2405.01434] StoryDiffusion: Consistent Self-Attention for Long-Range Image and Video Generation )。不过强引导也可能降低对新场景的多样性表达 ( [2405.01434] StoryDiffusion: Consistent Self-Attention for Long-Range Image and Video Generation )。

近期的一项创新是修改扩散模型内部的自注意力机制来实现跨帧约束。Zhou 等人提出 StoryDiffusion，设计了一种一致性自注意力（Consistent Self-Attention）计算方法 ( [2405.01434] StoryDiffusion: Consistent Self-Attention for Long-Range Image and Video Generation )。它在不改变扩散模型文本输入的情况下，调整生成过程中的注意力计算，使模型在长序列图像生成时倾向于产出主体一致的内容 ( [2405.01434] StoryDiffusion: Consistent Self-Attention for Long-Range Image and Video Generation )。该方法可无缝应用于预训练的 Stable Diffusion 模型，在零样本设置下大幅提升跨图像的一致性 ( [2405.01434] StoryDiffusion: Consistent Self-Attention for Long-Range Image and Video Generation )。例如，相较于仅用图像参考的 IP-Adapter 方法 ( [2405.01434] StoryDiffusion: Consistent Self-Attention for Long-Range Image and Video Generation )，StoryDiffusion 能在保持用户文本控制的同时，让不同帧中的角色身份和服饰高度统一 ( [2405.01434] StoryDiffusion: Consistent Self-Attention for Long-Range Image and Video Generation )。这一机制的巧妙之处在于不需要额外训练特定于故事的数据，即通过架构改动实现了多帧一致生成的新能力。

总体而言，基于扩散模型的方法很好地利用了预训练模型的强大图像合成能力，再通过加入历史信息（无论是通过自回归输入、记忆模块还是修改注意力）来保证故事连贯性。当下的扩散式模型已成为故事图像生成的主流选择，其生成的逼真度和多样性显著优于早期 GAN 模型 ( [2405.01434] StoryDiffusion: Consistent Self-Attention for Long-Range Image and Video Generation )。

4. 融合多模态大模型的生成方法

随着大语言模型（LLM）在跨模态理解与生成方面的突破，一些工作开始探索将多模态大模型与扩散模型结合，构建端到端的图文生成系统，以生成包含文本叙事和图像的完整故事 ( [2407.08683] SEED-Story: Multimodal Long Story Generation with Large Language Model ) ( [2407.08683] SEED-Story: Multimodal Long Story Generation with Large Language Model )。这类方法试图让模型同时产出故事文本和对应的图像，从而实现真正的“一站式”故事生成。代表性方法是腾讯 ARC 实验室提出的 SEED-Story ( [2407.08683] SEED-Story: Multimodal Long Story Generation with Large Language Model )。该模型基于一个多模态大型语言模型（如 Qwen-VL 等视觉 - 文本模型）的架构进行扩展。具体来说，SEED-Story 在多模态模型中引入了视觉标记序列：模型在生成文本 token 的同时，也可以生成图像的 token 序列，这些 token 经由特定训练的视觉解码器（类似 Stable Diffusion 的反向扩散模型）还原出图像 ( [2407.08683] SEED-Story: Multimodal Long Story Generation with Large Language Model )。通过这种设计，一个模型即可交替地产生故事段落文字和对应图像。值得注意的是，SEED-Story 的视觉生成部分经过特别设计，能保证跨帧的角色和风格一致 ( [2407.08683] SEED-Story: Multimodal Long Story Generation with Large Language Model )。例如，模型会为同一角色生成一致的视觉 tokens 表示，使得解码出的多个画面中角色形象保持不变 ( [2407.08683] SEED-Story: Multimodal Long Story Generation with Large Language Model )。同时，他们提出了 _ 多模态注意力汇聚机制 _ 来提升长故事生成的效率：当序列长度超出模型原始缓存长度时，通过将较早内容的注意力“汇聚”（sink）以释放计算资源，从而支持最多 25 段图文连续生成，而不会遗忘前文 ( [2407.08683] SEED-Story: Multimodal Long Story Generation with Large Language Model )。借助该机制，SEED-Story 成功生成了长度远超训练集的连贯故事（训练时仅 10 段，推理可达 25 段以上） ( [2407.08683] SEED-Story: Multimodal Long Story Generation with Large Language Model )。官方发布的StoryStream数据集和实验结果显示，在文本 - 图像对齐、一致性和长篇幅生成方面，该方法明显优于以往将文本和图像分开生成的管线 ( [2407.08683] SEED-Story: Multimodal Long Story Generation with Large Language Model )。

除了 SEED-Story 这样将图文统一建模的方案，还有一些方法利用 LLM 作为辅助模块来提升扩散模型的表现。DreamStory ( DreamStory: Open-Domain Story Visualization by LLM-Guided Multi-Subject Consistent Diffusion ) 即是一个将 LLM 融入故事可视化流程的范例：它使用 LLM 作为“故事导演”，先读懂完整故事文本，解析出其中涉及的主要角色和场景，为每一幕生成详细的场景描述和角色说明 ( DreamStory: Open-Domain Story Visualization by LLM-Guided Multi-Subject Consistent Diffusion )。接着，DreamStory 为每个主要角色生成一张肖像图（利用扩散模型，根据 LLM 给出的角色描述），这些肖像作为后续图像生成的参考锚点 ( DreamStory: Open-Domain Story Visualization by LLM-Guided Multi-Subject Consistent Diffusion )。最后，多主体一致扩散模型（带有遮蔽互注意机制）以文字描述和角色肖像为条件，逐帧生成故事各个场景的图像 ( DreamStory: Open-Domain Story Visualization by LLM-Guided Multi-Subject Consistent Diffusion )。这种两阶段策略有效确保了多个角色在不同场景中的外观一致，因为扩散模型在生成每帧时都参考了预先生成的标准肖像 ( DreamStory: Open-Domain Story Visualization by LLM-Guided Multi-Subject Consistent Diffusion )。类似地，Shen 等人提出的 StoryGPT-V 方法则利用预训练语言模型强大的推理与长程记忆能力，让 LLM 先行对故事文本中的代词、指代进行消歧和解析，然后指导扩散模型生成对应角色更精确的图像 ( StoryGPT-V: Large Language Models as Consistent Story Visualizers | OpenReview ) ( StoryGPT-V: Large Language Models as Consistent Story Visualizers | OpenReview )。他们通过在扩散模型的条件输入中对接 LLM 输出的隐藏表示，实现了 LLM 对图像生成的隐性引导，从而提高角色的准确性和一致性 ( StoryGPT-V: Large Language Models as Consistent Story Visualizers | OpenReview )。

总的来看，多模态大模型的引入为故事生成提供了新的范式。一方面，LLM 善于长文本生成和逻辑推理，弥补了纯图像模型在理解复杂剧情上的不足；另一方面，扩散模型保证了生成图像的细节和质量。当二者结合得当时，能够统一输出高质量文本和相应图像。在 ( [2407.08683] SEED-Story: Multimodal Long Story Generation with Large Language Model ) 的示例中，SEED-Story 从用户提供的故事开头文字和一张图像出发，生成了一个包含多幅插图的长篇故事，各插图风格统一、角色连贯，文本和图像情节紧密对应。这证明了融合模型在跨模态故事编排上的潜力。

( [2407.08683] SEED-Story: Multimodal Long Story Generation with Large Language Model ) 图 1：SEED-Story 模型生成的卡通故事片段示例 ( [2407.08683] SEED-Story: Multimodal Long Story Generation with Large Language Model )。该故事围绕小猴子 George 展开，各图为故事不同情节：可以看到主角 George 和狗狗等角色在多个画面中形象保持一致，整体画风统一。这体现了多模态大模型结合扩散生成在角色一致性和故事连贯性上的效果。

5. 关键问题与挑战

综合上述研究，可以归纳出“故事图像生成”任务中需要解决的若干关键问题：

角色一致性建模：如何确保同一故事中的主要角色在不同图像里保持外观和身份的一致？这是故事视觉化的首要难题 ( StoryGAN: A Sequential Conditional GAN for Story Visualization ) ( [2211.13319] Make-A-Story: Visual Memory Conditioned Consistent Story Generation )。不同方法引入了不同机制：有的通过记忆模块存储角色特征 ( [2211.13319] Make-A-Story: Visual Memory Conditioned Consistent Story Generation )；有的对扩散模型的注意力进行约束，避免生成过程遗忘角色身份 ( [2405.01434] StoryDiffusion: Consistent Self-Attention for Long-Range Image and Video Generation )；还有的生成角色参考图像供后续帧参考 ( DreamStory: Open-Domain Story Visualization by LLM-Guided Multi-Subject Consistent Diffusion )。角色一致性不仅包括人物脸部，还涉及服装、发型乃至角色所持物品的延续 ( GitHub - RedAIGC/StoryMaker: StoryMaker: Towards consistent characters in text-to-image generation )。例如 StoryMaker 方法通过保持身份向量和人物属性，让模型连续生成包含同一角色的多个画面 ( GitHub - RedAIGC/StoryMaker: StoryMaker: Towards consistent characters in text-to-image generation )。角色一致性不足会导致观众难以将图像序列视为一个连贯故事。
图文对齐与内容相关性：每张生成的图像必须与对应的文本句子高度相关，准确体现剧情中的关键信息。这需要模型既理解文本，又正确绘制出描述的场景和动作。如果图文对不上，故事就失去叙事意义。为提升图文对齐，StoryGAN 等采用故事级判别器来评估整体序列的一致性 ( StoryGAN: A Sequential Conditional GAN for Story Visualization )；一些近期方法使用 CLIP 得分或文本图像嵌入相似度作为训练约束，鼓励生成结果贴合文本。此外，多模态模型（如 SEED-Story）通过让同一模型同时输出文本和图像，可天然保持语义同步。然而，在平衡对齐度和创造性细节上仍需注意：模型既要避免遗漏文本中的要素，也要防止添加文本未提及的多余内容 ( DreamStory: Open-Domain Story Visualization by LLM-Guided Multi-Subject Consistent Diffusion ) ( DreamStory: Open-Domain Story Visualization by LLM-Guided Multi-Subject Consistent Diffusion )。评价上，研究者常综合使用文本匹配指标和人工评价来衡量图文相关性。
长序列上下文保持：故事往往由较多的句子组成，如何让模型在生成后面的图像时仍然“记得”前面发生了什么？这涉及模型的长程依赖捕捉能力 ( [2407.08683] SEED-Story: Multimodal Long Story Generation with Large Language Model )。序列越长，早期情节和后期情节之间的关联就越多，例如主角在第一幕埋下的伏笔可能在第十幕才揭示。一些方法采用递归/自回归结构，将之前所有图像的信息压缩到隐藏状态传递 ( StoryGAN: A Sequential Conditional GAN for Story Visualization )。但随着序列增长，隐藏状态可能无法涵盖全部历史细节。为此，SEED-Story 的注意力汇聚机制提供了一种思路：通过特殊的注意力设计，让模型能够高效地将较早内容编码进较短的表示，以应对长篇故事 ( [2407.08683] SEED-Story: Multimodal Long Story Generation with Large Language Model )。此外，StoryImager 提出的全局上下文特征提取模块，直接从完整故事文本提取全局语义用于每帧生成 ( StoryImager: A Unified and Efficient Framework for Coherent Story Visualization and Completion )。未来或需引入类似 Transformer-XL 之类的长短期记忆融合架构，才能更好地胜任超长故事的生成。
跨图注意力与全局连贯：如何在模型内部实现对多帧图像间依存关系的建模，也是重要问题之一 ( StoryImager: A Unified and Efficient Framework for Coherent Story Visualization and Completion )。简单的逐帧生成易造成各图像割裂。为增强全局连贯性，近期方法在模型架构中加入了跨图像的注意力机制。例如，StoryImager 的帧 - 故事交叉注意力模块，将每一帧图像生成时的注意力分成“局部细节”和“全局语境”两部分：前者确保该帧细节逼真，后者保证与整个故事的语义一致 ( StoryImager: A Unified and Efficient Framework for Coherent Story Visualization and Completion )。又如 StoryDiffusion 的一致性自注意，本质上是在多帧生成时共享和交互部分注意力信息，使模型对不同帧的相关元素产生绑定，从而输出风格统一、内容连贯的序列 ( [2405.01434] StoryDiffusion: Consistent Self-Attention for Long-Range Image and Video Generation )。跨图注意力机制的引入提升了模型对全局故事的把控，但也增加了计算复杂度和训练难度，需要在效率和效果之间寻找平衡。
风格与节奏控制：在一些应用中，用户希望控制故事图像的视觉风格（例如卡通风、写实风）或叙事节奏（例如某段剧情用色昏暗体现紧张气氛）。普通文本描述往往不足以明确这些高层次属性，因此如何在生成过程中加入风格控制成为一大挑战。现有扩散模型可以通过提示词调整风格，但跨多帧时风格一致性也需保证。StoryGen 通过在训练中加入风格迁移阶段，使模型能在不同风格的预训练模型之间转换，从而统一一组图像的画风 ( Intelligent Grimm - Open-ended Visual Storytelling via Latent Diffusion Models | OpenReview )。另外，ControlNet 等条件模型若提供一致的风格参考图，也能在一定程度上锁定输出美学。但故事节奏（即情节发展速度和紧张缓和程度的感觉）目前主要依赖文本来体现，图像上则通过明暗色调或动态程度来传达，这方面的控制尚缺乏明确手段，是相对隐性的挑战。

综上，故事图像生成需要在视觉一致和文本匹配之间反复权衡，同时顾及长程记忆和美学风格等多方面要求。这些问题相互交织，使该任务成为多模态生成领域极具挑战性的前沿课题。

6. 方法比较分析

近年来提出的主要故事图像生成方法在上述关键能力上的支持程度各不相同。我们综合几项代表性工作，进行如下对比：

方法	年份	模型类型	角色一致性	长故事支持	风格控制	多模态输出
StoryGAN ( StoryGAN: A Sequential Conditional GAN for Story Visualization )	2019	GAN+RNN 序列生成	部分支持（隐含于上下文）	限制（短序列 4-5 帧）	否（固定于训练域）	否（仅图像）
Make-A-Story ( [2211.13319] Make-A-Story: Visual Memory Conditioned Consistent Story Generation )	2023	扩散 (自回归 + 记忆)	是（视觉记忆模块）	一定程度（≤10 帧）	部分（可限定画风）	否（仅图像）
StoryGen ( Intelligent Grimm - Open-ended Visual Storytelling via Latent Diffusion Models )	2024	扩散 (自回归 + 两模块)	是（参考前帧图像）	是（训练大数据）	是（训练涵盖风格迁移）
StoryDiffusion ( [2405.01434] StoryDiffusion: Consistent Self-Attention for Long-Range Image and Video Generation )	2024	扩散 (注意力改进)	是（自注意力绑定）	是（长序列零样本）	部分（文本提示控制）	否（仅图像）
DreamStory ( DreamStory: Open-Domain Story Visualization by LLM-Guided Multi-Subject Consistent Diffusion )	2024	LLM+ 扩散 (多阶段)	是（肖像参考多主体）	是（无明显长度上限）	是（可通过描述调整）	否（仅图像）
SEED-Story ( [2407.08683] SEED-Story: Multimodal Long Story Generation with Large Language Model )	2024	多模态 LLM 统一生成	是（视觉 token 一致）	是（≥25 帧）	是（风格整体一致）	是（文本 + 图像）

表格: 不同方法在关键能力上的支持情况对比。可以看出，早期 GAN 方法如 StoryGAN 缺乏对角色一致性和长序列的支持，而扩散模型结合各种机制后，在角色一致性和长故事生成上有明显改进。SEED-Story 作为统一多模态方法，独具文本和图像联合生成的能力，实现了真正的多模态输出。

需要说明的是，表中“风格控制”一列强调方法是否允许指定或改变整体画风。多数扩散模型由于预训练于多风格数据，具有一定风格灵活性，但只有在提示或模型设计中显式考虑风格的情况下才能精确控制。此外，“长故事支持”指模型在实验中能处理的故事长度，StoryDiffusion 虽未专门训练长序列但其机制天然适用于任意长度，而其他模型通常受训练集或架构限制。

7. 潜在创新空间和未来方向

尽管故事图像生成取得了显著进步，上述比较也表明现有方法在一些方面仍有提升空间。未来的研究可以从以下几个方向探索创新：

引入结构化的叙事表示：当前模型多直接基于纯文本进行故事理解，缺乏对剧情结构的显式表示。未来可考虑构建故事脚本图谱或情节树状图，将故事中的事件、角色关系以图结构形式表示，并作为生成的指导。这种结构化叙事图谱有望帮助模型理清复杂剧情脉络，确保生成的图像序列在逻辑上更加合理一致。
增强超长序列的记忆模块：面对超长故事（例如数十幅图像），模型需要更有效的长程记忆机制。可以探索分层记忆网络，例如在每章节结束时提炼摘要向量，或者借鉴 Transformer 的长序列优化（如 Sparse Attention、Memory Transformer 等）来保留更久远的上下文。这样模型在第 50 帧生成时仍能准确重现第 1 帧引入的伏笔。
更精细的角色身份建模：角色一致性仍是核心难题之一。未来可结合人脸识别、人体姿态估计等预训练模型提供的高层特征，对生成过程施加约束。例如，引入一个识别模型实时检测生成图像中的角色身份，反馈给生成模型进行调整。此外，可以为主要角色引入独特向量表示或专属生成子模型（类似于多主体的子生成器），确保每个角色由特定参数去生成，避免混淆。
用户可控的交互式生成：实际应用中，用户往往希望参与创作过程。例如在故事某一幕指定角色的服装或表情，或替换某帧的背景。未来系统应支持人机交互，允许用户通过简单的文字或草图指令调整生成结果。这可能需要开发实时的故事编辑模型，支持对中间帧的修改并传播影响后续帧，同时保持整体故事一致性不崩溃。
多模态扩展：故事不仅可以是图文，还可能包括音频、视频等。未来或可将生成范围扩展到图像 + 文本 + 音频的多模态故事。如为每个场景生成背景音乐或解说声音，形成沉浸式的多媒体故事体验。这需要将现有的图文生成与音频生成结合，并确保各模态在时间轴上同步对应。
评估指标与基准完善：最后，社区应建立更完善的评测标准和数据集。当前常用的 FID、IS、CLIP Score 等指标难以全面衡量故事生成质量 ( DreamStory: Open-Domain Story Visualization by LLM-Guided Multi-Subject Consistent Diffusion ) ( DreamStory: Open-Domain Story Visualization by LLM-Guided Multi-Subject Consistent Diffusion )。未来可能需要引入针对故事连贯性的度量（如角色跟踪准确率、事件一致性评分等）。同时，发布更多贴近现实应用的大规模故事图像数据集（如开放域的小说片段配图）将有助于训练更强健的模型，并客观比较不同方法的优劣。

8. 总结

故事图像生成作为多模态生成领域的新兴课题，近年涌现出大量创新方法。从早期基于 GAN 的探索，到借助扩散模型大幅提升生成质量，再到融合多模态大模型实现端到端生成，每一步进展都在逐步攻克故事可视化的难题。跨帧角色与场景一致性、长篇幅上下文依赖、图文配合默契，是这一任务区别于普通文本图像生成的关键挑战 ( StoryGAN: A Sequential Conditional GAN for Story Visualization ) ( [2211.13319] Make-A-Story: Visual Memory Conditioned Consistent Story Generation )。为此，研究者发展出上下文编码、记忆网络、跨图注意力等多种机制，并充分利用预训练模型的知识 ( [2405.01434] StoryDiffusion: Consistent Self-Attention for Long-Range Image and Video Generation ) ( [2407.08683] SEED-Story: Multimodal Long Story Generation with Large Language Model )。综述现有方法，我们看到跨模态协同正在成为主流趋势：让语言模型和图像生成模型各展所长，弥补单一模型的不足，联合完成复杂的故事生成。本领域仍处于快速发展阶段，未来的模型将在一致性、可控性和多样性上继续提升，并拓展更丰富的应用场景。我们期待在不久的将来，AI 能创作出情节引人入胜、画面栩栩如生的长篇故事，为人们带来全新的视觉阅读体验。

( DreamStory: Open-Domain Story Visualization by LLM-Guided Multi-Subject Consistent Diffusion ) 图 2：DreamStory 框架示意 ( DreamStory: Open-Domain Story Visualization by LLM-Guided Multi-Subject Consistent Diffusion ) ( DreamStory: Open-Domain Story Visualization by LLM-Guided Multi-Subject Consistent Diffusion )。首先，LLM 从输入的完整故事文本中解析出主要角色和场景，并为每个场景生成详细描述和涉及角色列表（绿色部分）；然后为每个角色生成肖像图（蓝色部分）；最后，多主体一致性的扩散模型生成各个场景画面，并可选地将图文序列合成为视频 ( DreamStory: Open-Domain Story Visualization by LLM-Guided Multi-Subject Consistent Diffusion ) ( DreamStory: Open-Domain Story Visualization by LLM-Guided Multi-Subject Consistent Diffusion )。该框架将复杂任务分解为模块，使生成的故事在角色一致和内容连贯方面效果显著。

1. 任务定义与研究背景#

2. 早期方法与基础模型#

3. 基于扩散模型的故事生成方法#

4. 融合多模态大模型的生成方法#

5. 关键问题与挑战#

6. 方法比较分析#

7. 潜在创新空间和未来方向#

8. 总结#