故事图像生成综述
1. 任务定义与研究背景 “故事图像生成”(Story-to-Image Generation)任务指的是:给定一段包含多个句子的自然语言故事,生成一系列连贯的图像来可视化该故事。与传统的单句描述生成单张图像的文本生成图像不同,故事图像生成面临着跨图一致性等独特挑战 ( StoryGAN: A Sequential Conditional GAN for Story Visualization ) ( [2211.13319] Make-A-Story: Visual Memory Conditioned Consistent Story Generation )。具体而言,在一个故事的多张图像中,需要保持主要角色的身份特征、服饰和背景场景的一致,同时根据情节发展进行变化。这与视频生成有所区别:故事可视化强调全局一致的场景和角色,而不是逐帧的连续运动 ( StoryGAN: A Sequential Conditional GAN for Story Visualization )。例如,在故事中人物会反复出现、场景会延续或变化,模型必须解析指代(如代词 he/she 所指的人物)并决定何时在帧间保持角色/背景一致,何时随剧情引入新元素 ( [2211.13319] Make-A-Story: Visual Memory Conditioned Consistent Story Generation )。这要求模型具备对文本剧情的深刻理解和跨图记忆能力。 ...