技术 | Lurkerlin's Blog

故事图像生成综述

1. 任务定义与研究背景 “故事图像生成”（Story-to-Image Generation）任务指的是：给定一段包含多个句子的自然语言故事，生成一系列连贯的图像来可视化该故事。与传统的单句描述生成单张图像的文本生成图像不同，故事图像生成面临着跨图一致性等独特挑战 ( StoryGAN: A Sequential Conditional GAN for Story Visualization ) ( [2211.13319] Make-A-Story: Visual Memory Conditioned Consistent Story Generation )。具体而言，在一个故事的多张图像中，需要保持主要角色的身份特征、服饰和背景场景的一致，同时根据情节发展进行变化。这与视频生成有所区别：故事可视化强调全局一致的场景和角色，而不是逐帧的连续运动 ( StoryGAN: A Sequential Conditional GAN for Story Visualization )。例如，在故事中人物会反复出现、场景会延续或变化，模型必须解析指代（如代词 he/she 所指的人物）并决定何时在帧间保持角色/背景一致，何时随剧情引入新元素 ( [2211.13319] Make-A-Story: Visual Memory Conditioned Consistent Story Generation )。这要求模型具备对文本剧情的深刻理解和跨图记忆能力。 ...

CLIP图文对比预训练

CLIP（Contrastive Language-Image Pretraining） CLIP 由 OpenAI 开发，是一个多模态（文本 + 图像）预训练模型，可以理解图像和文本之间的关联。它的核心思想是通过对比学习（Contrastive Learning）让模型学习 “文本 - 图像” 之间的匹配关系。 ...

扩散模型

VAE 原理似然生成模型：给定一个数据集 $x_D$，训练使得模型最大化似然 $p_\phi(x_D)$。 1. ELBO 的定义和公式 VAE 的目标是对数据 $x$ 的分布 $p(x)$ 进行建模，但直接优化 $p(x)$ 通常不可行。通过引入潜变量 $z$，对对数边际似然 $\log p(x)$ 进行变分下界（ELBO）的近似： ...

自然语言处理

一、语义表示的基本概念与方法演进 1.1 语义表示的核心定义语义表示旨在将文本（如单词、句子、文档）的含义编码成机器可存储和处理的形式，例如实值向量或经过良好训练的神经网络参数。这种表示使机器能够 " 理解 " 语言的意义，而不仅仅是处理表面符号。 ...

深度学习理论

一、深度学习的理论支柱：逼近、优化与泛化深度学习不仅在应用领域取得巨大成功，其背后也有一套逐渐完善的理论体系支撑。该体系主要围绕三个核心问题展开：深度神经网络能够表示哪些函数（逼近理论）、如何有效优化神经网络参数（优化理论），以及训练好的模型为何能在新数据上表现良好（泛化理论）。 ...