一、语义表示的基本概念与方法演进

1.1 语义表示的核心定义

语义表示旨在将文本(如单词、句子、文档)的含义编码成机器可存储和处理的形式,例如实值向量或经过良好训练的神经网络参数。这种表示使机器能够 " 理解 " 语言的意义,而不仅仅是处理表面符号。

1.2 从符号表示到分布式表示的演进

符号表示是早期的语义表示方法,其中最典型的是one-hot 编码:其维度等于词汇表大小,在对应词的索引位置赋值为 1,其他位置为 0。这种方法简单直观,无需训练,但存在维度高、矩阵稀疏、缺乏语义信息等明显局限性。

词袋表示(Bag-of-Words, BoW)将文本表示为单词的无序集合,忽略语法和词序但保留重复信息。核心思想是基于词频(或出现情况)表示文本,同时认识到不同词具有不同的重要性程度。这种方法仍然无法捕捉词的语义关系和上下文信息。

二、分布式表示与上下文相关表示

2.1 分布式假设与实现方法

分布式假设认为:一个词的含义由其经常共同出现的周围词给出。因此可以使用上下文向量来表示词的意义。

基于计数的方法构建词 - 词共现矩阵,然后使用奇异值分解(SVD)进行降维处理。这种方法产生的仍然是稀疏矩阵,但相比 one-hot 编码有了显著改进。

基于预测的方法以 Word2Vec 为代表,包含两种结构:

  • CBOW(连续词袋模型):根据上下文预测中心词

  • Skip-gram:预测中心词周围的上下文词,能学习更通用的词关系

2.2 词嵌入的局限性与发展

词嵌入技术可用于表示句子或文档,但存在几个关键局限性:

  • 缺乏上下文敏感性:为相同单词生成同一个嵌入

  • 未登录词问题(Out-of-Vocabulary, OOV):无法处理新词

  • 静态特性:一旦训练完成,无法动态更改

2.3 上下文化词表示的突破

上下文化词表示解决了上述问题,主要模型包括:

  • ELMo(来自语言模型的嵌入):使用深度双向 LSTM 网络,通过考虑整个句子结构创建上下文敏感的嵌入

  • BERT(编码器结构):使用 Transformer 编码器,能够学习双向上下文的表示

  • GPT(解码器结构):利用单向 Transformer 进行生成任务,专注于预测序列中的下一个词

  • T5/BART(编码器 - 解码器结构):结合了编码器和解码器的优势

BERT 的关键特性是能够学习双向上下文表示,通过两个预训练目标:

  1. 掩码语言模型(Masked Language Modeling, MLM):随机遮盖一些目标词让模型预测

  2. 下一个句子预测(Next Sentence Prediction, NSP):模型学习判断两句话是否是连续句子(效果较差)

BERT 使用 Transformer 的编码器部分,具有多头注意力机制和前馈神经网络结构,并加入位置编码来捕捉单词的顺序信息。

三、预训练技术的发展与分类

3.1 词级别预训练

自回归模型:如 Transformer 解码器,预测下一个单词。模型在每个时间步仅依赖过去的单词(因果语言模型)。

掩码语言模型(MLM):如 BERT,遮盖句子中的一些单词,让模型预测被遮盖的单词(自编码方式)。

去噪语言模型:模型通过多种方式扰乱输入(如遮盖、删除、打乱单词等),然后恢复原始输入。包括词掩码、文本填充、词删除和词排列等技术。

3.2 句子级别预训练

使用特殊标记:

  • [CLS] 标记:特殊的分类标记,用于表示整个输入序列的全局含义

  • [SEP] 标记:用于分隔两个不同的句子,帮助模型理解句子之间的边界

句子级别预训练任务包括:

  • BERT 的下一个句子预测(NSP):训练模型判断一个句子是否逻辑上跟随另一个句子,有助于理解句子间的连贯性

  • ALBERT 的句子顺序预测(SOP):随机交换两句相邻的句子,让模型预测正确顺序,增强对句子关系和全局上下文的理解

四、信息检索技术与评估指标

4.1 信息检索定义与目标

信息检索(IR)在计算和信息科学中是识别和检索与信息需求相关的信息系统资源的任务。目标是找到与用户兴趣相关的信息。

4.2 检索评估指标

P@k(前 k 准确率):Top k 结果中相关文档的数量/k。如前 10 个检索结果中有 6 个相关文档,则 P@10=0.6

R@k(前 k 召回率):Top k 结果中相关文档的数量/总相关文档数量。如有 8 个总相关文档,在前 10 个结果中找到 5 个,则 R@10=0.625

F1 分数:精确率和召回率的调和平均值,计算公式为:2×P×R/(P+R)

MRR(平均倒数排名):Reciprocal Rank(RR)=1/k,MRR=(∑(Q_i=1) 1/Ki)/Q,其中 Q 是查询数量,ki 是第 i 个查询中第一个相关文档的排名

nDCG(归一化折损累积增益):DCG=∑(n_i=1)(ri/log₂(i+1)),其中 ri 是第 i 个位置上的文档相关性得分。IDCG 计算所有相关文档的理想排序的 DCG 分数。nDCG=DCG/IDCG

4.3 稀疏检索与稠密检索

稀疏检索使用稀疏向量(如 One-Hot 编码),向量中大部分元素为零。使用倒排索引,将查询中的词映射到文档 ID 和词位置信息。

优点:基于关键词的搜索效果好,可解释性强,实现简单

缺点:可能难以处理语义理解和上下文,严重依赖精确术语匹配

稠密检索使用稠密向量(元素是连续值),通常通过词嵌入(如 Word2Vec、BERT)或神经网络模型生成。使用向量数据库,支持基于余弦相似度或欧几里得距离的相似性搜索。

优点:能够捕捉单词和句子的语义含义和上下文,允许更细致和灵活的搜索

缺点:需要更复杂的基础设施,计算量可能较大

4.4 TF-IDF 与 BM25 算法

TF-IDF(词频 - 逆文档频率): $$\mathrm{TF}(t,d)=\frac{\text{count}(t,d)}{|d|}$$

  • TF(t,d)=词 t 在文档 d 中出现的次数/文档 d 中的总词数(衡量词在文档中的出现频率)

    $$\mathrm{IDF}(t,\mathcal{D})=\log!\left(\frac{|\mathcal{D}|}{|{d\in \mathcal{D}:t\in d}|}\right)$$

  • IDF(t,D)=log(总文档数/包含词 t 的文档数)(衡量词在整个语料库中的独特程度)

    $$\mathrm{TF-IDF}(t,d,\mathcal{D})=\mathrm{TF}(t,d)\times \mathrm{IDF}(t,\mathcal{D})$$

  • TF-IDF 赋予那些在特定文档中出现频繁但在整个语料库中较少出现的词更高权重。TF-IDF 侧重于长文档,但长文档可能人为提高与查询的相似性得分,因为它们包含更多术语,即使内容相关性不高,重叠机会也增加。

BM25引入了文档长度归一化来解决这个问题,调整词项权重以确保更公平的比较。公式为: $$\mathrm{BM25}(D,Q)=\sum_{t\in Q}\mathrm{IDF}(t)\cdot \frac{f(t,D)\cdot (k_1+1)}{f(t,D)+k_1\left(1-b+b\cdot \frac{|D|}{\mathrm{avgdl}}\right)}$$

其中 f 计算频率,|D|是文档 D 的长度,avgdl 是语料库中文档的平均长度,k₁和 b 是超参数。TFIDF 和 BM25 都属于稀疏检索方法。

4.5 双编码器与交叉编码器

双编码器(Bi-Encoder)使用两个单独的 Transformer 编码器:一个编码查询,另一个编码文档。使用余弦相似度衡量查询和文档之间的相似性。

优点:允许预计算和高效检索

缺点:可能缺乏查询和文档之间的详细交互

交叉编码器(Cross-Encoder)使用单一 Transformer 模型,同时编码查询和文档。查询和文档作为输入一起传入 Transformer,计算相关性得分。

优点:捕捉复杂关系,准确性更高

缺点:计算更密集,不适合预计算

4.6 两阶段检索架构

两阶段架构结合了双编码器和交叉编码器的优势:

  1. 第一阶段:使用双编码器(或 BM25)进行初始检索。此阶段独立处理查询和文档,检索一组候选相关文档。高效且可扩展,能够从大型集合中快速选择。

  2. 第二阶段:使用交叉编码器对第一阶段的前几名候选进行重新排序,通过一起处理查询和文档,计算相关性得分以获得更准确的排名。此阶段计算密集但提供更高的精确度。

五、知识表示与推理

5.1 符号化与子符号化知识表示

符号化知识表示通过符号和它们之间的关系显式表示知识,使用逻辑和规则传达意义。例如知识图谱、逻辑系统、专家系统。

优点:高度可解释

缺点:难以处理复杂问题,需要手动创建规则,灵活性较差

子符号化知识表示通过分布式模式或权重隐式表示知识,通常在神经网络中使用。例如神经网络和深度学习模型。

优点:能够处理复杂任务,更灵活和适应性强

缺点:难以解释

5.2 知识图谱嵌入

知识图谱嵌入(KGE),也称为知识表示学习(KRL)或多关系学习,是学习知识图谱实体和关系的低维表示的机器学习任务,同时保留其语义信息。

TransE是常见的 KGE 算法,将 KG 中的实体和关系嵌入到连续向量空间中。三元组包括头节点 (h)、关系 (r)、尾节点 (t)。例如<奥克兰, 位于, 新西兰>。

核心思想:头嵌入 + 关系嵌入=尾嵌入

5.3 融合知识的预训练模型

ERNIE是百度开发的预训练语言模型,通过融入大规模知识图谱中的结构化知识,改进了 BERT 等传统语言模型。

KnowGPT:当面对需要训练语料库未涵盖的领域特定或专业特定知识的问题时,大型语言模型(LLM)常常给出不准确或错误的响应。KnowGPT 利用深度强化学习(RL)从知识图谱(KG)中提取相关知识,并为每个问题构建最合适的提示。

六、问答系统与技术

6.1 机器阅读理解

机器阅读理解(MRC)任务是理解一段文本并回答关于该内容的问题。答案通常是从文本中抽取的一个短语,目标是识别答案在给定段落中的起始位置和结束位置。

基于 BERT 的 MRC 实现方法

  1. 输入结构:问题和段落与 [CLS] 在开头和 [SEP] 在它们之间连接,帮助 BERT 理解它们的关系

  2. 自注意力:BERT 的自注意力一起处理问题和段落词元,允许跨输入的上下文理解

  3. 跨度预测:模型预测段落中答案的起始和结束位置

  4. 训练目标:损失函数最大化正确起始和结束位置的概率,指导模型准确定位答案跨度

6.2 开放域问答

开放域问答涉及从大型文档集合中寻找答案,而不是仅从一段文本中。系统需要高效地从庞大的语料库中检索相关内容,然后从中推导出正确答案。

检索 - 阅读器框架

  • 检索器:输入一个问题 Q 和一个包含大量文档的集合 D(例如 6 百万个文档)。检索器从这些文档中挑选出 k 个最相关的段落(通常 k 是预定义的,比如 k=100)。这是典型的信息检索(IR)问题,可以使用 TF-IDF、BM25 或稠密段落检索方法实现。

  • 阅读器:输入问题 Q 和检索到的 k 个段落{P1,…,Pk}。阅读器通过理解这些段落的内容,从中找出具体的答案 A。这类似于机器阅读理解(MRC)任务,通常使用在 SQuAD 等数据集上训练的 MRC 模型。

七、文本生成与摘要技术

7.1 语言模型基础

N-gram(统计语言模型):统计语言模型中的 N-gram 是 n 个连续词的序列,用于基于前 n-1 个词预测句子中下一个词的概率。

基于 LLM 的生成:LLM 的通用语言理解和生成能力是通过在大量文本数据上训练数十亿模型参数获得的,如缩放定律所预测。

使用 LLM 的 NLG 方法:提示方法、微调方法

7.2 文本摘要类型与技术

文本摘要是创建较长文本文档的简洁、准确和连贯摘要的过程。它涉及压缩基本信息以节省时间、辅助研究并提高信息消费效率。

提取式方法:使用原始文本中现有的词、短语和句子

抽象式方法:首先构建内部语义表示,然后使用自然语言生成技术创建摘要。这样的摘要可能包含原始文档中未明确出现的词。

7.3 摘要评估指标

BLEU(双语评估替补):BLEU 是一种用于评估机器翻译质量的 n-gram 精确度度量。它通过比较生成文本和参考文本之间的 n-gram 重叠程度来判断生成文本的准确性。

原理:n-gram 精确度:BLEU 计算生成文本中与参考文本匹配的 n-grams 比例。常用 n-gram 包括 unigram(单个词)和 higher-order n-grams(如 bi-grams, tri-grams)。

惩罚机制:BLEU 使用简短惩罚(Brevity Penalty, BP),如果生成的句子比参考句子短,则分数会被降低。这是为了防止生成系统通过生成简短句子而获取较高分数。

$$\text{BLEU} = \text{BP} \times \exp\left(\sum_{n=1}^{N} w_n \log P_n\right)$$

其中 Pn 是第 n 阶 n-gram 的精确度,BP 是简短惩罚,适用于生成的句子比参考文本短的情况。

简短惩罚:BP=1(如果 lc>ls)否则=e^(1-ls/lc),其中 lc 是参考文本的总长度,ls 是生成文本的总长度。

ROUGE-N(面向回忆的摘要评估替补):ROUGE-N 是一种基于 n-gram 的召回率度量,用于衡量生成文本与参考文本的相似度。它主要衡量生成文本能在多大程度上覆盖参考文本的内容。

计算生成文本和参考文本之间的 n-gram 重叠次数,并将其除以参考文本中 n-grams 的总数量,从而计算召回率。

$$\text{ROUGE-N} = \frac{\sum_{S \in \text{Reference Texts}} \sum_{\text{n-gram} \in S} \text{Match}(\text{n-gram})}{\sum_{S \in \text{Reference Texts}} \sum_{\text{n-gram} \in S} \text{Count}(\text{n-gram})}$$

其中:Match(n-gram) 是候选文本和参考文本中匹配的 n-grams 数量,Count(n-gram) 是参考文本中 n-grams 的总数量。

ROUGE-N 更关注生成文本的覆盖率,适合用于评估摘要和生成文本的广度和涵盖范围。

7.4 基于 LLM 的摘要技术

LLM 摘要是使用 LLM 生成较长文本的简洁和信息丰富的摘要。这些模型利用先进的自然语言处理技术来理解源文档的内容,并生成捕获关键点和主要思想的精简版本。

7.5 查询聚焦摘要与结构化摘要

查询聚焦摘要是一种专门的摘要技术,生成针对特定用户查询或信息需求定制的摘要。与旨在提供文档或一组文档概述的通用摘要不同,查询聚焦摘要优先处理直接解决用户查询的信息。

可归因和可扩展观点摘要是一种无监督的观点摘要方法,将客户评论中的句子编码到分层离散潜在空间中,然后基于其编码频率识别常见观点。它能够通过解码这些频繁编码生成抽象摘要,并通过选择分配给相同频繁编码的句子生成提取摘要。这种方法可归因且可扩展。

分层索引 +RAG:用于检索增强观点摘要的分层索引(HIRO)使用分层索引识别信息性句子,然后将所选句子作为输入传递给 LLM,类似于检索增强生成(RAG)。

八、实际应用系统示例

8.1 SmartBook 系统介绍

SmartBook是一种 AI 辅助的情报报告生成工具,其目标是生成关于乌克兰战争等冲突的情报报告,帮助决策者理解动态事件。

与 ChatGPT 限制的比较:ChatGPT 无法提供实时信息,而 SmartBook 通过聚合来自多个来源的数据,能够生成及时、多源和可靠的答案。

组织结构:SmartBook 沿时间线组织内容,每个时间线包含相关章节。在每个章节内,有与相关知识元素链接的特定问题和答案。这种结构提供了清晰的事件时间顺序和逻辑顺序。

8.2 摘要类型与提示方法

通用(无条件)摘要:从源文档捕获要点或关键信息,没有任何特定焦点或对内容特定方面的条件限制。摘要旨在成为整个文档的广泛和一般概述。

查询聚焦(有条件)摘要:定制为回答特定查询或专注于文档的特定方面。它以查询为条件,意味着生成的摘要将强调与查询最相关的信息。

摘要的提示方法

  1. 用几句话总结 - 基本提示

  2. 段落 - 提示模板

  3. 页面 - 映射归约

  4. 整本书 - 最佳表示向量

  5. 未知数量的文本 - 代理

九、关键问题解答

9.1 词嵌入与 one-hot 表示的比较

词嵌入是一种语义表示方法,将词表示为连续向量空间中的稠密向量。

词嵌入相对于 one-hot 表示的优势

  • 降维:one-hot 向量稀疏且高维(每个词在词汇表中有一个维度),而词嵌入稠密且维度更低,计算效率更高

  • 语义相似性:与将每个词视为完全独立的 one-hot 向量不同,词嵌入编码词之间的语义关系。这使模型能够理解相似词(如 “king” 和 “queen”) 在嵌入空间中彼此接近

9.2 上下文化表示的优势

与词嵌入相比,上下文化表示的主要优势是能适应词在句子中的特定上下文,提供更准确的含义。与为词分配单个向量的静态词嵌入不同,上下文化表示根据词的使用情况生成不同的向量(例如 “bank” 作为金融机构与河 " 岸 “)。

9.3 BERT 与 T5 的适用性比较

对于生成任务,T5 比 BERT 更合适。BERT 使用掩码语言模型(MLM)训练:MLM 的主要目标是预测给定句子中缺失或被掩码的词。在训练期间,一定比例的输入词元被随机选择并替换为特殊的 “[MASK]” 词元。模型学习理解周围词的上下文,以准确预测被掩码的原始词。

总结

自然语言处理技术从简单的符号表示发展到复杂的上下文化表示,使机器对语言的理解能力显著提高。信息检索技术结合了传统稀疏方法和现代稠密方法,提供了高效且准确的检索能力。知识表示与推理技术将符号化方法的可解释性与子符号化方法的灵活性相结合,增强了模型处理复杂问题的能力。问答系统和文本生成技术的进步使机器能够更自然地与人类交互,生成高质量的内容摘要和回答复杂问题。这些技术的发展为构建更智能、更可靠的自然语言处理系统奠定了坚实基础。