大模型训练与微调(1)

大模型微调之SFT/Pre-training/Preference Training/KTO/Multimodal

预训练 (Pre-training)

预训练是构建 LLM 的基础阶段,通常在海量无标签数据(如互联网文本、书籍、代码)上进行自监督学习。模型的目标是预测缺失的部分,例如在“掩码语言建模”中填补句子中的空白词,或在“因果语言建模”中预测下一个词。这阶段不需人工标注,依赖于计算资源(如 GPU 集群)和大规模数据来让模型学习语言的语法、语义、世界知识等基础表示。典型例子包括 BERT 的双向预训练或 GPT 的单向预训练。预训练后的模型具有强大的泛化能力,但输出往往缺乏针对性,因此需要后续微调。整个过程可能耗费数月时间和数亿美元成本。

指令监督微调 (Instruction Supervised Fine-Tuning, SFT)

指令监督微调是大型语言模型 (LLM) 训练过程中的一个关键步骤,通常发生在预训练之后。它使用带有明确“指令-响应”对的数据集,对预训练模型进行有监督的学习。具体来说,数据集包含用户指令(如“解释量子力学”)及其期望的正确响应,模型通过最小化预测响应与真实响应的差异来优化参数。这有助于模型更好地理解和遵循人类指令,提高其在对话、任务执行等方面的实用性。例如,OpenAI 的 GPT 系列模型就广泛使用 SFT 来使模型从“泛化文本生成”转向“指令驱动生成”。SFT 的优势是简单高效,但可能导致模型过度拟合特定数据集。

偏好训练 (Preference Training)****

RLHF

偏好训练,通常指基于人类反馈的强化学习 (RLHF, Reinforcement Learning from Human Feedback),旨在使模型的输出更符合人类主观偏好(如更安全、更有帮助、更简洁)。过程分为三步:

  1. 首先收集人类对模型输出对的偏好标注(如 A 响应比 B 更好);
  2. 然后训练一个“奖励模型”来模拟人类偏好;
  3. 最后使用强化学习(如 PPO 算法)优化主模型,使其最大化奖励分数。

这比单纯的监督微调更注重“对齐”(alignment),帮助模型避免有害输出。ChatGPT 的成功很大程度上归功于 RLHF。但它依赖大量人类标注,成本高,且可能引入偏见。

KTO (Kahneman-Tversky Optimization)

KTO 是 2024 年提出的一种新型偏好优化方法,由 Hugging Face 等研究者开发,灵感来源于行为经济学中的 Kahneman-Tversky 理论(前景理论)。与传统 RLHF 不同,KTO 不需要训练单独的奖励模型或进行强化学习,而是直接使用二元反馈(好/坏)在监督微调框架下优化模型。它通过调整损失函数,鼓励模型在“正面示例”上保持输出概率,同时在“负面示例”上降低概率,从而实现偏好对齐。KTO 的优势是计算效率更高(无需 RL 循环)、更易实现,且在小数据集上表现良好。目前,它被视为 RLHF 的轻量级替代方案,已集成到一些开源 LLM 训练管道中,如用于微调 Llama 模型。

多模态 (Multimodal)

多模态指 AI 模型能够同时处理和整合多种数据类型(模态),如文本、图像、音频、视频等,而不是局限于单一模态(如纯文本)。例如,一个多模态模型可以根据图像描述生成文字,或根据语音输入输出视觉内容。这通过“融合编码器”实现:每个模态有独立的嵌入层,然后在 Transformer 等架构中跨模态交互。代表性模型包括 CLIP(对比学习图像-文本)、DALL·E(文本生成图像)和 GPT-4V(视觉+文本)。多模态扩展了 AI 的应用场景,如自动驾驶(视觉+传感器数据)或医疗诊断(图像+报告),但挑战在于模态间对齐和计算开销。随着 2025 年的发展,多模态已成为 LLM 的主流趋势,推动“通用智能”向“多感官智能”演进。