大模型训练与微调（1）

Rosen

2025-11-05

技术

LLM, Python

大模型微调之SFT/Pre-training/Preference Training/KTO/Multimodal

预训练 (Pre-training)

预训练是构建 LLM 的基础阶段，通常在海量无标签数据（如互联网文本、书籍、代码）上进行自监督学习。模型的目标是预测缺失的部分，例如在“掩码语言建模”中填补句子中的空白词，或在“因果语言建模”中预测下一个词。这阶段不需人工标注，依赖于计算资源（如 GPU 集群）和大规模数据来让模型学习语言的语法、语义、世界知识等基础表示。典型例子包括 BERT 的双向预训练或 GPT 的单向预训练。预训练后的模型具有强大的泛化能力，但输出往往缺乏针对性，因此需要后续微调。整个过程可能耗费数月时间和数亿美元成本。

指令监督微调 (Instruction Supervised Fine-Tuning, SFT)

指令监督微调是大型语言模型 (LLM) 训练过程中的一个关键步骤，通常发生在预训练之后。它使用带有明确“指令-响应”对的数据集，对预训练模型进行有监督的学习。具体来说，数据集包含用户指令（如“解释量子力学”）及其期望的正确响应，模型通过最小化预测响应与真实响应的差异来优化参数。这有助于模型更好地理解和遵循人类指令，提高其在对话、任务执行等方面的实用性。例如，OpenAI 的 GPT 系列模型就广泛使用 SFT 来使模型从“泛化文本生成”转向“指令驱动生成”。SFT 的优势是简单高效，但可能导致模型过度拟合特定数据集。

偏好训练 (Preference Training)****

RLHF

偏好训练，通常指基于人类反馈的强化学习 (RLHF, Reinforcement Learning from Human Feedback)，旨在使模型的输出更符合人类主观偏好（如更安全、更有帮助、更简洁）。过程分为三步：

首先收集人类对模型输出对的偏好标注（如 A 响应比 B 更好）；
然后训练一个“奖励模型”来模拟人类偏好；
最后使用强化学习（如 PPO 算法）优化主模型，使其最大化奖励分数。

这比单纯的监督微调更注重“对齐”（alignment），帮助模型避免有害输出。ChatGPT 的成功很大程度上归功于 RLHF。但它依赖大量人类标注，成本高，且可能引入偏见。

KTO (Kahneman-Tversky Optimization)

KTO 是 2024 年提出的一种新型偏好优化方法，由 Hugging Face 等研究者开发，灵感来源于行为经济学中的 Kahneman-Tversky 理论（前景理论）。与传统 RLHF 不同，KTO 不需要训练单独的奖励模型或进行强化学习，而是直接使用二元反馈（好/坏）在监督微调框架下优化模型。它通过调整损失函数，鼓励模型在“正面示例”上保持输出概率，同时在“负面示例”上降低概率，从而实现偏好对齐。KTO 的优势是计算效率更高（无需 RL 循环）、更易实现，且在小数据集上表现良好。目前，它被视为 RLHF 的轻量级替代方案，已集成到一些开源 LLM 训练管道中，如用于微调 Llama 模型。

多模态 (Multimodal)

多模态指 AI 模型能够同时处理和整合多种数据类型（模态），如文本、图像、音频、视频等，而不是局限于单一模态（如纯文本）。例如，一个多模态模型可以根据图像描述生成文字，或根据语音输入输出视觉内容。这通过“融合编码器”实现：每个模态有独立的嵌入层，然后在 Transformer 等架构中跨模态交互。代表性模型包括 CLIP（对比学习图像-文本）、DALL·E（文本生成图像）和 GPT-4V（视觉+文本）。多模态扩展了 AI 的应用场景，如自动驾驶（视觉+传感器数据）或医疗诊断（图像+报告），但挑战在于模态间对齐和计算开销。随着 2025 年的发展，多模态已成为 LLM 的主流趋势，推动“通用智能”向“多感官智能”演进。