作者：京东物流李雪婷

本文为《大规模语言模型-从理论到实践》第五章有监督微调的学习笔记，在介绍基本内容的同时会补充一些扩展知识和案例来帮助大家更好地理解该章。

一、前言

大模型调整的历程经历了显著的演变，从最初的“预训练-微调”范式开始，模型首先在大规模无监督数据上进行预训练，然后在特定任务上通过有监督微调来优化性能。随着计算能力和数据集的扩展，模型规模迅速扩大，从数亿参数增长到数千亿参数，推动了如GPT-3等模型的出现，这些模型展示了在多任务环境中的优越性能。这种规模的增长也带来了少样本和零样本学习的能力，降低了对大规模标注数据的依赖。近年来，指令微调和对齐技术的引入使模型能够更好地理解和执行人类指令，同时确保输出符合人类价值观。多模态模型的兴起进一步拓宽了大模型的应用范围，使其能够处理文本、图像等多种数据类型。为应对大模型微调的计算开销，高效微调技术如参数高效微调（PEFT） 和低秩适应（LoRA） 被提出，允许在不修改大部分参数的情况下实现高效微调。这些发展反映了大模型在技术和应用上的持续进步，极大地推动了人工智能在各个领域的广泛应用。

什么是微调？

Fine-tuning 指在已经预训练好的大型语言模型基础上（一般称为“基座模型”），使用特定的数据集进行进一步的训练，让模型适应特定任务或领域。

智慧之锤｜如何通过有监督微调锻造大模型

二、提示学习和语境学习

1. 提示学习

步骤：

•基于模版添加提示：x ➡️ x'

•答案搜索：在答案空间总搜索得分最高输出

•基于规则进行输出映射

智慧之锤｜如何通过有监督微调锻造大模型

2. 语境学习

核心： 从类比中学习，不做参数更新，仅执行向前推理

缺点： 对性能敏感（模版、事例选择、排列顺序）

智慧之锤｜如何通过有监督微调锻造大模型

三、微调技术

全量微调 vs LoRA vs QLoRA

智慧之锤｜如何通过有监督微调锻造大模型

全量微调困境

1）参数量大： 计算量大、耗时长（计算资源和储存空间）

2）性能问题： 直接修改预训练模型所有参数会破坏模型原始性能；实时性应用效果差（微调会增加推理阶段的计算延迟）

3）存储需求大： 不论是参数，还是梯度过程都需要存储在GPU中，对GPU显存需求大；保存模型，对硬盘内存要求大

1. LoRA (Low-rank Adaptation)

智慧之锤｜如何通过有监督微调锻造大模型

前提假设： 参数更新主要在一个低维子空间，如果参数更新发生在高维空间，可能会导致重要信息遗漏和LoRA方法失效。 主要原理： 增加一个小网络（低阶矩阵分解），通过只对小网络进行更新的方式进行微调；保持原始模型参数不变；只训练额外增加的部分，节省模型优化的梯度和优化器状态的现存占用。 重要参数： 1）两个矩阵：B初始化为0，A是随机初始化矩阵，服从正态分布；这样设置新增的部分 ∆W = BA 对原始权重影响为0 2）两个核心参数：r和参数量正比，alpha是放缩系数，参数更新量∆W 会与 α/r 相乘后再与原本的模型参数相加

核心问题

1）为什么要初始化正态分布？

①确保初始梯度的有效传播：避免梯度消失或者爆炸

②提供足够的随机性：能够探索更广泛的参数空间，增加模型找到最优解的可能

③平衡训练初期的影响：对预训练权重的影响为0，避免破坏预训练模型初始性能

2）为什么一个初始化正态分布另一个初始化为0？

①如果全部为0，容易导致梯度缺失

②如果A和B全部正态，模型训练开始会有比较大偏移值∆W ，难以收敛

损失函数（回归）：通常是均方误差，使得W‘=BA和∆W越近越好

3）参数选择和模型效果的关系？

①QKVO应用：可以用到单个上，但是最好的效果是用到每一个参数矩阵上（当GPU比较大的时候，可以指定参数target_modules=[‘q_proj’ ,‘k_proj’, ‘v_proj’, ‘o_proj’, ‘gate_proj’, ‘up_proj’]），用小一点的秩。

②最优r的选择：不一定越多越好；初始一般r从8开始，tips是alpha设置成r的两倍（16），缩放因子scaling=alpha/r=2（权重远大，影响越大），scaling一是可以缩放更新幅度，确保低秩矩阵的更新对模型参数的影响在不同的 ( r ) 值下保持一致，其次可以稳定训练，通过调整更新幅度，避免因过大的更新导致模型不稳定。

（如下图：几个组合中，表现最好的是在qkvo都应用，同时r=2，此时应用层多，但是秩的选择却很低）

智慧之锤｜如何通过有监督微调锻造大模型

4）LoRA应用层的选择？

①全连接层：包含大量参数（减少需要微调的参数数量）；计算量大（低秩近似可以有效降低计算复杂度）

②注意力层：QKV对模型性能影响重大（低秩近似可以显著影响模型的表达能力）；投影矩阵包含大量参数（减少参数数量，降低计算和存储需求）

③嵌入层：高维向量来降低维度；提升训练效率

2. QLoRA（Quantized Low-Rank Adaptation）

核心原理： 在LoRA基础上，进一步减少forward中的现存占用，先将预训练模型量化到4-bit，再添加一组可学习的低秩适配器权重。 三种解决措施： 4-bit NormalFloat、双重量化、分页优化器。 量化定义： 降低模型计算复杂度和储存需求的技术，核心思想是将模型的权重和激活值从高精度表示转换为低精度表示，从而在减少计算和内存使用的同时尽量保持模型性能，分为权重量化（将模型权重从高精度表示转换为低精度表示）和激活量化（将模型激活值从高精度表示转换为低精度表示）。

解决措施

1）4-bit NormalFloat

①步骤：

•数据标准化：

•计算分位数：共需要2^4+1=17个分位数

•计算量化值

•数据映射：将标准化后的数据映射到最近的量化值

②缺点：数据缩放，分位数离散化每一步骤都导致了误差累积，且4-bit量化只能选择16个离散值之一，误差进一步增加

③优点：高效存储，数据压缩提高存储和传输效率

2）双重量化

①原理：两次量化，降低内存需求

②步骤：使用8-bit对初识量化结果进一步压缩，通过减少位宽来进一步减少储存空间同时保持数据准确性