着我们需要保持更高精度然而直以来人们通常会选择量化将连续值或多精度值转换为较低精度来节省计算资源。 旦结论成立GPU的设计和功能可能也需要相应调整因为传统上GPU的性能提升部分依赖于对低精度计算的优化。 正如艾伦AI研究所科学家所指出的 这是很长时间以来最重要的论文。它用强有力的证据表明我们正在达到量化的极限。论文得出的结论对整个领域以及GPU的未来有着广泛的影响。
与此同时研究得出了两个重要结论 如果量化是在
后训练阶段进行的那么更多的预 墨西哥电话号码库 训练数据最终可能反而有害; 在高BF和下代FP精度下进行预训练可能都是次优的设计选择; 这也引来OpenAI员工大赞特赞 将非常酷地看到如何SOTA量化方案mxfpPw≠Pkv≠Pa等推动前沿;在我看来将半的计算预算用于次大规模运行以检查模型是否适用于大模型是值得的。 提出精度感知Scaling Laws 上来研究就指出当前扩展的焦点主要放在了模型规模数据量上忽视了对精度的关注。 而事实上随着模型进步应用落地低精度量化正在成为新的范式。 深度学习正朝着更低精度的方向发展。当前的前沿模型如Llama-系列在BF中进行训练并且大家都在努力将预训练范式转移到FP甚至下代硬件将支持FP; 因此研究想要搞清 精度参数和数据之间的权衡是什么?它们在预训练和推理方面如何比较? 具体而言团队研究了在预训练和后训练 随着数据和参数的变化精度对损失的影响如何变化。 同时为了精确测量相关变化团队专门提出了精度感知precision-aware的Scaling Laws以预测和优化不同精度下的语言模型训练和推理。 先说结论。
下图展示了两个主要的实验结果 在
较低精度下训练模型例如INT和INT会导致较 有效的定位策略第 1 部分:差异化营销 高的损失; 在推理时使用较低精度会导致性能下降; 具体而言左侧图表展示了在不同精度下训练模型的效果。 其中纵轴表示最终的验证损失Val Loss横轴表示不同的模型规模Model Size从M到M参数。不同的颜色代表了不同的训练精度从INT到INT以及没有后训练量化No PTQ。 研究发现在较低精度下训练模型例如INT和INT会导致较高的损失而随着精度的提高损失会减少;同时随着模型规模的增加损失也会减少。 另外右侧图表展示了在不同精度下进行推理时的模型性能。 其中横轴表示了推理时的权重精度Final Val Loss。 结果显示在推理时使用较低精度例如INT和INT会导致性能下降即损失的增加;而随着精度的提高损失会逐渐减少接近没有进行后训练量化的模型性能。 上述发现也解释了为什么Llama-难以量化? 要知道Llama-发布后它因超T Token数据上的超大规模预训练而闻名不过人们后来发现Llama-低比特量化性能下降显著。 这可能正如研究提到的模型在预训练阶段看到的数据越多对量化的敏感性就越高。
与此同时研究还发现了 后训练量化PTQ即训练完成后对模 agb 目录 型进行量化引起的性能退化随着模型训练数据量的增加而增加。 换句话说在大量数据上训练的模型如果在推理时进行低精度的PTQ可能会导致性能显著下降。 接下来团队提出利用精度感知Scaling Laws来预测模型在不同精度下的性能并指出 在较低精度下进行训练可以减少模型的有效参数数量effective parameter count从而预测在低精度下训练和后训练量化产生的额外损失。 其中包含两个关键公式它们构成了个统的理论框架用于预测不同精度下训练和推理的性能。 训练后量化PTQ引起的损失退化预测公式 考虑训练精度的模型损失预测公式 统预训练与后训练的精度预测 BTW研究最终将后训练量化和预训练量化的影响统起来以此实现 预测在任何精度组合下的预训练和后训练损失 相关公式如下 同时为了验证预测的准确性研究对超过次预行拟合并在高达.亿参数训练了高达亿。