如何评估不同 AI 语言模型的性能

AI攻略 2024-09-09

如何评估不同 AI 语言模型的性能

评估不同 AI 语言模型的性能是一项复杂而关键的任务。目前有多种方法和指标可用于评估。
常见的性能指标包括准确率，即模型正确预测的样本数与总样本数之比；精确度，在所有模型认为是正样本的样本中，实际为正样本的比例；召回率，在实际为正样本的样本中，被模型正确预测为正样本的比例；F1 值，精确度和召回率的调和平均值。
评估方法主要有留出法，将数据集划分为训练集和测试集，用训练集训练模型，用测试集评估模型性能；交叉验证，将数据集划分为 k 个互斥的子集，轮流使用 k - 1 个子集训练模型，剩下的一个子集评估模型性能。
影响模型性能的因素众多，主要包括数据质量，数据质量的高低直接影响到模型的训练效果；数据分布，数据分布的不均匀会导致模型在某些子集上的性能较差；模型复杂度，过高的模型复杂度可能导致过拟合，降低模型泛化能力；超参数设置，超参数的设置会影响模型的训练过程和最终性能；评估方法，不同的评估方法可能会得到不同的性能结果。

此外，纽约 AI 初创公司 Arthur 于 2023 年 8 月 17 日发布开源 AI 模型评估工具 Bench，用于比较生成文本模型的大型语言模型、提示和超参数。Arthur 同时推出了生成评估项目 GAP，旨在对 OpenAI、Anthropi 和 Meta 等 AI 领先企业提供的语言模型产品的优缺点进行排名。
为 OpenAI 和 Nvidia Corp. 等公司提供服务的人工智能训练数据提供商 Scale AI Inc. 在 2024 年 5 月 30 日发布了其首个 SEAL 排行榜的结果。这是一个新的前沿大型语言模型排名系统，它基于私有的、经过策划的和未开发的数据集，目的是对这些模型在生成式人工智能编码、指令跟踪、数学和多语言性等常见使用案例中的能力进行评级。SEAL 排行榜显示，OpenAI 的 GPT 系列 LLM 在其用于人工智能模型排名的四个初始领域中的三个领域排名第一，Anthropic PBC 广受欢迎的 Claude 3 Opus 在第四个领域排名第一。Google LLC 的 Gemini 模型也表现出色，在其中几个领域与 GPT 模型并列第一。
清华大学沈阳教授团队发布了《大语言模型综合性能评估报告》，从生成质量、使用与性能、安全与合规三个维度对大语言模型进行评估，并深入分析不同大语言模型之间的优劣，提供竞品对比，提供关于大语言模型的全面和客观的视角。「德睿智药」与广州生物岛科学家团队的合作论文开发出一项全面的基准测试流程，以评估各种 AI 大语言模型在生物医学数据挖掘上的性能。
综上所述，评估不同 AI 语言模型的性能需要综合考虑多种指标、方法和因素。

AI 语言模型性能评估的常见指标有哪些

AI 语言模型性能评估常见指标有很多。首先是准确率（Accuracy），它表示正确预测的数量占总预测数量的比例。例如在医疗检测中，真正例（TP）指模型正确地将患者的疾病状态预测为阳性（即患病）的情况；真负例（TN）指模型正确地将患者的疾病状态预测为阴性（即健康）的情况；假正例（FP）是误报，指模型错误地将健康的人预测为患病；假负例（FN）是漏报，指模型错误地将患病的人预测为健康。准确率的计算公式为 Accuracy=(TP+TN)/(TP+TN+FP+FN)。
还有精确率（Precision），它是正类别的预测正确率，计算方法为 Precision=TP/(TP+FP)。召回率（Recall）是正类别样本被正确预测的比例，计算公式为 Recall=TP/(TP+FN)。F1 分数是精确度和召回率的调和平均值，F1=2×Accuracy×Recall/(Accuracy+Recall)。
ROC 曲线描述了在不同分类阈值下真正例率（True Positive Rate，又称为召回率）和假正例率（False Positive Rate）之间的权衡关系。AUC 表示 ROC 曲线下的面积，取值范围在 0 到 1 之间，AUC 值越高，说明模型在不同分类阈值下的性能越好。
解释方差（Explained Variance）衡量模型预测值与实际值之间关系的密切程度，计算公式中 y 是观测值的真实目标变量，是模型预测的目标变量，该指标取值范围从 0 到 1，值越接近 1，表示模型的预测值与实际值之间的差异越小。
平均绝对误差（Mean Absolute Error, MAE）衡量模型预测值与实际值之间差异的平均大小，计算公式为 MAE= ，其中 n 是数据点的总数，是第 i 个观测值的真实目标变量，是第 i 个观测值的模型预测目标变量，MAE 指标的值越小越好。

AI 语言模型评估方法有哪些

AI 语言模型评估方法主要有留出法、交叉验证法和自助法。
留出法就是将数据集简单地一分为二，一部分作为训练集，另一部分作为测试集。需要注意训练 / 测试集都要分层采样，不然误差会非常大。而且单次使用留出法的估计结果往往不准确，一般需要多次估计，结果取这些次结果的均值。常见的分法一般是将大约 2/3 到 4/5 的样本用于训练，剩余的样本用于测试。另外，一般而言，测试集至少应含 30 个样例。
交叉验证法是直接将数据集划分为 k 个大小相似的互斥子集，并且每个子集的分布都要相似，然后分别取一个块为测试集，其余块为训练集进行 k 次训练和测试，最终返回的是其均值。为了凸显 k 取值的重要性，交叉验证法还被称为 k 折交叉验证。而且为了减小因为不同的划分而引入的差别，k 折交叉验证往往还需要取不同的划分进正在加载更多深度信息