今跃 自动评估基准的优劣势

优势:

一致性和可重复性:在同一个模型上运行相同的自动评估基准 10 次,测试结果也是相同的 (除非受到硬件或模型自身随机性的影响)。所以相同任务下,多个模型的测试排名结果是公正的。

低成本规模效益:目前自动评估基准是评估模型成本最低的方式之一。

易于理解:大部分自动化方式的评价指标理解起来都非常容易。 例如:精确匹配可以理解为生成文本跟参考文本是否完全一致;准确率可以理解为做出的选项有多大程度是正确的 (不过对于像 BLEU 或 ROUGE 这种评价方式,理解难度会稍微高一些)。

高质量测试集:许多自动评估基准的测试集都来自专家级生成数据集或现有的高质量数据集 (如 MMLU 或 MATH)。当然也不是说这些测试集就完美无瑕,例如 MMLU 就被发现存在一些解析错误以及事实谬误,所以后来出现了一批改进的数据集,如 MMLU-Pro 和 MMLU-Redux。

劣势:

复杂任务难以保证效果:自动评估基准通常在测试效果容易定义和评估的任务上表现良好 (如分类任务)。一旦任务比较复杂而且难以拆分为目标明确的子任务时,表现可能不及预期。 例如:测试模型的 “数学能力” 任务。具体是算术、还是逻辑、亦或是推演新数学概念的能力?所以出现了一些无需拆分为子任务的 通用性 评估方式,由此评估出的模型整体表现就是评估目标的 优良代理。

数据污染:网络上的数据一旦以纯文本的形式公开,那么由于数据爬虫,这些数据总归会出现在模型训练集中。所以在评估时很难保证模型真的没有见过测试集。

http://minhaas.com/xinwendongtai/45178.html

QQ咨询

QQ: