这期我们一起来解码一项技能,快速看懂最新版的大模型的竞技场排行榜,熟悉对对主流的大模型竞技排名的三个基准测试方案,揭开大模型竞技场的神秘面纱。有了这项技能以后再看到新出大模型,不用再简单用“好”或者"不好",肤浅的评价了,可以直接把话题引到大模型的竞技场排行榜,看跑分排名如何,一种高级感油然而生,怎么有没有一点点心动。
新版的大模型的竞技场排名榜, 截至更新2023年11月
1.如何看懂竞技场排行榜
在上面的排行榜图中,可以看到主要有4列内容,分别是Model、Arean Elo rating、MT-bench(score)、MMLU。其中Model这一列比较好理解就是现在的主流模型(最新的模型GPT-4-Turbo),其余三列下面对应有数值,猜一下应该在每种测试基准上得到的分值。其中GPT-4-Turbo的模型,在每种标准是分值最高,这也符合我们主流没模型的标准。
但是其余三列测试标准给出的分值含义是什么? 到底是怎么计算出来的,以及对应的测试方案是什么?下面我们逐步来拆解。
ELO评级
2. 什么是ELO评级
首先来看测试基准的第一列(Arean Elo rating), 提取关键词 ELO。
ELO评级是一种在世界上非常流行的评级类型,例如国际象棋多年来一直使用ELO评级,而且它不仅仅是国际象棋,还像足球和乒乓球等许多其他游戏一样也使用ELO评级。
这里大模型用的基准Arean Elo是采用规则是:
3.我们详细聊一下Arean Elo rating的分值是怎么计算出来的
其实简单的理解就是,所有参与评分的模型都被赋予一个初始Elo评分,然后将这个模型和下一个模型对决计算出新的Elo评估,跟新这个模型的新的Elo评分,直到这个模型和所有的模型都进行对决碰撞过,得出最终Elo评分。
这里就引出来“对决”的过程是什么怎么计算的?这里我们引出来公式计算,大家要挺住,只要明白公式就豁然开朗了。
Elo评分系统中的一个标准公式:
其中Ea是模型A的预期胜率,Ra和Rb模型A和对手B的评分。
假设模型A一个初始Elo评分为1000,对手B模型的Elo评分为12000,将数值代入公式:
这意味着模型A预期赢得对局的概率是24%。
继续坚持一下,接下来是最后一个公式,马上胜利在望了。
假设模型A赢了这场对局,我们将实际得分 Sa设置为1(胜=1,平=0.5, 负=0) 然后,我们用下面的公式来更新模型A的Elo评分:
K因子是根据比赛的级别或者模型的稳定性选取的,较常见的值是32(对于成熟的模型)。
如果我们使用K值为32,更新后的评分将会是:
模型A的新Elo评分约为1024。为了简化,我们通常会取整数,所以我们可以说新的Elo评分是1024。
到此我们已经明白了这个Arean Elo rating的分值的计算过程,以及分值是如何计算出来的,我们解锁一个Elo评分的技能,给自己点个赞!
4. 我们来聊MT-bench(score) 的分数计算
继续来看测试基准的第二列MT-bench(score) , 提取关键词 MT-bench。
简单的理解就是用设计了一系列多轮对话任务,然后在将回答的结果送给GPT4来评判进行打分。因为GPT4是公认最好最主流而大模型。
下面看个例子:
MT-Bench 测试方案中进行二轮提示回答:
第一轮提示:你在做什么?
第一轮回答:我正在写一篇关于人工智能的文章。
第二轮提示:你为什么要写这篇文章?
第二轮回答:
我正在写这篇文章是为了分享我对人工智能的看法和理解。我认为人工智能是一个具有巨大潜力的技术,它可以用于改善我们的生活。我希望通过这篇文章,可以帮助人们更好地了解人工智能,并认识到人工智能的潜在好处。
采用GPT4对两轮的回答进行打分:
第一轮回答
GPT4给第一轮回答的打分为80分。GPT4认为,第一轮回答的内容与提示相关,且语言流畅、通顺。但是,第一轮回答的具体内容略显笼统,没有提供具体的信息。
第二轮回答
GPT4给第二轮回答的打分为85分。GPT4认为,第二轮回答的内容与提示相关,且语言流畅、通顺。此外,第二轮回答还提供了具体的信息,包括人工智能的定义、历史、应用、潜在好处和风险等。
最终的分数是两轮回答分数的加权平均, 可以将第一轮的权重设置为0.6,第二轮的权重为 0.4, 是因为第一轮回答为第二轮回答提供了基础。
最后来看一下MT-bench(score)的分数是怎么计算的?
例如,如果一个模型在MT-bench的80个任务中每个任务都满分,那么它可能得到80分。如果这个总分需要转换为10分制,那么它的得分就是10分(假设满分为80分时转换为10分)。如果该模型的实际得分是74.56分,则转换后的得分就是74.56/80 x 10 = 9.32。
到此我们已经解锁了MT-bench(score)的计算技能, 继续给自己点赞,加油!
5. 我们继续来聊测试基准的第二列MMLU的分数计算
(MMLU)的评分通常涉及对大量不同的问题进行测试,涵盖广泛的主题和领域。每个问题通常都会有一个正确答案,模型的任务是在多个选择中选择一个最合适的答案。
简单的说就是让大模型做题,这些题都有标准答案,看最后的得分。
MMLU (5-shot) 测试专门评估模型在 57 个任务上的多任务准确性。这意味着模型每个任务只给 5 个示例来学习,然后在留出的测试数据集上测量其性能。测试的目的是评估模型在新的任务和领域中的泛化能力。
最终将回答问题的得分比例乘以100, 就是最后的得分。
我们已经掌握了解读大模型竞技场排名榜的技能,包括三种主要的测试基准:ELO评级、MT-bench分数和MMLU分数。其中,官方推荐使用具有可扩展性和可解释性的ELO评级。现在,我们可以更专业地分析新发布的大模型在竞技场中的表现,而不再只是用“好”或“不好”来评价。这使得讨论更加深入和有趣。希望这次学习之旅能帮助你更好地理解和评估大型语言模型,并充分运用这些新技能。
Copyright © 2024 妖气游戏网 www.17u1u.com All Rights Reserved