中国新闻报道 >财经>

uc伯克利发布大语言模型排行榜，vicuna夺冠，清华chatglm进前-尊龙官方网站

来源：it之家中国新闻报道作者：肖鸥发布时间：2023-05-05 12:05

万万没想到，现在大语言模型们也要像王者荣耀 / lol / dota 这些游戏里的玩家一样打排位赛了！据说，那些闭源模型们很快也会被拉出来溜溜。

最近，来自 lmsys org的研究人员又搞了个大新闻 —— 大语言模型版排位赛！

顾名思义，「llm 排位赛」就是让一群大语言模型随机进行 battle，并根据它们的 elo 得分进行排名。

然后，我们就能一眼看出，某个聊天机器人到底是「嘴强王者」还是「最强王者」。

划重点:团队还计划把国内和国外的这些「闭源」模型都搞进来，是骡子是马溜溜就知道了！

匿名聊天机器人竞技场长下面这样:

很明显，模型 b 回答正确，拿下这局；而模型 a 连题都没读懂……

在当前的排行榜中，130 亿参数的 vicuna 以 1169 分稳居第一，同样 130 亿参数的 koala 位列第二，laion 的 open assistant 排在第三。

清华提出的 chatglm，虽然只有 60 亿参数，但依然冲进了前五，只比 130 亿参数的 alpaca 落后了 23 分。

相比之下，meta 原版的 llama 只排到了第八，而 stability ai 的 stablelm 则获得了唯一的 800 分，排名倒数第一。

团队表示，之后不仅会定期更新排位赛榜单，而且还会优化算法和机制，并根据不同的任务类型提供更加细化的排名。

目前，所有的评估代码以及数据分析均已公布。

拉着 llm 打排位

在这次的评估中，团队选择了目前比较出名的 9 个开源聊天机器人。

每次 1v1 对战，系统都会随机拉两个上场 pk。用户则需要同时和这两个机器人聊天，然后决定哪个聊天机器人聊的更好。

可以看到，页面下面有 4 个选项，左边更好，右边(b)更好，一样好，或者都很差。

当用户提交投票之后，系统就会显示模型的名称。这时，用户可以继续聊天，或者选择新的模型重新开启一轮对战。

不过，团队在分析时，只会采用模型是匿名时的投票结果。在经过差不多一周的数据收集之后，团队共收获了 4.7k 个有效的匿名投票。

在开始之前，团队先根据基准测试的结果，掌握了各个模型可能的排名。

根据这个排名，团队会让模型去优先选择更合适的对手。

然后，再通过均匀采样，来获得对排名的更好总体覆盖。

在排位赛结束时，团队又引入了一种新模型 fastchat-t5-3b。

以上这些操作最终导致了非均匀的模型频率。

每个模型组合的对战次数

从统计数据来看，大多数用户所用的都是英语，中文排在第二位。

排名前 15 的语言的对战次数

评估 llm，真的很难

自从 chatgpt 爆火之后，经过指令跟随微调的开源大语言模型如雨后春笋一般大量涌现。可以说，几乎每周都有新的开源 llm 在发布。

但问题是，评估这些大语言模型非常难。

具体来说，目前用来衡量一个模型好不好的东西基本都是基于一些学术的 benchmark，比如在一个某个 nlp 任务上构建一个测试数据集，然后看测试数据集上准确率多少。

然而，这些学术 benchmark在大模型和聊天机器人上就不好用了。其原因在于:

1. 由于评判聊天机器人聊得好不好这件事是非常主观的，因此现有的方法很难对其进行衡量。

2. 这些大模型在训练的时候就几乎把整个互联网的数据都扫了一个遍，因此很难保证测试用的数据集没有被看到过。甚至更进一步，用测试集直接对模型进行「特训」，如此一来表现必然更好。

3. 理论上我们可以和聊天机器人聊任何事情，但很多话题或者任务在现存的 benchmark 里面根本就不存在。

那如果不想采用这些 benchmark 的话，其实还有一条路可以走 —— 花钱请人来给模型打分。

实际上，openai 就是这么搞的。但是这个方法明显很慢，而且更重要的是，太贵了……

为了解决这个棘手的问题，来自 uc 伯克利、ucsd、cmu 的团队发明了一种既好玩又实用的全新机制 —— 聊天机器人竞技场。

相比而言，基于对战的基准系统具有以下优势:

可扩展性

当不能为所有潜在的模型对收集足够的数据时，系统应能扩展到尽可能多的模型。

增量性

系统应能够使用相对较少的试验次数评估新模型。

唯一顺序

系统应为所有模型提供唯一顺序。给定任意两个模型，我们应该能够判断哪个排名更高或它们是否并列。

elo 评分系统

elo 等级分制度是一种计算玩家相对技能水平的方法，广泛应用在竞技游戏和各类运动当中。其中，elo 评分越高，那么就说明这个玩家越厉害。

比如英雄联盟、dota 2 以及吃鸡等等，系统给玩家进行排名的就是这个机制。

举个例子，当你在英雄联盟里面打了很多场排位赛后，就会出现一个隐藏分。这个隐藏分不仅决定了你的段位，也决定了你打排位时碰到的对手基本也是类似水平的。

而且，这个 elo 评分的数值是绝对的。也就是说，当未来加入新的聊天机器人时，我们依然可以直接通过 elo 的评分来判断哪个聊天机器人更厉害。

具体来说，如果玩家 a 的评分为 ra，玩家 b 的评分为 rb，玩家 a 获胜概率的精确公式为:

然后，玩家的评分会在每场对战后线性更新。

假设玩家 a预计获得 ea 分，但实际获得 sa 分。更新该玩家评分的公式为:

1v1 胜率

此外，作者还展示了排位赛中每个模型的对战胜率以及使用 elo 评分估算的预测对战胜率。

结果显示，elo 评分确实可以相对准确地进行预测

所有非平局 a 对 b 战斗中模型 a 胜利的比例

在 a 对 b 战斗中，使用 elo 评分预测的模型 a 的胜率

作者介绍

「聊天机器人竞技场」由前小羊驼作者机构 lmsys org 发布。

该机构由 uc 伯克利博士 lianmin zheng 和 ucsd 准教授 hao zhang 创立，目标是通过共同开发开放的数据集、模型、系统和评估工具，使每个人都能获得大型模型。

lianmin zheng

lianmin zheng 是加州大学伯克利分校 eecs 系的博士生，他的研究兴趣包括机器学习系统、编译器和分布式系统。

hao zhang

hao zhang 目前是加州大学伯克利分校的博士后研究员。他将于 2023 年秋季开始在加州大学圣地亚哥分校 hal?c?o?lu 数据科学研究所和计算机系担任助理教授。

参考资料:

中国新闻报道

上一篇：奏响项目发展最强音——廊坊学校项目全力推进施工建设工作纪实

标签

国内新闻 more

财经 more

旅游 more

娱乐 more

汽车 more

房产 more

健康 more

教育 more

消费 more

时尚 more

公益 more

企业 more

案例 more

uc伯克利发布大语言模型排行榜，vicuna夺冠，清华chatglm进前-尊龙官方网站

上一篇： 奏响项目发展最强音——廊坊学校项目全力推进施工建设工作纪实

中国新闻报道诚招频道加盟、广告代理，并承接企业宣传、活动采访、网络直播、新闻发布等合作，具体事宜联系qq：3183650697

上一篇：奏响项目发展最强音——廊坊学校项目全力推进施工建设工作纪实