关闭广告

谁是AI之王?聊聊备受争议的AI评测与崛起的LMArena

硅谷1012025-11-01 12:00:01245人阅读

撰稿 |张珺玥

编辑 |陈茜

在大模型激战的当下,究竟谁更强?是OpenAI的GPT,还是Anthropic的Claude?是谷歌的Gemini,还是中国的DeepSeek?

当AI模型排行榜开始被各种刷分作弊之后,谁家大模型最牛这个问题就变得非常主观,直到一家线上排行榜诞生,它叫:LMArena。

在文字、视觉、搜索、文生图、文生视频等不同的AI大模型细分领域,LMArena上每天都有上千场的实时对战,由普通用户来匿名投票选出哪一方的回答更好。最近以来,很多AI研究者都纷纷发声,认为大模型竞赛的下半场,最重要的事情之一就是重新思考模型评估。

因为当技术创新趋于饱和,真正拉开差距的,可能将不再是谁的参数更多、推理更快,而是谁能更准确地衡量、理解模型的智能边界。

在大模型评测上,传统的Benchmark(基准测试)究竟存在什么问题,是已经过时了吗?LMArena的竞技场模式为什么会被视为一种新的标准?它的技术机制、公平性和商业化隐藏着怎样的挑战?而下一代的大模型评测,又可能会走向哪里?

(本文为视频改写,欢迎大家收看以下视频)

01

题库泄露、数据污染传统Be

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

李昊:在海外踢球时因位置问题机会有限;目前想先把中超踢好

懂球帝 浏览 188 01-23

从全球榜单看中国创新

海外网 浏览 183 01-07

牛弹琴:特朗普现在很头疼 俄乌说一套做一套让他愤怒

大象新闻 浏览 535 08-23

刘欢,早已走上另一条大道

奥字侃剧 浏览 200 10-28

推广||养出女明星绸缎发其实很简单!这个断货王终于又有了

黎贝卡的异想世界 浏览 3557 07-10

跟队记者:米兰本周六上午,将和未来队进行一场队内训练赛

直播吧 浏览 2465 07-16

梦舟飞船零高度逃逸试验成功

环球网资讯 浏览 7355 06-18

李斌、李想,看上了同一块蛋糕

豹变 浏览 1711 08-10

天坛与战斗机 定格古今交汇这一幕

新华社 浏览 384 09-06

大小王的圣诞夜对决!火箭媒体人:你想不到比这更好的圣诞大战了

直播吧 浏览 364 08-11

建设周期长且成本高昂,欧盟多国重拾核能挑战巨大

环球网资讯 浏览 116 03-17

5-1!40岁C罗双响+生涯第945球,获8.7分,率队3战全胜领跑沙特联

我爱英超 浏览 340 09-21

南航一架波音787备降:飞行途中两度出现烧焦味

极目新闻 浏览 6194 07-11

曝黄晓明叶珂秘密同居!每月28万金屋藏娇,杨颖不让儿子过去住

萌神木木 浏览 9462 07-31

美主播拿"北溪"事件恐吓 声称有人可能会炸毁中俄管道

澎湃新闻 浏览 430 09-08

媒体:美军现大规模"异动" 被指是明确的战略准备信号

每日经济新闻 浏览 8819 06-18

农夫山泉创新高,钟睒睒“渡劫”成功?

财视传播 浏览 4790 07-25

法国或承认巴勒斯坦国 美大使:你们可以“割地”

看看新闻Knews 浏览 10169 06-04

残酷真相:盈利很好,仍要裁员15000!微软CEO内部信透露新常态

华尔街见闻官方 浏览 8722 07-29

所以《All Her Fault》,其实都是“他的错”?

时尚COSMO 浏览 140 12-03

法甲:马赛2比1客胜斯特拉斯堡

体坛周报 浏览 319 09-29
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11