关闭广告

谁是AI之王?聊聊备受争议的AI评测与崛起的LMArena

硅谷1012025-11-01 12:00:0165人阅读

撰稿 |张珺玥

编辑 |陈茜

在大模型激战的当下,究竟谁更强?是OpenAI的GPT,还是Anthropic的Claude?是谷歌的Gemini,还是中国的DeepSeek?

当AI模型排行榜开始被各种刷分作弊之后,谁家大模型最牛这个问题就变得非常主观,直到一家线上排行榜诞生,它叫:LMArena。

在文字、视觉、搜索、文生图、文生视频等不同的AI大模型细分领域,LMArena上每天都有上千场的实时对战,由普通用户来匿名投票选出哪一方的回答更好。最近以来,很多AI研究者都纷纷发声,认为大模型竞赛的下半场,最重要的事情之一就是重新思考模型评估。

因为当技术创新趋于饱和,真正拉开差距的,可能将不再是谁的参数更多、推理更快,而是谁能更准确地衡量、理解模型的智能边界。

在大模型评测上,传统的Benchmark(基准测试)究竟存在什么问题,是已经过时了吗?LMArena的竞技场模式为什么会被视为一种新的标准?它的技术机制、公平性和商业化隐藏着怎样的挑战?而下一代的大模型评测,又可能会走向哪里?

(本文为视频改写,欢迎大家收看以下视频)

01

题库泄露、数据污染传统Be

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

玛丽珍,复古又时髦

Yuki女人故事 浏览 262 08-27

印度外长时隔5年访华 知情人士:双方拟定一份“清单”

环球网资讯 浏览 4063 07-14

深圳,最狠的一次升级

博闻财经 浏览 1833 08-10

男童参加夏令营走失 知情人:其患自闭症 很少主动交流

环球网资讯 浏览 1377 08-11

如此雄厚锋线实力!B/F晒独行侠阵容:这支球队能走多远?

直播吧 浏览 252 08-21

20岁341天,奥多贝尔成为热刺队史欧冠第三年轻进球球员

懂球帝 浏览 61 11-05

灵感源自80年代球衣,狼队发布新赛季客场球衣,主色调为蓝色

懂球帝 浏览 8295 07-25

伊姐周六热推:电视剧《即刻上场》;电视剧《暗影侦探》......

伊周潮流 浏览 21 11-30

美股新高!美联储新任理事预计继续降息

证券时报e公司 浏览 173 09-20

让二追三!世界女排联赛:中国女排3-2逆转德国女排取三连胜

直播吧 浏览 4458 07-13

90后夫妻砸千万,开马来西亚最大的中国超市

虎嗅APP 浏览 4995 07-22

具俊晔墓地陪伴大S,汪家自身难保?

趣文说娱 浏览 3291 07-31

76岁“欢喜哥”许绍雄病危,tvb多名艺人紧急探望,众人神情严肃

不八卦会死星人 浏览 54 11-05

马克西谈恩比德:他是远超其他人的竞争者 会不惜一切重返球场

直播吧 浏览 3425 07-14

高速公路未批先建致企业受牵连关停 申请赔偿9年未果

大风新闻 浏览 52 11-11

以军称袭击黎巴嫩真主党多个军事目标

极目新闻 浏览 73 10-24

捷尼赛思败走中国?!

汽车公社 浏览 2650 07-16

马上售罄,预购从速!今晚是妥妥的世界首映

幕味儿 浏览 314 08-12

杭州女子洗完澡一抬头 发现窗外停着一架无人机

极目新闻 浏览 109 10-11

F4合体变“上春山2.0”,朱孝天服装站位都尴尬,曾公开承认不和

萌神木木 浏览 1928 07-14

BBA德国车展大战小鹏们:电车疯狂追赶,智能化仍在原始阶段

电车通 浏览 183 09-10
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11