关闭广告

谁是AI之王?聊聊备受争议的AI评测与崛起的LMArena

硅谷1012025-11-01 12:00:01247人阅读

撰稿 |张珺玥

编辑 |陈茜

在大模型激战的当下,究竟谁更强?是OpenAI的GPT,还是Anthropic的Claude?是谷歌的Gemini,还是中国的DeepSeek?

当AI模型排行榜开始被各种刷分作弊之后,谁家大模型最牛这个问题就变得非常主观,直到一家线上排行榜诞生,它叫:LMArena。

在文字、视觉、搜索、文生图、文生视频等不同的AI大模型细分领域,LMArena上每天都有上千场的实时对战,由普通用户来匿名投票选出哪一方的回答更好。最近以来,很多AI研究者都纷纷发声,认为大模型竞赛的下半场,最重要的事情之一就是重新思考模型评估。

因为当技术创新趋于饱和,真正拉开差距的,可能将不再是谁的参数更多、推理更快,而是谁能更准确地衡量、理解模型的智能边界。

在大模型评测上,传统的Benchmark(基准测试)究竟存在什么问题,是已经过时了吗?LMArena的竞技场模式为什么会被视为一种新的标准?它的技术机制、公平性和商业化隐藏着怎样的挑战?而下一代的大模型评测,又可能会走向哪里?

(本文为视频改写,欢迎大家收看以下视频)

01

题库泄露、数据污染传统Be

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

阚清子的“幸福肥”,炸翻了多少身材焦虑?

传递满满正能量 浏览 7680 07-25

交付“测试车”给用户?小米汽车副总裁致歉

界面新闻 浏览 373 09-09

智能配置升级 吉利缤越超能Max版7.18万

网易汽车 浏览 2598 07-18

59岁高建法因病去世 曾自掏腰包500多万建抗战纪念馆

都市快报橙柿互动 浏览 7455 07-30

意媒:那不勒斯再次追求都灵28岁门将瓦尼亚,曼联&利兹联也有意

直播吧 浏览 10270 07-13

以色列警告埃及不准使用中国导弹 特朗普突然对以下手

博览历史 浏览 424 09-29

泽连斯基提议:允许22岁以下男性公民离境

环球网资讯 浏览 1253 08-13

内容创作者,别漂了来上海!“沪九条”给资源、给场景、还给“职称”

上观新闻 浏览 1172 07-16

Here we go!罗马诺:切尔西将签下谢周三17岁边后卫阿拉奥

懂球帝 浏览 201 01-23

特朗普:希望今年见金正恩 他领导的国家前景光明

每日经济新闻 浏览 461 08-27

俄称挫败乌军空降行动

上观新闻 浏览 189 11-02

99年女生读博时退学去开公司修家电:好评近100%

大象新闻 浏览 136 03-11

小米第二季营收1160亿:经营利润134亿 小米汽车有望实现单季盈利

雷递 浏览 487 08-20

低价"银行直供房"激增 有房产价格低于市价25%

第一财经资讯 浏览 232 11-10

春天穿衣真的很简单!衬衫配裙子、塑造留白,显瘦提气质

静儿时尚达人 浏览 15 04-27

ThinkPad 推 S2 2in1 2025 翻转商务本:ARL-U 平台,标配手写笔

IT之家 浏览 6503 07-29

揭幕战湖人对勇士!帕金斯:詹姆斯&库里两巨星相遇不会让你失望

直播吧 浏览 670 08-13

3件开心小事|| 这条视频竟然有一千万人看了

黎贝卡的异想世界 浏览 191 12-24

释永信出门有人帮穿鞋 政府宾客:我领导也没这个待遇

凤凰WEEKLY 浏览 4606 07-28

万宁突然关闭内地线上线下全部门店,连锁巨头这是怎么了?

江瀚视野 浏览 167 12-21

U23亚洲杯1/4决赛对阵出炉!U23国足迎战乌兹别克

体坛周报 浏览 199 01-15
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11