关闭广告

谁是AI之王?聊聊备受争议的AI评测与崛起的LMArena

硅谷1012025-11-01 12:00:01244人阅读

撰稿 |张珺玥

编辑 |陈茜

在大模型激战的当下,究竟谁更强?是OpenAI的GPT,还是Anthropic的Claude?是谷歌的Gemini,还是中国的DeepSeek?

当AI模型排行榜开始被各种刷分作弊之后,谁家大模型最牛这个问题就变得非常主观,直到一家线上排行榜诞生,它叫:LMArena。

在文字、视觉、搜索、文生图、文生视频等不同的AI大模型细分领域,LMArena上每天都有上千场的实时对战,由普通用户来匿名投票选出哪一方的回答更好。最近以来,很多AI研究者都纷纷发声,认为大模型竞赛的下半场,最重要的事情之一就是重新思考模型评估。

因为当技术创新趋于饱和,真正拉开差距的,可能将不再是谁的参数更多、推理更快,而是谁能更准确地衡量、理解模型的智能边界。

在大模型评测上,传统的Benchmark(基准测试)究竟存在什么问题,是已经过时了吗?LMArena的竞技场模式为什么会被视为一种新的标准?它的技术机制、公平性和商业化隐藏着怎样的挑战?而下一代的大模型评测,又可能会走向哪里?

(本文为视频改写,欢迎大家收看以下视频)

01

题库泄露、数据污染传统Be

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

新增激光雷达 2026款比亚迪夏官图发布

车质网 浏览 197 10-31

天津狗不理集团被列入经营异常名录

界面新闻 浏览 8564 07-09

有记录以来9月发生了990次月食!这些月食“冷”知识你知道吗

上观新闻 浏览 294 09-09

《南京照相馆》导演太狠了!

娱乐白名单 浏览 2027 08-14

快手、微博被网信部门查处

新京报政事儿 浏览 441 09-21

佘智江获利达1.5亿元:曾逼美貌女性卖淫 或供"玩乐"

新京报 浏览 276 12-02

山东海阳老人扎堆领结婚证现场挤满人 有村庄包车去办

极目新闻 浏览 275 10-18

惨!《脱缰者也》上映一天就被判死刑,网友给出的评论太解气了

娱乐圈笔娱君 浏览 427 08-26

新款凯迪拉克XT4即将登场,配置升级能否提振销量?

爱驾天下 浏览 463 05-24

674分被福耀科技大学录取遭调侃"脑子进水" 考生回应

极目新闻 浏览 6680 07-25

对话“死了么”App创始人:这几天付费人数翻了200倍;另有“活了么”App上线

红星资本局 浏览 199 01-12

女高管遭性侵维权:醒来自己一丝不挂 老板穿内裤在旁

中国慈善家杂志 浏览 558 09-11

白俄方队现身俄红场阅兵 卢卡申科站起来微笑并挥拳

参考消息 浏览 5383 05-10

时隔10年全胜出线,中国男篮收获了什么?

后厂村体工队 浏览 7353 08-10

中国联通:首次实现云原生核心部件 100% 国产化

IT之家 浏览 3528 07-21

国产大飞机C919再增新航点

新华社 浏览 10124 06-22

中国对俄罗斯试行免签 机票搜索量上升

看看新闻Knews 浏览 386 09-04

2.3亿票房,二手玫瑰唱片尾曲,这部六合一聊斋套餐属实有些颠

最爱酷影视 浏览 3408 08-03

特朗普:以伊完全同意全面停火

央视新闻客户端 浏览 2070 06-24

她是影帝陶金之女,一生都没原谅过父亲

动物奇奇怪怪 浏览 6143 08-03

“复古甜心”穿搭突然大火!春天穿时髦又减龄

LinkFashion 浏览 130 02-25
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11