参考指南

撰稿｜张珺玥

编辑｜陈茜

在大模型激战的当下，究竟谁更强？是OpenAI的GPT，还是Anthropic的Claude？是谷歌的Gemini，还是中国的DeepSeek？

当AI模型排行榜开始被各种刷分作弊之后，谁家大模型最牛这个问题就变得非常主观，直到一家线上排行榜诞生，它叫：LMArena。

在文字、视觉、搜索、文生图、文生视频等不同的AI大模型细分领域，LMArena上每天都有上千场的实时对战，由普通用户来匿名投票选出哪一方的回答更好。最近以来，很多AI研究者都纷纷发声，认为大模型竞赛的下半场，最重要的事情之一就是重新思考模型评估。

因为当技术创新趋于饱和，真正拉开差距的，可能将不再是谁的参数更多、推理更快，而是谁能更准确地衡量、理解模型的智能边界。

在大模型评测上，传统的Benchmark（基准测试）究竟存在什么问题，是已经过时了吗？LMArena的竞技场模式为什么会被视为一种新的标准？它的技术机制、公平性和商业化隐藏着怎样的挑战？而下一代的大模型评测，又可能会走向哪里？

（本文为视频改写，欢迎大家收看以下视频）

题库泄露、数据污染传统Be

谁是AI之王？聊聊备受争议的AI评测与崛起的LMArena

江西又有村行...

蔚来、理想高...

日媒曝三菱复...

官宣孙兴慜？...

沈春阳携女儿...

海南悬赏10...

阔腿裤+彩色运动鞋：今年秋天最火搭配，松弛又减龄！

乌在黑海海域击沉一艘俄“影子舰队”油轮

狂销120亿，液冷、机器人双龙头，开挂了！

李昊：在海外踢球时因位置问题机会有限；目前想先把中超踢好

从全球榜单看中国创新

牛弹琴:特朗普现在很头疼俄乌说一套做一套让他愤怒

刘欢，早已走上另一条大道

推广||养出女明星绸缎发其实很简单！这个断货王终于又有了

跟队记者：米兰本周六上午，将和未来队进行一场队内训练赛

梦舟飞船零高度逃逸试验成功

李斌、李想，看上了同一块蛋糕

天坛与战斗机定格古今交汇这一幕

大小王的圣诞夜对决！火箭媒体人：你想不到比这更好的圣诞大战了

建设周期长且成本高昂，欧盟多国重拾核能挑战巨大

5-1！40岁C罗双响+生涯第945球，获8.7分，率队3战全胜领跑沙特联

南航一架波音787备降：飞行途中两度出现烧焦味

曝黄晓明叶珂秘密同居！每月28万金屋藏娇，杨颖不让儿子过去住

美主播拿＂北溪＂事件恐吓声称有人可能会炸毁中俄管道

媒体：美军现大规模＂异动＂被指是明确的战略准备信号

农夫山泉创新高，钟睒睒“渡劫”成功？

法国或承认巴勒斯坦国美大使：你们可以“割地”

残酷真相：盈利很好，仍要裁员15000！微软CEO内部信透露新常态

所以《All Her Fault》，其实都是“他的错”？

法甲：马赛2比1客胜斯特拉斯堡