关闭广告

让AI看懂长电影,这位准博士生想找到智能的真实边界

DeepTech深科技2025-08-11 00:00:028126人阅读

Next Gen

欢迎来到“Next Gen”。人工智能的边界每日都在被拓展,一群富有远见卓识的青年学者正站在浪潮之巅。我们追踪并报道这些 AI 领域最具潜力的明日之星,展现他们在科研前沿的突破性工作,以及对未来智能时代的独到见解。他们是谁?他们如何思考?他们又将把 AI 带向何方?与我们一同发现那些正在定义未来的 AI 新生代。

“我觉得 benchmark 要么你足够难,难到模型都没办法解决,要么你足够贴近现实生活。”

当 OpenAI 的 o4-mini-high、Google 的 Gemini 2.5 Pro 等前沿模型在困难编程题上集体拿到 0 分时,这条标准被直观地验证了。给出这组让人意外的成绩,是LiveCodeBench Pro——一个由普林斯顿大学准博士生柴文浩与团队构建的算法竞赛基准。


图丨柴文浩(来源:柴文浩)

出身数学竞赛的柴文浩,正用自己的视角重估 AI 能力的真实边界

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

股价一个月涨超400%,新氧要“翻身”了?

达摩财经 浏览 2347 07-18

新款奥迪Q4 e-tron谍照曝光 有望四季度发布

车质网 浏览 392 08-20

状态不佳,阿森纳对阵森林上半场8脚射门0射正

懂球帝 浏览 205 01-18

爱泼斯坦曾参加特朗普婚礼照公开 特朗普挂断采访电话

环球网资讯 浏览 7399 07-24

Lisa又来内娱试水!团队打擦边球赚钱,线上四人代言地广被除名!

萌神木木 浏览 324 09-19

世俱杯各大奖项出炉:帕尔默获世俱杯金球奖 拜仁获公平竞赛奖

直播吧 浏览 1101 07-14

OpenAI新幻觉论文惹争议!GPT-5拉胯是测试基准有问题??

量子位 浏览 377 09-10

赵露思忍无可忍!银河酷娱回应很震惊 谁在说谎?

阿废冷眼观察所 浏览 6857 08-06

朝鲜空军庆祝活动 现场2名女飞行员示范飞行

看看新闻Knews 浏览 185 12-02

阿尔特塔:哲凯赖什已准备好再次出场;球队所做一切皆为争冠

懂球帝 浏览 441 08-23

媒体:特朗普威胁普京表明他很焦虑 俄方"无所畏惧"

新民晚报 浏览 8993 07-31

难难难!委内瑞拉仍是南美唯一队史0次进世界杯的球队 末轮遭翻盘

直播吧 浏览 403 09-10

收视率破2,唐嫣赵又廷令观众成功入坑,央视都市剧有新招牌了

娱乐圈笔娱君 浏览 14 04-29

广东3队选秀情况:广州3个签位全部选满 广东、深圳弃权

直播吧 浏览 2604 07-26

李承铉碰荆棘泪洒舞台,他一句话道出问题根源

农城浪子 浏览 367 09-11

罗伯特-桑切斯:有人说我们夺冠之路轻松,但其实一点也不

懂球帝 浏览 8914 07-14

媒体:台湾被国际会议拒之门外 民进党当局气急败坏

环球网资讯 浏览 592 09-11

案情更新!TMZ:小莫里斯被捕后首次在佛州出庭 事情进展并不顺利

直播吧 浏览 9800 07-30

演技短板暴露!杨超越资源暴跌,'锦鲤'体质还能撑多久?

Yuki女人故事 浏览 3033 07-26

女子价值超10万的婚戒丢了 6名环卫工翻5吨垃圾帮找回

环球网资讯 浏览 500 09-01

今年冬天最火的靴子,越“皱”越时髦!

LinkFashion 浏览 133 12-03
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11