关闭广告

武汉大学让AI学会诊断金融知识:像医生检查身体一样评估AI模型

科技行者2025-09-10 00:00:02212人阅读


这项由武汉大学人工智能学院的谢倩倩教授领导的研究团队在2025年8月发表,论文题为《From Scores to Skills: A Cognitive Diagnosis Framework for Evaluating Financial Large Language Models》,该研究首次将教育心理学中的认知诊断理论引入到金融AI评估领域。有兴趣深入了解的读者可以通过GitHub项目页面https://github.com/WHUNextGen/FinCDM访问完整研究成果。

当我们去医院体检时,医生不会只告诉你"身体状况70分"就完事,而是会详细检查你的心脏、肝脏、肺部各个器官的具体情况,告诉你哪里健康、哪里需要注意。但令人意外的是,在评估金融AI模型时,我们却一直在用那种简单粗暴的"总分"方式。

考虑这样一个场景:两个学生都考了80分,但一个是因为数学好语文差,另一个是语文好数学差。如果只看总分,我们永远不知道该给他们推荐什么样的补习班。武汉大学的研究团队发现,评估金融AI模型时也存在完全相同的问题。目前所有的评估方法都只给出一个总体得分,比如"在金融问答任务上准确率85%",但这个分数完全无法

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

仅自己可见:腾讯QQ群聊消息官宣支持元宝AI总结功能

IT之家 浏览 10 12-11

REDMI Note 15 Pro将搭载1.5K超级阳光屏,峰值亮度达3200尼特

IT之家 浏览 290 08-19

或为规避逮捕令 内塔尼亚胡专机被指绕远600公里赴美

国际在线 浏览 204 09-26

特朗普铺红毯迎接普京 B-2轰炸机头顶飞过

新华社 浏览 274 08-17

官宣!GPT-4核心,挂帅Meta超级智能实验室

网易科技报道 浏览 5357 07-26

湖南推进高校科技成果转化 增强科研人员获得感

环球网资讯 浏览 2564 07-25

《生万物》导演:杨幂是天选绣绣,她的出色表现

影像温度 浏览 249 08-24

记者:贾沙里缺席布鲁日全家福拍摄,他希望最好周六前转会米兰

直播吧 浏览 3350 07-18

米仓凉子涉毒被抓!当小三、遭家暴、交往瘾君子,50岁人生一团糟

萌神木木 浏览 117 10-11

苹果发布会前瞻:“史上最薄”iPhone亮相

澎湃新闻 浏览 190 09-10

陕西知名央企换帅,去年人均薪酬超过30万

华美财经 浏览 3959 07-17

安踏继续“买买买”?锐步再陷“易主”风波

中国商报 浏览 9931 08-07

虽不能说击败,但超美成世界第一就是一个打击

浏览 4748 07-14

白宫公布"特朗普与普京通话"照 万斯和鲁比奥在场旁听

环球网资讯 浏览 276 08-20

吉迪库明加互换?要不吉迪库明加联手?

静易墨 浏览 277 08-11

笑不活了!网友集体冲进李亚鹏账号评论区,各种神评涌现太离谱!

娱乐圈笔娱君 浏览 152 10-16

排在第73位,新央企长安汽车集团成立,级别不如一汽、东风?

数字财经智库 浏览 6321 07-31

预算10万左右想买车,建议选这三款

鸭梨说车 浏览 273 05-10

高管震荡、次高端遇冷,舍得酒业做文旅能否破局?

征探财经 浏览 1275 08-07

从口袋PC到智能座舱:华为新品矩阵亮相2025中国移动全球合作伙伴大会 解码智慧生活

快科技 浏览 124 10-13

知名女星私生活的谣言有多离谱?

动物奇奇怪怪 浏览 114 10-13
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11