文|锦缎
每当我们翻阅财报时,可能只想或许关键的财务信息,但总是受到财报中纷繁复杂的业务表述、冗长的管理层发言的干扰,需要耗费大量精力去甄别有用的财务信息。
特别是港股美股,国内的大多数金融软件,都是基于国内市场财务准则构建的信息展示,面对非标财务报表,总会出现部分摘取科目的错误。
进入AI大模型时代之后,这样的财务研究障碍或将被攻克——毕竟模型最擅长的,就是语言文字的总结归纳和数据的计算。
本文之中,我们即着手对六大国内主流大模型进行评测,用以探究下其财报分析能力,究竟发展到什么水平,又存在怎样的问题?
阅读提示:鉴于评测内容过于硬核与篇幅较长,获取最终评测结果可直接拉至文报告底部"结论"部分。
01 评测对象、逻辑与标准
评测对象我们挑选了国内主流的6大模型:
深度求索(DeepSeek-R1)
阿里千问(Qwen3-235B-A22B)
腾讯混元(Hunyuan-T1)
月之暗面(Kimi-K1.5)
百度文心(ERNIE-X1-Turbo)
智谱(GLM-4-Plus)
评测逻辑方面,我们采取了"分层进阶