首个AI高考全卷评测结果发布:最高分303,数学全不合格

  高考覆盖各类学科及题型,同时因其开考前的“绝密性”,被视作中国最具权势巨子 的测验 之一。这一面向人类计划 的高难度综合性测试,如今 广泛 被研究者用于观察 大模子 的智能程度 。

  在前不久高考竣事 后,上海人工智能实行 室旗下司南评测体系OpenCompass选取了7个大模子 举行 高考“语数外”全卷本领 测试。6月19日, OpenCompass发布了首个大模子 高考全卷评测结果 。

  语数外三科加起来的满分为420分,此次高考测试结果 表现 ,阿里通义千问2-72B排名第一,为303分,OpenAI的GPT-4o排名第二,得分296分,上海人工智能实行 室的书生·浦语2.0排名第三,三个大模子 的得分率均高出 70%。来自法国大模子 初创公司的Mistral排名末端 。

首个AI高考全卷评测结果发布:最高分303,数学全不及格 首个AI高考全卷评测结果发布:最高分303,数学全不合格
 时时快讯

  此次测试的模子 分别来自阿里巴巴、零一万物、智谱AI、上海人工智能实行 室、法国Mistral的开源模子 ,以及来自OpenAI的闭源模子 GPT-4o。实行 室表现 ,因无法确定闭源模子 的更新时间,为公平起见,此次评测没有纳入商用闭源模子 ,仅引入GPT-4o作为评测参考。这次选择参加 高考的“考生”均在高考前(2024年4月-6月)开源,克制 了“刷题风险”。

  从结果 来看,大模子 的语文、英语测验 程度 广泛 不错,但数学都不合格 ,最高分也只有75分,来自书生·浦语2.0,其次是GPT-4o,得分73分。语文最高分是通义千问,英语最高分是GPT-4o。

  在数学方面大模子 尚有 很大的提拔 空间。数学关乎复杂推理相干 本领 ,这是大模子 广泛 面对 的困难 ,也是大模子 在金融、工业等要求可靠的场景落地必要 的关键本领 。

首个AI高考全卷评测结果发布:最高分303,数学全不及格 首个AI高考全卷评测结果发布:最高分303,数学全不合格
 时时快讯

  上海人工智能实行 室领军科学家林达华此前在采访中对第一财经先容 ,复杂推理关系到落地应用时大模子 的可靠性,比方 在金融如许 的场景下不能在数字上有不对 ,会对数学上的可靠性有较高的要求。别的 随着大模子 进入商用,若要分析一家公司的财报,乃至 是工业范畴 要去分析一些技能 文档,这时数学方面的盘算 本领 就会成为一个壁垒。

  “如今 很多 大模子 的应用场景是客服、谈天 等等,在谈天 场景不苟言笑 胡说 八道影响不太大,但它很难在非常严厉 的贸易 场合 去落地。”林达华此前表现 。

  对于此次测试细节,上海人工智能实行 室先容 ,评测采取 天下 新课标I卷,“语数外”三科全卷测试,包罗 客观题与主观题。结果 由具备高考评卷履历 的老师匿名流 工判分,阅卷开始前,阅卷西席 未被告知答卷均由模子 天生 ,使阅卷西席 完全以面对 真实考生的标准 评判答复 结果 。

  值得留意 的是,大模子 犯错误的方式和人类考生有差别 ,从实践上来看阅卷老师们不完全顺应 给大模子 评分,因此存在有标题 误判的大概 。实行 室表现 ,每个标题 都约请 了至少三位老师评阅取均分,团队对分差较大的标题 还举行 了再次考核 ,贴近高考真实阅卷标准 。

  实行 室表现 ,在打分前,老师们并未被告知答案由大模子 天生 ,但由于有的模子 会存在完全不明白 题意导致乱答、重复天生 、答复 更像分析 而非解答的题目 ,老师们在阅卷过程中根本 都会和团队确认这些环境 是否是正常环境 ,团队会要求老师将离谱的错误直接视为答题错误,分析 范例 的答复 以是否包罗 精确 解题过程作为唯一准则。

  在完成全部 大模子 答卷的评卷工作后,阅卷西席 被告知所评“考生”的真实身份为大模子 。研究职员 同时约请 各科西席 对大模子 表现 举行 了团体 分析,为模子 本领 提拔 战略 提供参考。

  语文方面,老师们以为 ,模子 的当代 文阅读明白 本领 广泛 较强,但是差别 模子 的文言文阅读明白 本领 差距较大。大模子 作文更像问答题,固然 有针对性但缺乏修饰,险些 不存在人类考生都会利用 举例论证、引用论证、名流 名言和人物素材等伎俩 。多数模子 无法明白 “本体”“喻体”“暗喻”等语文概念。语言中的一些“潜台词”,大模子 尚无法完全明白 。

  在数学试卷上,老师们发现,大模子 的主观题答复 相对缭乱 ,且过程具有迷惑 性,乃至 出现过程错误但得到精确 答案的环境 。大模子 的公式影象 本领 较强,但是无法在解题过程中机动 引用。

  英语则团体 表现 精良 ,但部分 模子 由于不顺应 题型,在七选五、完形填空等题型得分率较低。大模子 英语作文广泛 存在因超出字数限定 而扣分的环境 ,而人类考生多由于 字数不敷 扣分。

  别的 ,一些老师提出,由于全部答复 没有卷面,以是 在作文的评判上会存在1-2分的偏差 。

  (本文来自第一财经)

联系我们

在线咨询:点击这里给我发消息