1. 首页 > 游戏知识

七款AI大模型“高考成绩”揭晓:文科前三名均成功过一本线! aida模型图

IT之家7月18日报道,上海人工智能实验室于17日发布了针对七个大型AI模型的高考全科测试结果。根据“司南”评测体系的相关负责人的介绍,此次测试的主要目的是为了评估当前大模型的真实能力,发现其存在的问题,并推动技术的持续进步。

测试结果显示,书生・浦语2.0系列文曲星大模型(浦语文曲星)、阿里通义千问大模型Qwen2-72B以及GPT-4o在文理科中占据了前三名。值得注意的是,这三款AI模型的成绩均超过了“一本”和“二本”的录取分数线,以今年高考人数最多的河南省的标准为参考。

根据官方提供的信息,此次参与高考的AI大模型还包括来自零一万物的Yi-1.5-34B、通义千问的Qwen2-57B、智谱的GLM-4-9B以及法国初创公司Mistral的Mixtral 8×22B。

此次评测具有几个显著的特征:

全卷考试:评测涵盖整个试卷,包含带图题型,而不仅限于某一特定题型。

考前开源:参与评测的模型均在今年高考前已开源,从而避免了泄题风险。

专业评分:评分由具有高考阅卷经验的教师进行,力求与高考评分标准保持一致。

完全透明:生成答案的代码、模型答卷及评分结果均完全开源,以保证信息的透明性。

在综合科目的表现上,Qwen2-72B、GPT-4o、浦语文曲星依旧占据文理科的前三甲。其中,阿里通义千问大模型Qwen2-72B以546分获得文科状元,浦语文曲星以468.5分成为理科第一,均超越了“非开源国际插班生”GPT-4o(文科成绩531分,理科467分)。而来自国外的Mixtral 8×22B则在此次高考中表现不佳,平均得分明显低于国内的大模型。

阅卷教师普遍认为,大模型与人类考生之间仍存在显著差距。尽管在基础知识掌握上表现出色,但在逻辑推理和知识灵活应用方面,仍显不足。具体而言,大模型在解答主观题时,经常无法准确理解题干,尤其是代词指向不明,最终导致回答偏离题意;在数学题解答中,解题过程显得机械且缺乏逻辑性,几何题中常常出现与空间逻辑不符的结论;对于物理和化学实验的理解也较为肤浅,无法准确识别和运用实验器材。

大模型还存在伪造内容的现象,能够编造看似合理但实际上并不存在的诗句,或者在计算明显错误的情况下不进行反思,依然尝试给出答案,这为阅卷教师带来了困扰。

根据上海人工智能实验室上月公布的AI高考全卷结果,Qwen2-72B、GPT-4o及书生・浦语2.0文曲星(InternLM2-20B-WQX)成为此次大模型高考的前三名,得分率均超过70%。大多数模型在语文和英语科目上表现良好,但在数学方面仍有很大的提升空间。