七款AI大模型“高考成绩”揭晓：文科前三名均成功过一本线！ aida模型图-纵横手游网

IT之家7月18日报道，上海人工智能实验室于17日发布了针对七个大型AI模型的高考全科测试结果。根据“司南”评测体系的相关负责人的介绍，此次测试的主要目的是为了评估当前大模型的真实能力，发现其存在的问题，并推动技术的持续进步。

测试结果显示，书生・浦语2.0系列文曲星大模型（浦语文曲星）、阿里通义千问大模型Qwen2-72B以及GPT-4o在文理科中占据了前三名。值得注意的是，这三款AI模型的成绩均超过了“一本”和“二本”的录取分数线，以今年高考人数最多的河南省的标准为参考。

根据官方提供的信息，此次参与高考的AI大模型还包括来自零一万物的Yi-1.5-34B、通义千问的Qwen2-57B、智谱的GLM-4-9B以及法国初创公司Mistral的Mixtral 8×22B。

此次评测具有几个显著的特征：

全卷考试：评测涵盖整个试卷，包含带图题型，而不仅限于某一特定题型。

考前开源：参与评测的模型均在今年高考前已开源，从而避免了泄题风险。

专业评分：评分由具有高考阅卷经验的教师进行，力求与高考评分标准保持一致。

完全透明：生成答案的代码、模型答卷及评分结果均完全开源，以保证信息的透明性。

在综合科目的表现上，Qwen2-72B、GPT-4o、浦语文曲星依旧占据文理科的前三甲。其中，阿里通义千问大模型Qwen2-72B以546分获得文科状元，浦语文曲星以468.5分成为理科第一，均超越了“非开源国际插班生”GPT-4o（文科成绩531分，理科467分）。而来自国外的Mixtral 8×22B则在此次高考中表现不佳，平均得分明显低于国内的大模型。

阅卷教师普遍认为，大模型与人类考生之间仍存在显著差距。尽管在基础知识掌握上表现出色，但在逻辑推理和知识灵活应用方面，仍显不足。具体而言，大模型在解答主观题时，经常无法准确理解题干，尤其是代词指向不明，最终导致回答偏离题意；在数学题解答中，解题过程显得机械且缺乏逻辑性，几何题中常常出现与空间逻辑不符的结论；对于物理和化学实验的理解也较为肤浅，无法准确识别和运用实验器材。

大模型还存在伪造内容的现象，能够编造看似合理但实际上并不存在的诗句，或者在计算明显错误的情况下不进行反思，依然尝试给出答案，这为阅卷教师带来了困扰。

根据上海人工智能实验室上月公布的AI高考全卷结果，Qwen2-72B、GPT-4o及书生・浦语2.0文曲星（InternLM2-20B-WQX）成为此次大模型高考的前三名，得分率均超过70%。大多数模型在语文和英语科目上表现良好，但在数学方面仍有很大的提升空间。

七款AI大模型“高考成绩”揭晓：文科前三名均成功过一本线！ aida模型图

相关推荐