语文能考124分 数学都不及格……这群“偏科”的考生是谁?阅卷老师这么说

图说:参加高考的偏科6个开源模型和GPT-4o的语数英成绩 来源/上海人工智能实验室(下同)
高考已经告一段落,一群“特殊考生”最先出分!语文
今年高考甫一结束,分数上海推出的学都大模型开源开放评测体系“司南”就选取6个开源模型及GPT-4o进行高考“语数外”全卷能力测试。评测采用全国新课标I卷,不及参与评测的格群所有开源模型,开源时间均早于高考,生阅师说确保评测“闭卷”性。卷老同时,偏科成绩由具有高考评卷经验的语文教师人工评判,更加接近真实阅卷标准。分数
结果怎么样呢?学都“大模型高考”的前三甲得分率均超70%,大部分模型“考生”语文、不及英语科目表现良好,格群但在数学方面还有很大的生阅师说提升空间。其中,月初开源的阿里通义千问大模型Qwen2-72B排名第一,在语数外三科420分的满分中获得303分,OpenAI的GPT-4o和上海人工智能实验室的书生·浦语2.0文曲星(InternLM2-20B-WQX)排名二三位。
大模型考生比拼新课标I卷
高考,目前已普遍被研究者用于考察大模型的智能水平。
司南评测体系团队选取了GPT-4o及在2024年高考前开源的6个模型,考生分别是——
Mixtral 8x22B:法国AI创业公司Mistral于2024年4月17日开源的对话模型;
Yi-1.5-34B:零一万物公司于2024年5月12日开源的Yi-1.5系列最大的模型;
GLM-4-9B:智谱AI于2024年6月4日推出的最新一代预训练模型GLM-4系列的开源版本;
InternLM2-20B-WQX:上海人工智能实验室于2024年6月4日开源的书生·浦语2.0系列文曲星大语言模型;
Qwen2-57B:阿里巴巴于2024年6月6日开源的Qwen2系列MoE对话模型;
Qwen2-72B:阿里巴巴于2024年6月6日开源的72B稠密模型;
司南评测体系团队称,因无法确定闭源模型的更新时间,为公平起见,此次评测没有纳入商用闭源模型,仅引入GPT-4o作为评测参考。
司南评测体系首次采用高考全卷测试的形式,选取新课标I卷“语数外”三科题目作为测试集。因受测的开源模型均为大语言模型,在评测过程中,仅输入文字题干(数学包含2道带图试题),英语听力部分(分值30分)不纳入此次评测。
首个大模型高考全卷评测结果显示,Qwen2-72B、GPT-4o及书生·浦语2.0文曲星(InternLM2-20B-WQX)成为此次“大模型高考”的前三名,在总分420分的语数英三科较量中,三位“考生”的总分分别是303分、296分和295.5分。
语言能力“不错” 数学“一般”
司南评测体系团队介绍,大部分模型在“语言”本质上的表现良好,语文平均得分率为67%,英语更是达到了81%。
数学则是所有大模型的短板,平均得分率仅为36%。得益于研究团队在数学推理上的投入,InternLM2-20B-WQX取得了75分,在所有受测模型中排名第一——但仍未达到及格水平,这表明大模型的数学能力存在较大提升空间。



参与评测的所有开源模型,权重均在2024年6月7日高考题目公布前开源,避免了“数据污染”和“刷题”风险,与真实高考严格的“闭卷考试”一致,不存在“作弊”可能。
与以往多采用高考客观题考察模型的方式不同,本次测试研究团队使用了语数外三科的全卷试题,既包含选择、填空等“答案唯一性”题目,也包括简答、阅读理解及作文等主观题,在更加接近真实高考的环境中测试模型能力。
为贴近高考评卷模式,联合团队邀请多位具有阅卷经验的高中教师对模型主观题答案评分,每份考卷至少由3位教师分别打分。对于统一回答但教师评分悬殊的情况,则会再次进行复核,尽量避免“争议判卷”的出现。
联合团队认为,如同高考阅卷也存在细微差异,由于主观题类型的引入,本次评测也无法做到绝对的公平。但同时由于主观题的存在,本次测评能够在真实环境中从人的视角考察大模型能力,为学术界和产业界提供更有价值的指标参考。
阅卷前不知道“考生”身份
本次阅卷采用与高考一致的完全匿名形式,所有大模型答卷均进行了匿名处理,避免阅卷教师产生“先入为主”的观念。在阅卷开始前,阅卷教师未被告知答卷均由模型生成,使阅卷教师完全以面对真实考生的标准评判回答效果。
在完成所有大模型答卷的评卷工作后,阅卷教师被告知所评“考生”的真实身份为大模型。研究人员同时邀请各科教师对大模型表现进行了整体分析,为模型能力提升策略提供参考。
“语文阅卷组”认为:模型的现代文阅读理解能力普遍较强,但是不同模型的文言文阅读理解能力差距较大。大模型作文更像问答题,虽然有针对性但缺乏修饰,几乎不存在人类考生都会使用举例论证、引用论证、名人名言和人物素材等手法。
“数学阅卷组”指出:大模型的主观题回答相对凌乱,且过程具有迷惑性,甚至出现过程错误但得到正确答案的情况。大模型的公式记忆能力较强,但是无法在解题过程中灵活运用。
“英语阅卷组”表示:整体表现良好,但部分模型由于不适应题型,在七选五、完形填空等题型得分率较低。大模型英语作文普遍存在因超出字数限制而扣分的情况,而人类考生多因为字数不够扣分。
司南评测体系团队告诉记者,后续将在评测中引入多模态大模型,以考察模型应对更多题型的能力,并陆续发布覆盖不同学科和地区的完整高考评测。
记者 郜阳 金志刚
【相关阅读】大模型技术哪家强?上海人工智能实验室发布开源开放评测体系“司南”
(责任编辑:焦点)
-
近日,在加拿大西部不列颠哥伦比亚省,天气持续干燥,当地森林大火仍在肆虐。在该省西南部的温哥华岛,森林大火导致当地交通中断,城市物资供应受阻。温哥华岛的森林大火起火点位于当地卡梅隆湖,这个湖距离最近的城
...[详细]
-
新华网北京12月24日电记者杨维汉)最高人民法院24日对外公布的新刑事诉讼法司法解释进一步明确了“非法证据”的认定标准。司法解释规定,使用肉刑或者变相肉刑,或者采用其他使被告人
...[详细]
-
广东宣布2016年异地考生符合条件者可在广东报名参加高考,这一决定必将对京沪形成压力。京沪作为中国名牌大学最集中的城市,不可能长期无条件拒绝异地考生。北京、上海昨天都公布了过渡性方案,仍未对放开异地高
...[详细]
-
一年一度的春运即将拉开帷幕,在微博上一些网友呼吁无座火车票实行半价,得到众多网友的热烈响应,大家纷纷说“有道理”。人民日报官方微博等也对此予以关注,河南商报官方微博发起的投票显示,八成网友支持站票半价
...[详细]
-
...[详细]
-
频频瘫痪的订票网站也是“豆腐渣工程”,责任方不应光是解释、说明、告知便万事大吉,而应郑重向公众道歉,严惩相关责任人26日上午,铁道部发布公告称,由于机房空调系统故障,12306订票网站将暂停互联网售票
...[详细]
-
春运还没开始,卖票已经打成一团。铁道部开发12306售票网站本来是要便民,未想“道高一尺,魔高一丈”,各种网上抢票软件竞相出笼,一列火车的车票,竟能在20秒内被一抢而空。春运不愧是中国最生动的缩影,巨
...[详细]
-
陕西省神木县“房姐”至少有4个户口!记者1月21日查实,除了此前被曝光的两个户口,龚爱爱还有两个户口,分别在北京市朝阳区奥运村派出所和陕西省神木县大柳塔派出所,户名均为龚爱爱(1月22日《京华时报》)
...[详细]
-
全国移民管理机构上半年缴毒4.07吨 破获万克以上毒品案件45起
今年截至6月25日,全国移民管理机构在口岸边境地区共破获毒品案件186起,抓获犯罪嫌疑人243人,缴获各类毒品4.07吨,其中破获万克以上毒品案件45起,进一步巩固了口岸边境禁毒斗争持续向好态势。近年
...[详细]
-
无论有着怎样的文明生态,也无论实施着怎样严苛的法规,都不可能杜绝骗子的产生。但是,如何对待各式各样的骗子,却既考验着社会管理的水平,又对社会的法治秩序和道德生态有着根本性的影响。一瓶30毫升液体,价格
...[详细]

因卫生部门贴错标识 美国一餐馆生意惨淡
"有何大惊小怪"比公款旅游更可怕
是什么导致了“社会情绪反向”?
"死在编制里"凸显畸形体制吸引力
外交部:希望伊美双方保持谈判势头,继续相向而行
