6月26日,2025年全国高考志愿填报全面开启。在多个省份高考分数线揭晓之际,大模型“考生”的成绩单也吸引了许多关注。
6月25日晚间,字节跳动Seed团队公布了豆包大模型1.6-Thinking版本的“高考成绩”:文科总分683分,理科总分648分。这一成绩以2025年山东高考试题作为测评基准,其中语数外使用新课标全国新一卷,政史地/物化生则采用山东省自主命题。
最新公布的山东高考分数线显示,特殊类型招生控制线为521分,普通类一段线为441分。山东省内多位有着多年高三带班经验的资深教师判断,根据山东省公布的2025年夏季高考文化成绩一分一段表,豆包大模型1.6-Thinking的科目组合的赋分成绩最高能超过690分,排名在前80位左右,稳上985,并达到了冲击“清北”的水平。
值得注意的是,本次测试还引入了OpenAI的o3 high、谷歌的Gemini 2.5 Pro、Anthropic的Claude Sonnet 4和DeepSeek的R1-0528等国内外多款主流模型作为对比对象。成绩显示,4款大模型文理科成绩均大幅超过了普通类一段线,显示大模型已超越众多普通考生,达到人类优秀考生的水平。
“学霸”诞生:大模型“考生”成绩亮眼
据了解,目前全国大部分地区高考均采用赋分制,山东高考为“3+3”形式,语数英3门主科采用原始分(各150分),考生自选的3门副科(政史地/物化生,各100分)采用赋分制,满分为750分。其中,选择题、填空题等封闭题采用机判,开放题则由两位重点高中、有联考判卷经验的高中老师进行匿名评估,并且后续引入了多轮质检。
值得注意的是,在评测所采用的山东卷中,图像类问题分数为378分,占比高达36%,非常考验大模型的多模态理解和推理能力。豆包大模型基于较为出色的多模态能力,在评测中占据优势。在同台竞技的4款主流大模型中,由于DeepSeek R1不具备多模态能力,无法正常解答图像问题,但通过文本信息的推理也能获得一部分图像题分数。
评测结果显示,文科成绩方面,豆包1.6-Thinking总分达683,排名第一,谷歌Gemini 2.5 Pro以651分居于第二;理科成绩方面,谷歌Gemini 2.5 Pro以655分夺得第一,豆包则以7分之差排名第二。各个模型在语、数、外等基础学科的表现基本都比较好,达到了优秀考生的水平,而且区分度已经不大。不过,OpenAI的o3出现了作文跑题的失误,导致语文单科得分较低,给整体成绩拖了后腿。
据山东省内多位有着多年高三带班经验的资深教师判断,3门自选科目的赋分相比原始分会有一定程度的提高,尤其是在化学、物理等难度较大的科目上,预估豆包大模型1.6-Thinking的科目组合的赋分成绩最高能超过690分,排名在前80位左右,稳上985,并达到了冲击“清北”的水平。
技术突破:豆包1.6系列模型持续进化
在大模型“考生”高考出分的同时,记者注意到字节跳动Seed团队也公布了Seed1.6 系列模型的详细技术介绍。支撑高考优异成绩的,正是豆包大模型1.6系列的重大技术革新。
在6月11日举行的火山引擎Force原动力大会上,火山引擎正式发布了豆包1.6系列模型。 作为Seed 团队推出的最新通用模型系列,豆包1.6系列模型融合了多模态能力,支持自适应的深度思考、多模态理解、图形界面操作,且支持 256K 长上下文的深度推理。
据Seed团队介绍,Seed1.6沿用Seed1.5在稀疏MoE(混合专家模型)上的探索结果,使用23B激活、230B总参数进行预训练。据会上披露的多项权威测评成绩,在复杂推理、竞赛级数学、多轮对话和指令遵循等测试集上,豆包1.6—Thinking的表现已跻身全球前列。
具体来看,在预训练阶段,Seed1.6通过纯文本预训练、多模态混合持续训练、长上下文持续训练阶段,对模型架构、训练算法等进行持续改进,性能在参数量不增加的情况下取得明显提升。在后训练阶段,Seed1.6-Thinking强化了多模态融合的思考能力,并提出了“动态思考能力”,在性能和效果上实现更好的动态平衡。
群“模”逐鹿:高考成为“AI竞技场”
如今,高考已经成为了AI大厂们的重要“竞技场”,形成了一场激烈的 “大模型高考竞赛”。
对于大模型厂商为何热衷于做高考评测,业内人士分析指出,高考是大模型非常好的测试场景:一方面,题目全面,文科到理科,从文本到图像理解,基础知识都有覆盖;另一方面,题目也比较新,能够反映模型的泛化能力。此外,高考作为国内最具权威性和影响力的人才选拔考试,也具备较高的社会关注度和话题讨论度。
近年来,随着大模型技术的不断迭代,大模型“考生”在高考中取得的成绩也有了大幅提升。在去年的媒体评测中,豆包大模型文理科总分分别只有542.5分和466.5分,而今年则“进步神速”,文理科总分分别提高了140.5分和181.5分。此外,其他的几款主流大模型也取得了优异的成绩。
不过,大模型也并非只能当“做题家”,在实际应用中,AI大模型的技术优势正在转化为产业价值。艾媒咨询发布的《2024-2025年中国AI大模型市场现状及发展趋势研究报告》数据显示,2024年中国AI大模型市场规模约为294.16亿元,预计2026年将突破700亿元,中国AI大模型行业正处于爆发式发展阶段。
艾媒咨询分析师认为,AI大模型已初步具有算力高效利用能力、真实世界感知能力、自主学习能力以及创作能力等。中国大部分的国产AI大模型可在文本、图像等方面赋能,并广泛渗透到娱乐、电商、工作以及垂直领域等各类应用之中,为中国传统行业进行数字化赋能。
以豆包为例,据了解,目前豆包大模型已在汽车、智能终端、互联网、金融、教育科研、零售消费等行业广泛落地,覆盖4亿终端设备,如小米、OPPO、vivo、荣耀、联想、三星等品牌;八成主流车企,如奔驰、宝马、奥迪等;70%系统重要性银行和数十家证券基金公司,如招商银行、华泰证券等。
校对:杨舒欣