高考出分！大模型“考生”，有望冲击“清北”！

来源：证券时报网作者：周春媚2025-06-26 14:27

字号

超大

大

标准

小

6月26日，2025年全国高考志愿填报全面开启。在多个省份高考分数线揭晓之际，大模型“考生”的成绩单也吸引了许多关注。

6月25日晚间，字节跳动Seed团队公布了豆包大模型1.6-Thinking版本的“高考成绩”：文科总分683分，理科总分648分。这一成绩以2025年山东高考试题作为测评基准，其中语数外使用新课标全国新一卷，政史地/物化生则采用山东省自主命题。

最新公布的山东高考分数线显示，特殊类型招生控制线为521分，普通类一段线为441分。山东省内多位有着多年高三带班经验的资深教师判断，根据山东省公布的2025年夏季高考文化成绩一分一段表，豆包大模型1.6-Thinking的科目组合的赋分成绩最高能超过690分，排名在前80位左右，稳上985，并达到了冲击“清北”的水平。

值得注意的是，本次测试还引入了OpenAI的o3 high、谷歌的Gemini 2.5 Pro、Anthropic的Claude Sonnet 4和DeepSeek的R1-0528等国内外多款主流模型作为对比对象。成绩显示，4款大模型文理科成绩均大幅超过了普通类一段线，显示大模型已超越众多普通考生，达到人类优秀考生的水平。

“学霸”诞生：大模型“考生”成绩亮眼

据了解，目前全国大部分地区高考均采用赋分制，山东高考为“3+3”形式，语数英3门主科采用原始分（各150分），考生自选的3门副科（政史地/物化生，各100分）采用赋分制，满分为750分。其中，选择题、填空题等封闭题采用机判，开放题则由两位重点高中、有联考判卷经验的高中老师进行匿名评估，并且后续引入了多轮质检。

值得注意的是，在评测所采用的山东卷中，图像类问题分数为378分，占比高达36%，非常考验大模型的多模态理解和推理能力。豆包大模型基于较为出色的多模态能力，在评测中占据优势。在同台竞技的4款主流大模型中，由于DeepSeek R1不具备多模态能力，无法正常解答图像问题，但通过文本信息的推理也能获得一部分图像题分数。

评测结果显示，文科成绩方面，豆包1.6-Thinking总分达683，排名第一，谷歌Gemini 2.5 Pro以651分居于第二；理科成绩方面，谷歌Gemini 2.5 Pro以655分夺得第一，豆包则以7分之差排名第二。各个模型在语、数、外等基础学科的表现基本都比较好，达到了优秀考生的水平，而且区分度已经不大。不过，OpenAI的o3出现了作文跑题的失误，导致语文单科得分较低，给整体成绩拖了后腿。

据山东省内多位有着多年高三带班经验的资深教师判断，3门自选科目的赋分相比原始分会有一定程度的提高，尤其是在化学、物理等难度较大的科目上，预估豆包大模型1.6-Thinking的科目组合的赋分成绩最高能超过690分，排名在前80位左右，稳上985，并达到了冲击“清北”的水平。

技术突破：豆包1.6系列模型持续进化

在大模型“考生”高考出分的同时，记者注意到字节跳动Seed团队也公布了Seed1.6 系列模型的详细技术介绍。支撑高考优异成绩的，正是豆包大模型1.6系列的重大技术革新。

在6月11日举行的火山引擎Force原动力大会上，火山引擎正式发布了豆包1.6系列模型。作为Seed 团队推出的最新通用模型系列，豆包1.6系列模型融合了多模态能力，支持自适应的深度思考、多模态理解、图形界面操作，且支持 256K 长上下文的深度推理。

据Seed团队介绍，Seed1.6沿用Seed1.5在稀疏MoE（混合专家模型）上的探索结果，使用23B激活、230B总参数进行预训练。据会上披露的多项权威测评成绩，在复杂推理、竞赛级数学、多轮对话和指令遵循等测试集上，豆包1.6—Thinking的表现已跻身全球前列。

具体来看，在预训练阶段，Seed1.6通过纯文本预训练、多模态混合持续训练、长上下文持续训练阶段，对模型架构、训练算法等进行持续改进，性能在参数量不增加的情况下取得明显提升。在后训练阶段，Seed1.6-Thinking强化了多模态融合的思考能力，并提出了“动态思考能力”，在性能和效果上实现更好的动态平衡。

群“模”逐鹿：高考成为“AI竞技场”

如今，高考已经成为了AI大厂们的重要“竞技场”，形成了一场激烈的 “大模型高考竞赛”。

对于大模型厂商为何热衷于做高考评测，业内人士分析指出，高考是大模型非常好的测试场景：一方面，题目全面，文科到理科，从文本到图像理解，基础知识都有覆盖；另一方面，题目也比较新，能够反映模型的泛化能力。此外，高考作为国内最具权威性和影响力的人才选拔考试，也具备较高的社会关注度和话题讨论度。

近年来，随着大模型技术的不断迭代，大模型“考生”在高考中取得的成绩也有了大幅提升。在去年的媒体评测中，豆包大模型文理科总分分别只有542.5分和466.5分，而今年则“进步神速”，文理科总分分别提高了140.5分和181.5分。此外，其他的几款主流大模型也取得了优异的成绩。

不过，大模型也并非只能当“做题家”，在实际应用中，AI大模型的技术优势正在转化为产业价值。艾媒咨询发布的《2024-2025年中国AI大模型市场现状及发展趋势研究报告》数据显示，2024年中国AI大模型市场规模约为294.16亿元，预计2026年将突破700亿元，中国AI大模型行业正处于爆发式发展阶段。

艾媒咨询分析师认为，AI大模型已初步具有算力高效利用能力、真实世界感知能力、自主学习能力以及创作能力等。中国大部分的国产AI大模型可在文本、图像等方面赋能，并广泛渗透到娱乐、电商、工作以及垂直领域等各类应用之中，为中国传统行业进行数字化赋能。

以豆包为例，据了解，目前豆包大模型已在汽车、智能终端、互联网、金融、教育科研、零售消费等行业广泛落地，覆盖4亿终端设备，如小米、OPPO、vivo、荣耀、联想、三星等品牌；八成主流车企，如奔驰、宝马、奥迪等；70%系统重要性银行和数十家证券基金公司，如招商银行、华泰证券等。

校对：杨舒欣

责任编辑：冉超

字节跳动

大模型

高考成绩

声明：证券时报力求信息真实、准确，文章提及内容仅供参考，不构成实质性投资建议，据此操作风险自担

下载"证券时报"官方APP，或关注官方微信公众号，即可随时了解股市动态，洞察政策信息，把握财富机会。

用户评论

登录后可以发言

网友评论仅供其表达个人看法，并不表明证券时报立场

发表评论

暂无评论

时报热榜

换一换

热点视频

换一换