编者按:
【资料图】
本文主要是通过测试答题,分析大语言模型目前在做题特别是做语文题方面的表现。千万不要试图挑战考试纪律,靠自己走出人生的每一步才是坚实有力的。正如文中所提到的,“朋友们千万不要放弃学习,寄希望于以后一切用AI。坚持学习,你聪明的大脑带给你的惊喜和回报才是最大的!”
(图片来源:作者与AI对话的网页截图)
以上就是某AI献给参加2023年高考的莘莘学子们的祝福,你感受到它对你满满的爱与期待了吗?
高考要考察的领域和能力非常全面,大部分人都有相较之下的短板,笔者以前就因为缺乏与高考语文现代文阅读出题人的“共鸣”,无法取得高分。
近来,从事脑科学研究的笔者产生了一个想法:如果让类似GPT-4这样强大的人工智能(Artificial Intelligence, AI)大语言模型(Large Language Model, LLM)去答语文高考题,它表现如何呢?
繁花似锦的梦想大学
(图片来源:图像生成类人工智能模型Midjourney)
Part.1
压力为什么给到了大语言模型?
为什么是大语言模型才有较强的做题能力呢?为什么以前开发的自然语言处理(Natural Language Processing, NLP)的其他语言模型就没这种能力?
一种说法是,大模型具备了涌现能力(emergent ability),指的是一种模型在训练过程中,自动地学习到一些高级的、复杂的功能或行为,而这些功能或行为并没有被直接编码或指定。涌现能力是近期AI取得突破性进展最重要的核心技术,它使大模型在处理新的、未知的任务时表现更加出色,这是因为它可以自适应地学习到新的功能或行为,而不需要重新训练或修改模型。
Part.2
人类为什么聪明、适应性强呢?
有一种假说就是涌现,这种假说指的是:大脑中神经元数目一旦突破某个具体的数目,大脑的包括逻辑思考能力在内的各类功能就能上升一个档次,这就是量变引发质变的最佳例子。
因此当大语言模型训练的参数量和喂它的文本数据不断增长后,某天AI就“悟了”,从此语言能力就有一次爆发式的跃升,于是现在AI写出来的作文,不仔细甄别的话,和普通高中生写出来的作文难分伯仲。
大模型的涌现现象
(图片来源:参考文献[1])
涌现之后,大语言模型就具备了多模态的思维链路,可以构建一个关于语言和意义的高维内在表示,从而通过中间步骤的自然语言推理,来完成最终的输出。
简单来说,就是它会简单的推理了。
光看开头GPT-4的祝福,其实你很难辨别它是AI写的还是人类写的。虽然它还没具备真正的意识或思维能力,但它的确使用了类似于人的思维推理过程来衔接上下文的语言。
GPT-4和之前很火的ChatGPT一样,都是大语言模型,都是基于预训练变换器(Generative Pre-trained Transformer, GPT)的架构。如果将一个多步骤的问题分解为可以单独解决的中间步骤,还会进一步提高大语言模型的表达推理能力。
大模型思维链能力的出现
(图片来源:参考文献[2])
好了,前面铺垫了这么多大语言模型的优秀之处,接下来是骡子是马就要拉出来遛遛了。
那我们就用GPT-4来代替大语言模型出战,看看它能否在高考语文中替笔者一雪前耻!
去吧,GPT-4,开启你的AI做题家征程!
(图片来源:《假面骑士build》)
Part.3
答题开始!
本文会让AI把2022年全国各省市的高考语文卷都做一遍,一共8套,分别是全国甲卷、全国乙卷、新高考I卷、新高考II卷、北京卷、天津卷、浙江卷和上海卷,然后统计它的最终成绩。(因为OpenAI训练大语言模型的文本资料全是2021年9月以前的,因此2022年的试卷对于它来说是全新未开封的。)
(图片来源:作者与AI对话的网页截图)
笔者是浙江人,所以以浙江卷为例了。
第一大题是语言文字应用(20分),以下紫色框内是提问,灰色框内是它的回答:
正确答案:C
正确答案:2.B 3.B
正确答案:D
正确答案:①. 是因为它高于生活 ②. 实际上充满了哲理 ③. 而将生活哲学适当夸张和戏剧化
遗憾的是,前4题均为选择题,它只答对1题。
才做了4道题,我们就不得不宣告它已经失去了冲击高分的可能。
错别字、拼音判断,词语、标点的运用,还有病句的甄别之类的题目,感觉AI都不是很擅长,可见语文的基本功不是很扎实!不过第5题补写恰当语句确实做得挺不错的,和答案要表达的意思基本一致,而且下定义和简述题部分即便没有给它需要的图片它也能答出个所以然,可见它擅长的是对上下文的衔接和整体所要表达中心意思的概括总结,而对细枝末节不甚考究。
也就是说,AI有一点语文素养,但不多。
根据浙江卷赋分规则,第一大题扣12分,得分:8/20。
接下来第二大题是现代文阅读(30分),将原文和问题都输入进去后,AI的回答如下:
正确答案:7.A 8.A 9. ①士人:兴趣从仕途转向饮食,促进饮食发展。②技术:中华饮食历史悠久,明清时代饮食技术得到大发展。③理论:长期的实践经验发展成系统理论。
参考答案得分点:10. ①抑扬。②烘托。11. ①敦厚忠孝。②忍辱负重。③积极上进。④恪尽职守。12. ①舍小爱,取大爱。②舍私利,取大义。13. ①写出敦厚妈对美好生活向往的迫切。②塑造敦厚甘守荒凉、一心奉献的品格。
现代文阅读的选择题可悲得全错了,简答题也并没有从原文中进行归纳,按标准答案批改的话,10分的小阅读理解,它只拿了1分。
从大阅读理解也可以看出,AI不会半点答题技巧,比如问艺术手法,正确答案是“抑扬”和“烘托”这两种手法,AI辛辛苦苦答了一堆都没扣到点子上,因此,只能得0分。
品格部分答出责任感和无私这两点,只能说对原文最表面的内容有一定理解,但缺乏深刻的认识,因此评价和艺术效果答得完全不对,可以说,AI面对较长的现代文,理解起来有些束手无策。
看来,AI只能分析文字本身体现的,无法深刻理解作者所要表达的内涵。
参照标准答案,它在这个大题中综合得分:4/30。
接下来第三大题是古代诗文阅读(40分)。
你猜,它会答成什么样?
(图片来源:2022年浙江卷高考语文文言文部分)
正确答案:14.C 15.B 16.D
正确答案:17.AI断的完全正确 18.(1)那么(人们)将认为我是狠心的人,并且是吝惜(赏赐)爵位俸禄啊。(2)知道(上面)那些情况有可以给予百姓(刑赏忠厚)的道理却不给予,这也是存心伤害百姓罢了。
怎么样,你是不是没想到,AI的文言文居然不错!3个选择题里只错1个,断句全对!
只是最后一题文言文翻译存在很多问题,比如文中“忍”和“爱”分别应该是“狠心的”和“吝惜”的意思,AI翻译成了“忍受”和“喜爱”,很明显有些望文生义,最后文言文处得分:13/20。
正确答案:19.①.勤政楼 ②.千秋节 20. 情感上王诗表达对昔日盛世怀念,杜诗抒发昔盛今衰之悲叹;写法上王诗运用细节描写,杜诗运用拟人手法。
填空题是AI的强项,基本全对,即便古诗词也不例外,但是对古诗情感和写法上的理解和答题技巧还是差了点,得分:5/8。
正确答案:略
第三小题的文言文理解答得也不错,和标准答案差了几个小点而已,得分:4/6。
古诗文默写5选3即可,GPT(1)(2)(4)句古诗词是完全正确的,因此可以算全对,得分:6/6。
不过“潮平两岸阔,无wind可依然”可太有“创意”了,不仅自己编造古诗词,还中英掺杂……
最终古代诗文阅读部分得分:28/40。
那么最后一部分就是作文了,总分60分,题目如下:
(图片来源:2022年浙江卷高考语文作文部分)
2022年作文材料挺接地气的,内容和实例都给的非常具体,就事论事正是AI所擅长的,让大家来看看AI的800字小作文:
(图片来源:作者与AI对话的网页截图)
通篇看下来,感觉重复词句太多了,而且引用材料中的内容频率很高,不过逻辑和语句还算通顺,整体看来勉勉强强可以给个及格分36分。
这样,AI在语文浙江卷满分150分的情况下,最终得分为8+4+28+36=76分。
不及格!GPT只能微笑着打出“GG了”……
那么在挑战浙江卷不及格的情况下,它在试做其他的高考语文卷时,又会是何种表现呢?贯彻笔者本人一向严厉的批卷标准,并且在最后作文统一只给及格分的情况下,其他高考语文卷的最终成绩如下图汇总所示:
(图片来源:作者)
一共试做8套试卷,不及格率高达87.5%……
朋友们千万不要放弃学习,寄希望于以后一切用AI,现在大语言模型人工智能其实对于文本的“理解”还远逊于你们,它只是擅长“记忆”和“内容概括”而已。
坚持学习,你聪明的大脑带给你的惊喜和回报才是最大的!
Part.4
为什么AI语文考得不理想?它的其他科目怎么样?
在批卷的过程中,笔者发现,像文言文断句、根据上下文填空一类的词,GPT基本上全对,而在现代文阅读和故事里面谈到细节的情感和表达、写作技巧时,AI很难得分,而且现代文字越多,它在这个大题里的得分就越低,说明它很难抓住重点。
为什么会这样呢?
因为GPT系列本身的基础架构Transformer就不擅长处理长序列问题,尽管OpenAI的专家们使用了稀疏型Transformer来改进对于长文本的处理,降低计算复杂度,但现代文字数长了,它还是没办法将注意力集中到关键的点上。特别是散文,稀疏处理意味着它看一段跳个两三段,通篇囫囵吞枣下来,可能连故事主线讲了什么都难以概括,更不要说理解作者蕴含在文中的深意了。
而文言文之所以答得比现代文好,是因为其本身篇幅较短,有效规避了Transformer不擅长长序列处理的缺点,且文言文一个字通常能顶白话文两三个字,因此信息丰富度更高,这就使AI通篇都能保持对关键点的注意力机制,从而有着对整体内容的更好理解。
总之,AI没有经过系统的语文学习,不了解考试答题技巧,缺少对中文拼音与语法的细节掌握,更没有对现代文和古诗词中作者所要表达情感和精神内涵的深刻感悟。
可能有人会好奇,如果让GTP-4挑战高考的其他科目,结果会怎样呢?笔者的测试结果是:英语最高(毕竟算它的母语);数学和物理嘛,简单的题还可以,题目字数一长,它就开始胡编乱造了,分数都挺低的;化学,生物和文综类的结果一般般,和语文差别不大。
Part.5
放松心情,考运昌隆
今年的高考语文已落下帷幕,在这里由衷地祝愿各位考生都能发挥应有的实力,考上理想的大学!
作为经历过高考的“前辈”,有句真心话送给大家,高考只是人生的一个阶段性总结,分数的高低并不能和以后的成败画等号。人生是长跑,提高自己的认知,拓宽自己的眼界,把握时代的风向,做出正确的抉择,付出持续的努力,这才是最重要的。
最后,祝各位考运昌隆!
高考必胜!
(图片来源:图像生成类人工智能模型Midjourney)
参考文献:
[1] Jason Wei, Yi Tay, et al. Emergent Abilities of Large Language Models. arXiv:2206.07682.(2022)
[2] Jason Wei Xuezhi Wang, et al. Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. arXiv:2201.11903v6.(2023)
[3]Sébastien Bubeck, Varun Chandrasekaran, et al. Sparks of Artificial General Intelligence: Early experiments with GPT-4. arXiv:2303.12712. (2023)
出品:科普中国
作者:钱昱(中科院脑科学与智能技术卓越创新中心)
监制:中国科普博览
本文仅代表作者观点,不代表中国科普博览立场
本文首发于中国科普博览(kepubolan)
转载请注明公众号出处
转载注明出处 未经授权不得转载
转载授权、合作、投稿事宜,联系webmaster@kepu.net.cn
关键词:
责任编辑:Rex_08