当ChatGPT参加中国高考,把全国A卷B卷喂给它后,竟严重偏科!

夕小瑶科技说 原创作者 | PythonChatGPT作为一个智能人机对话应用,在推出后迅速风靡全球。仅仅一个月的时间,其用户数量已经突破了一亿大关。人们也用ChatGPT测试了很多考试项目,例如SAT、AP、GRE等。然而,如果让ChatGPT来参加我们中国的高考,会是怎样的一番光景呢?他会不会偏科呢?我们这些普通人又能否考得过ChatGPT呢?且看复旦大学和华东师大的同学们给大家带来的评测。

论文题目:Evaluating the Performance of Large Language Models on GAOKAO Benchmark论文链接:https://www.php.cn/link/de66dbc30377a1f7908db45298324aa3

如何让ChatGPT解答高考题?

该论文采用零监督prompt的方式,将试题转化为ChatGPT的输入,如下图所示。对于不同的学科和题型,设计了不同的询问方式。对于数学题,则将公式转化为latex输入。

当ChatGPT参加中国高考,把全国A卷B卷喂给它后,竟严重偏科!

高考数据集

本文测试采用2010~2022年,一共13年间的全国A卷和全国B卷,每套试卷包含10门学科,即语数英物化生史地政,其中数学分为理科数学与文科数学。

数据集一共包含2811道试题。具体题型这里就不展开,相信读者们对高考题还是十分了解的。

在评估时,聘请上海市曹杨第二中学的高中老师批阅主观题。

实验与分析

历年高考,ChatGPT取得的分数如下图所示。由于在计算分数时,将每科都归一化到100分,所以这个成绩无法和你我的高考成绩直接比较。但也可以看出,这个分数并不理想,估计无论是复旦还是华东师大都是考不上的。这是为什么呢?

上图展示了ChatGPT在各个学科、以及主客观题上的表现。蓝色为客观题,黄色为主观题。分析发现,ChatGPT对客观题的成绩较好,尤其是英语阅读理解、单选、完形填空,分别取得了88.3%,78.1%,73.8%的准确率。但即使是客观题,理科数学的准确率还不到40%。数学是真的难呀~

主观题上,ChatGPT的表现较差,物理、化学、生物和数学科目中,主观题的表现明显不如客观题。结合理科客观题分数也较差,或许ChatGPT偏向文科?根据阅卷人的评语,ChatGPT主要欠缺在:1.数学问题中的复杂方程难以正确解决,在解题过程中使用了错误的公式。2.阅读较长材料时理解和概括能力不足。

总结

ChatGPT在训练过程中可能没有使用中国高考题数据,因此其表现不受数据泄露的影响,具有较高的可信度。

观察结果显示,与国外考试相比,ChatGPT在中国高考题方面的表现稍逊一筹。因此,国内的学生暂时无需过分担心无法考过ChatGPT。然而,文章中提到的长文本概括能力等在GPT4-32K中有显著改进,国产大模型也在中文数据上做了进一步的优化。因此,我们可以期待未来大模型高考题上取得更瞩目的表现。

此外,用ChatGPT解高考题这个思路,或许可以回答网友们对哪个省的考题更难的争论?



ChatGPT是一项由OpenAI推动的自然语言处理技术,其擅长的领域之一是语言推理能力。然而,如果将ChatGPT一机器人参加中国高考,是否能够顺利通过考试呢?近日有网友猜测及测试,ChatGPT 竟然发生了严重的偏科现象,这一现象让许多关注该技术的专家和研究人员感到惊讶。下文探讨ChatGPT参加中国高考后的表现,以及这一现象背后的原因。
一、计算机能否代替人类进行语言推理?
在当今社会,计算机科学和人工智能技术的发展逐渐使得机器人代替人类在某些方面具有更高的效率。然而,对于语言推理能力这种需要人类处理文化、历史、习惯、背景等因素的技能来说,机器具有的不足仍然清晰可见。打个比方,在初中语文考试中,尽管ChatGPT可以轻松根据语法及语义规则完成一些语法题、词语填空、改错等简单的语言操作,但是要在写作部分另外完成一篇漂亮、有逻辑的文章,它可能会遇到很多难题。
二、ChatGPT参加中高考后偏科的具体现象
近日,有网友对两种全国卷分别进行尝试,结果发现ChatGPT在数学科目上得分很高,但是在语文科目中严重偏科,甚至连基础的语法、修辞、文学理解都无法掌握。具体的例子是,ChatGPT带着较多的语法错误写了一篇作文,其中包括错误使用句式、繁杂的句子结构、甚至一些并不正确的文字(assumption换成了assimas)。这一表现让专家和学者们惊讶不已,也使得我们认识到语言理解这一方面对于机器学习的挑战之处。
三、语言模型的不足:不应助长『一统天下』的危机
虽说技术革新是进步,但是在革新过程中,技术本身难免出现不足。很多学者认为,如果机器人可以代替人类进行花语,它们很有可能会犯一些人类无法想象的错误。有时候,自动化社会造成的破坏,或者机器运行的过程,都需要我们认真地去思考,甚至去反省。由此,我们并不希望ChatGPT这一语言技术的出现,助长国际之间文化的一致,甚至产生『无中生有』的习惯用语。更好的办法应该是,鼓励语言本地化,维护文化多样性,同时对技术和数据进行深入的探究和研究,以及生物人类的基本需求。
结语
当ChatGPT参加中国高考,把全国A卷B卷喂给它后,竟严重偏科!的现象,引发不少讨论,尽管技术在发展,但是从ChatGPT的表现来看,计算机目前并不能完全代替人类进行某些推理能力的发挥。未来对于计算机语言推理能力的研究,我们仍然需要花费更多努力和耐心,同时需要青睐多样性和文化的同时,注重机器技术在道德和社会方面的操作问题和影响。