蓝海情报网

AI大模型翻车!小学数学问题难倒一众好汉 分不清大小,业内人士 大模型就是偏科,文科强理科弱

蓝海情报网 509

AI大模型翻车!小学数学问题难倒一众好汉 分不清大小,业内人士 大模型就是偏科,文科强理科弱

AI大模型翻车!小学数学问题难倒一众好汉:分不清大小,业内人士:大模型就是偏科,文科强理科弱

图片来源:摄图网

当前,以大模型为代表的人工智能技术正处于蓬勃发展的阶段。大模型,具有巨大的参数规模和深度学习能力,能够实现更加精确的语言理解、图像识别和智能决策等任务。然而,大模型技术却在一道小学数学问题上翻了车,分不清谁大谁小。

7月13日,最新一期的《歌手》公布排名,孙楠得票13.8%,外国歌手香缇莫得票13.11%。引发了网友对排名的质疑。不少网友认为13.11%大于13.8%,因此,香缇莫的得票率比孙楠高。随后,关于13.8和13.11大小比较话题冲上热搜。

一财网消息,以9.11和9.9哪个大为例,经测试,ChatGPT以及目前国内的主流大模型,包括阿里、百度等5家大厂模型,月之暗面等6家AI独角兽的模型。阿里通义千问、百度文心一言、Minimax和腾讯元宝4家大模型答对,其他8家则答错。

结果显示,大部分大模型在问答中都错误地比较了小数点后的数字,认为9.11大于9.9.考虑到数字涉及的语境问题,将其限定为在数学语境下,如ChatGPT这样的大模型也照样答错。

值得注意的是,ChatGPT等大模型出现了胡说八道的现象,但在为9.9填补了9.90的零位数后,就得出了正确的回答。这类大模型说胡话的现象,在业界被称为大模型出现幻觉。此前,哈尔滨工业大学和华为的研究团队发表的综述论文认为,模型产生幻觉的三大来源:数据源、训练过程和推理。大模型可能会过度依赖训练数据中的一些模式,如位置接近性、共现统计数据和相关文档计数,从而导致幻觉。此外,大模型还可能会出现长尾知识回忆不足、难以应对复杂推理的情况。

截至发稿,月之暗面回应表示:其实我们人类对大模型的能力探索——无论是大模型能做到什么,还是大模型做不到什么——都还处于非常早期的阶段。我们非常期待用户在使用中能够发现和报告更多的边界案例(Corner Case),不管是最近的‘9.9和9.11哪个大、13.8和13.11哪个大’,还是之前的‘strawberry有几个r’,这些边界案例的发现,有助于我们增加对大模型能力边界的了解。

针对大模型答数学题普遍吃瘪的问题,有业内人士表示,目前来看大模型的数理能力相对较差的情况在中外都是一样的,打个比方可以这样讲,大模型就是偏科,文科强理科弱,这个情况在一段时间内也不会得到明显的改善。

从AI大模型在小学数学问题上‘翻车’回看AI大模型行业发展情况:

——AI大模型是一种新的智能计算范式

超大规模智能模型,简称大模型,是近年兴起的一种新的人工智能计算范式。和传统AI模型相比,大模型的训练使用了更多的数据,具有更好的泛化性,可以应用到更广泛的下游任务中。按照应用场景划分,AI大模型主要包括语言大模型、视觉大模型和多模态大模型等。业界典型的自然语言大模型有GPT-3、源、悟道和文心等。视觉大模型也已广泛应用于自动驾驶、智能安防、医学影像等领域。基于多模态大模型的以文生图技术也迅速发展,AI内容生成(AI Generated Content,AIGC)已成为下一个AI发展的重点领域。

AI大模型翻车!小学数学问题难倒一众好汉:分不清大小,业内人士:大模型就是偏科,文科强理科弱

——全球生成式AI应用需求分析

根据麦肯锡在2023年4月进行的一项调查,尽管GenAl进入公众视野并不久,但对这些工具的尝试性应用已经相当普遍,受访者们预计这些新能力将改变其所在行业。生成式AI已引起商界人士的兴趣:受访者不分地区、行业和资历等级,人人都在工作中和工作之外尝试使用生成式AI。79%的受访者表示,他们至少在工作中或工作之外接触过生成式AI。22%的受访者表示,他们会在工作中经常使用生成式AI。不同资历受访者的生成式AI使用率非常相似,而从行业和地区来看,技术行业和北美地区受访者的生成式AI使用率最高。

AI大模型翻车!小学数学问题难倒一众好汉:分不清大小,业内人士:大模型就是偏科,文科强理科弱

——全球生成式AI行业市场规模

随着ChatGPT的火爆出圈,生成式AI成为各行各业关注和热议的话题。全球科技巨头和AI厂商纷纷下场,唯恐错过此番科技盛宴。行业翘楚和媒体将生成式AI浪潮类比昔日的移动互联网机遇,认为它将对全球经济和各个行业带来深远影响,企业也将迎来重大变革机遇,同时,根据Bloomberg Intelligence披露的数据,2023年全球生成式AI市场整体规模约为670亿美元,预计2029年及2032年将分别达到7280亿美元和1.3万亿美元,2022-2032年复合增长率高达42%。

AI大模型翻车!小学数学问题难倒一众好汉:分不清大小,业内人士:大模型就是偏科,文科强理科弱

据世界知名咨询机构麦肯锡报告估计,生成式人工智能(AIGC)最终每年可为全球增加7.3万亿美元的GDP。作为新兴的第四产业,大模型将与第一产业农业、第二产业工业、第三产业服务业一起,将成为推动经济发展的新引擎。作为新的产业增长极,第四产业将深刻改变经济社会各个领域,为生产力发展带来巨大的提升。

星环科技创始人孙元浩认为2024年,或将成为人工智能,特别是生成式AI赋能各行各业的元年,智能化应用在各个领域发挥越来越重要的作用,为人们的生活和工作带来更多的便利和创新。其中,大模型发挥了重要的作用。

经济学人APP资讯组

看完觉得写得好的,不防打赏一元,以支持蓝海情报网揭秘更多好的项目。

标签:

ad2

推荐内容