研究表明人工智能在语法方面失败，人类和AI之间存在双重不匹配

蓝海情报网 2024-04-28 23:03:44 94

图片来源：摄图网

近日，UAB和URV研究人员在PNAS(美国国家科学院院刊)上发表的一项研究表明，人类能够识别句子中的语法错误，而人工智能却不能。研究人员比较了人类的技能和目前可用的三种最好的大型语言模型：两种基于GPT3，一种基于GP3.5 (ChatGPT)。

它们被赋予了一项对人们来说很简单的任务：要求他们当场识别各种句子在他们的母语中语法是否良好。参与该实验的人类和语言模型都被问到一个非常简单的问题：这句话在语法上正确吗?结果表明，人类回答正确，而大型语言模型给出了许多错误答案。事实上，我们发现他们大多数时候都采用回答是的默认策略，无论答案是否正确。

因此，研究揭示了人类和人工智能之间存在双重不匹配。人们无法获得负面证据——关于所讲语言中语法不正确的内容——而大型语言模型可以通过人类反馈获得。但即便如此，模型也无法识别细微的语法错误，而人类却可以立即且毫不费力地识别。

——AI大模型是一种新的智能计算范式

超大规模智能模型，简称大模型，是近年兴起的一种新的人工智能计算范式。和传统AI模型相比，大模型的训练使用了更多的数据，具有更好的泛化性，可以应用到更广泛的下游任务中。按照应用场景划分，AI大模型主要包括语言大模型、视觉大模型和多模态大模型等。业界典型的自然语言大模型有GPT-3、源、悟道和文心等。视觉大模型也已广泛应用于自动驾驶、智能安防、医学影像等领域。基于多模态大模型的以文生图技术也迅速发展，AI内容生成(AI Generated Content，AIGC)已成为下一个AI发展的重点领域。

研究表明人工智能在语法方面失败，人类和AI之间存在双重不匹配

——AIGC在各行业渗透度分析

目前，随着数字经济与实体经济融合程度不断加深，以及互联网平台的数字化场景向元宇宙转型，人类对数字内容总量和丰富程度的整体需求不断提高。AIGC作为当前新型的内容生产方式，已经率先在传媒、电商、影视、娱乐等数字化程度高、内容需求丰富的行业取得重大创新发展，市场潜力逐渐显现。与此同时，在推动数实结合、加快产业升级的进程中，金融、医疗、制造、工业等各行各业的AIGC应用也都在快速发展。

据IDC，2022年中国人工智能行业应用渗透度排名前五的行业依次为互联网、金融、政府、电信和制造。另外，AI为自动驾驶、交通物流所赋予的价值也不容忽视，据预计，AI为交通领域创造3800亿元的经济价值。

研究表明人工智能在语法方面失败，人类和AI之间存在双重不匹配

——AI应用模型效率化生产增长116.7%

AI应用模型效率化生产平台是全栈式的、可实现流水线开发的AI应用模型生产工具。假若每次开发模型都需要算法工程师单独完成从生产到上线的全流程搭建，就会导致很多时间的耗损与AI模型开发成本的浪费。集成了数据、算法与算力的相应开发工具的模型开发工具包—AI应用模型效率化生产平台应运而生。2020年我国AI应用模型效率化生产的市场规模达到23亿元，虽然市场规模较小但是增速飞快，2020年市场规模同比增速高达116.7%。

研究表明人工智能在语法方面失败，人类和AI之间存在双重不匹配