翻译表现提升44！神经机器翻译模型能翻译200种语言

蓝海情报网 2024-06-08 13:02:56 553

瞻观前沿

6月5日，《自然》发表的一篇论文报道了一个meta人工智能(AI)模型的底层技术。该模型能翻译200种不同语言，增加了机器翻译的语言数量。神经机器翻译模型利用人工神经网络翻译各种语言。这些模型通常需要大量可在线获取的数据加以训练，但并非所有语言数据都是公开、低成本或是普遍可及的，这类语言被称为低资源语言。一味地增加模型翻译语言数量，可能会影响模型的翻译质量。

此次，meta的法国研究团队和不落下任何语言(NLLB)团队开发了一种跨语言技术，能让神经机器翻译模型学习如何利用翻译高资源语言的预存能力，实现对低资源语言的翻译。研究团队开发了一个在线多语言翻译工具，名为NLLB-200。该工具能容纳200种语言，其低资源语言数量是高资源语言数量的3倍，翻译表现则比当今已有系统高44%。

研究团队指出，这个工具可以帮助很少被翻译的那些语言的使用者，让他们也能用上互联网和其他技术。此外，教育是一个非常重要的应用，因为这个模型可以帮助低资源语言使用者获取更多图书和研究文章。但团队也表示，目前误译的情况仍有可能出现。

翻译表现提升44！神经机器翻译模型能翻译200种语言

图片来源：摄图网

技术价值观察

人工智能产业链上游为硬件设备和数据设备，其中包括芯片、传感器、大数据、云计算服务等，为人工智能提供数据服务和算力支持;中游是人工智能产业的技术核心，包括通用技术、算法模型、开发平台三个方面，涵盖了机器感知、自然语言理解、机器学习、图谱、基础开源框架等核心技术;下游是人工智能的应用产品和场景，涉及交通、医疗、安防、金融、家居、制造等多个领域。

meta研究团队开发了一个在线多语言翻译工具，该AI工具能容纳200种语言，可以帮助很少被翻译的那些语言的使用者。因此，从人工智能产业链上看，该技术处于产业链的下游应用层环节。

翻译表现提升44！神经机器翻译模型能翻译200种语言

宏观市场观察

——AI大模型是一种新的智能计算范式

超大规模智能模型，简称大模型，是近年兴起的一种新的人工智能计算范式。和传统AI模型相比，大模型的训练使用了更多的数据，具有更好的泛化性，可以应用到更广泛的下游任务中。按照应用场景划分，AI大模型主要包括语言大模型、视觉大模型和多模态大模型等。业界典型的自然语言大模型有GPT-3、源、悟道和文心等。视觉大模型也已广泛应用于自动驾驶、智能安防、医学影像等领域。基于多模态大模型的以文生图技术也迅速发展，AI内容生成(AI Generated Content，AIGC)已成为下一个AI发展的重点领域。

翻译表现提升44！神经机器翻译模型能翻译200种语言

——生成式AI行业技术图谱

生成式AI(GenAI)是计算机科学的一个分支，涉及无监督和半监督算法，使计算机能够使用之前创建的内容(如文本、音频、视频、图像和代码)来创建新内容，以响应简短的提示问题。AI大模型为生成式AI提供了技术基础和能力，而生成式AI则展示了大模型在实际应用中的潜在价值。

生成式AI进入探索爆发期，某些细分技术经过爆发开始走向落地，某些细分技术还处于培育期有待挖掘潜力。生成式AI技术图谱主要评估了当前市场上技术的成熟度与发展潜力。从下到上，代表当前采用度越高;从左到右的3条曲线，代表当前对于整体市场规模的影响。一定程度上，左侧曲线当前的渗透率较高，右侧的曲线未来的增长潜力更高。

技术图谱展示了三种类型的技术，其中变革性技术将彻底重塑市场和投资战略，可能创造新的业务和市场机会，并为企业和消费者市场带来新能力。递增性技术在现有技术的基础上进行了重大改进，以提供更好的业务结果。机会性技术将根据具体的使用情况而发展，其改进现有技术/流程的能力尚未确定或有限。

翻译表现提升44！神经机器翻译模型能翻译200种语言

——大模型的应用已经不局限于NLP(自然语言处理) 领域

目前大模型的应用已经不局限于NLP(自然语言处理)领域，包括图片、语音、视频、代码等多种模态的应用开始涌现，而大模型、生成算法与多模态等底层技术的突破成为了生成式AI的质变的关键。一方面，目前大模型可以广泛适用于各类下游任务，当前已经成为了生成式AI的底层框架。许多跨领域的AI应用均是构建于大模型之上，能够解决多任务、多场景、多功能需求，支撑各种模态的生成;另一方面，包括生成对抗网络(GAN)、变分自编码器(VAE)、扩散模型(DiffusionModel)、神经辐射场(Nerf)等快速涌现的生成算法，以大模型为基础，能够创造出文字、图片、语音、视频、代码等各种模态的内容，而基于此之上的多模态应用开始涌现。此外，超级深度学习近年来的快速发展带来了深度神经网络技术在大模型和多模态两个方向上的不断突破，并为AIGC技术能力的升级提供了强力的支撑和全新的可能性。

翻译表现提升44！神经机器翻译模型能翻译200种语言

——全球生成式AI行业竞争格局

目前，在生成式AI这条细分赛道，全球已经诞生了13家独角兽公司(估值达到10亿美元以上)，其中Open AI的估值及融资额排名第一，其估值将达到800亿美元。2023年以来新增的5家AI独角兽中，包括Cohere和Runway两家新晋生成式AI独角兽。这13家生成式AI公司成为独角兽的平均时间仅为3.6年，过去企业成为独角兽的平时时间需要7年，从时间上来说几乎缩短了一半。

翻译表现提升44！神经机器翻译模型能翻译200种语言

——2023年中国生成式AI市场规模约为14.4万亿元

2023年以来，由ChatGPT掀起的人工智能热潮席卷全球，带动AI产业取得了空前发展。其中，生成式AI(也称AIGC)这一分支备受投资者和科技巨头青睐，各类AIGC大模型纷纷面世，收获了数亿级以上的用户量，其影响力、应用范围和迭代速度尤为令人瞩目。因此，2023年被业界内外誉为生成式AI元年。

据工信部测算数据，2023年我国生成式AI的市场规模约为14.4万亿元;同时，预计到2035年将突破30万亿元，在全球总市场规模中占比超过35%，成为全球AI产业链的重要一环。

翻译表现提升44！神经机器翻译模型能翻译200种语言

——中国10亿参数规模以上大模型数量已超100个

生成式人工智能的快速发展对算力提出了更高、更迫切的需求，全国一体化算力体系建设的必要性愈益突出。截至2024年3月，中国10亿参数规模以上大模型数量已超100个，行业大模型深度赋能电子信息、医疗、交通等领域，形成上百种应用模式，赋能千行百业。

翻译表现提升44！神经机器翻译模型能翻译200种语言

——全球生成式AI行业市场规模及预测

随着ChatGPT的火爆出圈，生成式AI成为各行各业关注和热议的话题。全球科技巨头和AI厂商纷纷下场，唯恐错过此番科技盛宴。行业翘楚和媒体将生成式AI浪潮类比昔日的移动互联网机遇，认为它将对全球经济和各个行业带来深远影响，企业也将迎来重大变革机遇，同时，根据Bloomberg Intelligence披露的数据，2023年全球生成式AI市场整体规模约为670亿美元，预计2029年及2032年将分别达到7280亿美元和1.3万亿美元，2022-2032年复合增长率高达42%。

翻译表现提升44！神经机器翻译模型能翻译200种语言

中国人工智能技术赛道热力图

翻译表现提升44！神经机器翻译模型能翻译200种语言

根据产业热力图显示，与人工智能关键技术强关联的城市集群主要集中在华南和西北地区，并且以广东、陕西省为重点发展区域，未来布局人工智能技术及其他相关技术的发展路径，极大可能性在于华南、西北地区优先导入，其中可重点关注广东省广州市天河区、广东省深圳市福田区及陕西省西安市雁塔区所处的人工智能相关企业，以及该地方对于人工智能产业发展投资环境、供给市场的潜力空间。

经济学人APP资讯组

看完觉得写得好的，不防打赏一元，以支持蓝海情报网揭秘更多好的项目。

标签：模型生成人工智能随笔