图片来源:摄图网
当地时间2月16日,美国人工智能研究公司OpenAI在其官网发布文生视频模型Sora。该模型可以遵循用户文本指令,生成长达一分钟的视频,包含细致情景、多角度镜头。此外,该模型还能根据静态图像生成视频,并精确将图像内容动画化。特斯拉创始人马斯克称其为:被人工智能增强的人类,将会在未来几年之内创作出最杰出的作品。
2月20日上午,360创始人、董事长周鸿祎在视频中分享了对Open AI最新文生视频大模型Sora的见解。他指出,Sora工作原理像人做梦,未来AGI比的就是算力和对世界的理解。
在视频中,周鸿祎指出,传统计算机图形学和影视工业特效通常依赖于低效且昂贵的3D建模、光照设置和粒子系统等技术来重现画面。尽管这种方法在模拟现实世界方面效果不错,但效率低下且成本高昂。相比之下,Sora的方法更像人类的梦境,它基于我们在日常生活中的经验和视觉感知,无需繁琐的3D建模和逐帧渲染。
在视频中,周鸿祎将Sora出现的BUG与人在做梦时产生的幻觉相提并论,强调两者都是基于现实但又超越现实的产物。这一观点进一步突显了Sora在视频制作领域的创新性和独特性,展示了人工智能技术的新颖之处和潜力。
从周鸿祎讲解文生视频模型Sora原理回看AI大模型发展情况:
——AI大模型是一种新的智能计算范式
超大规模智能模型,简称大模型,是近年兴起的一种新的人工智能计算范式。和传统AI模型相比,大模型的训练使用了更多的数据,具有更好的泛化性,可以应用到更广泛的下游任务中。按照应用场景划分,AI大模型主要包括语言大模型、视觉大模型和多模态大模型等。业界典型的自然语言大模型有GPT-3、源、悟道和文心等。视觉大模型也已广泛应用于自动驾驶、智能安防、医学影像等领域。基于多模态大模型的以文生图技术也迅速发展,AI内容生成(AI Generated Content,AIGC)已成为下一个AI发展的重点领域。
——预训练大模型成为人工智能领导者的竞争焦点
预训练大模型是人工智能产业发展的必然选择,基于海量行业数据和知识,通过强大算力集群,预先训练基础模型,并结合应用场景的数据和各类需求,通过预训练大模型+任务微调的方式,进行工业化的高效率开发。开发者利用预训练大模型,只需要少量数据,就可以快速开发出精度更高、泛化能力更强的行业模型。预训练大模型可以提升人工智能项目开发效率,降低研发成本,缩短研发时间,解决人工智能项目碎片化的问题。
根据Omdia的数据,中国开发者对基于昇思MindSpore打造的盘古NLP大模型最感兴趣。首先,盘古NLP大模型在技术上处于领先地位,千亿参数模型,学习了40TB的中文文本数据,在中文领域有天生优势;其次,盘古NLP大模型可覆盖多个场景下语言处理的任务和需求,泛化能力强,在知识问答、知识检索、知识推理等文本生成领域有广泛应用前景;另外,盘古NLP大模型对开发者友好,可以让开发者能用拖拉拽的方式使用大模型,开发和生产成本低。这也从另外一个角度验证了盘古大模型的开放性,开发者可以跨平台快速调用盘古大模型,与其他工具和应用结合使用。
——华为Mindspore支持超大规模模型训练开发
在支持超大规模模型训练开发方面,TensorFlow、PyTorch得分较高,而MindSpore已在中国本土框架中处于领先地位:TensorFlow有了JAX这一新生框架的融入,给业界带来更多期待;PyTorch依托第三方并行算法库大模型能力显著提升;MindSpore拥有业界领先的并行算法库,具备原生支持大模型的能力,吸引了广泛的开发者。
信达证券指出,随着文生图、图片对话技术的成熟,文生视频可能成为多模态大模型下一步发展的方向。该技术有望极大地降低短剧制作的成本,并且会进一步向影视、自媒体、游戏等领域渗透,提高视频创作效率等。
东海证券指出,Sora的发布展示了AI在理解真实世界场景和与之互动的能力已实现重大飞跃,被认为是迈向通用人工智能(AGI)的重要里程碑。文生视频大模型所需训练数据的参数规模、运算能力和存储要求会显著大于文本和图像,有望带动AI芯片、HBM等高性能存储、服务器、光模块等行业的需求持续高增。
中信证券指出,多模态大模型Sora视频demo表现惊艳,再次体现了AI重构传统行业的巨大潜力。如果文生视频AI爆款应用出现,将带来巨大的网络升级需求,网络设备提供商将显著受益。同时目前AI产业发展趋势亦在不断明确,有望缓解市场对于算力投入持续性的担忧,光模块等算力设施板块的估值空间亦有望打开。
经济学人APP资讯组
看完觉得写得好的,不防打赏一元,以支持蓝海情报网揭秘更多好的项目。