openai的另一部“大片”:赋予人工智能艺术创造力

时间:2022-03-20 12:31       来源: www.cheshangrong.com

面对无限可能,大家仅需充满期待。

Openai又推出了一部大片。

本月初,去年夏季推出时尚语言模gpt-3的openai研究小组第三宣布推出一款名为dall-e的新AI模,虽然没gpt-3那样热门,但它非常可能对AI将来的进步产生更深远的影响。

总之,dall-e可以将文本描述作为输入,生成相应的原始图像输出。(dall-e这个名字源自对超现实主义艺术家El Dali和皮克斯工作室创作的可爱机器人形象Wall-e的致敬。)

比如,当你输入“五边形绿色时钟”、“火球”或“建筑物墙上的蓝色南瓜壁画”时,dall-e可以产生惊人准确的视觉成效。

在需要生成“建筑墙上的蓝色南瓜壁画”后,openai的新深度学习模dall-e可以生成上述原始图像

为何dall-e非常重要?

第一,它标志着一种新的AI范式“多模态AI”的出现。这种范式好像代表了AI的将来。以dall-e为例,多模式AI系统可以讲解、综合和翻译多种信息模式,从而映射情境、语言和图像。虽然dall-e不是第一个多模AI解决方法,但它具备迄今为止最惊人的实质成效。

openai的联合开创者伊利亚•萨茨凯概要道:“世界不止是由文字组成的。除去表达,人类还诉诸于视觉。视觉元素尤为重要。”

大部分现有些人工智能管理软件只能处置一种数据类。自然语言处置模(NLP模,如gpt-3)只能处置文本;计算机视觉模(如人脸辨别系统)只能处置图像。但人脑所表现出的智商显然更具适应性,它所能处置的信息也更具灵活性。

人类可以不断地接收和整理来自五种感官的信息——大家通过视觉、听觉、触觉、嗅觉和味觉的结合来认识大家周围的世界。在此基础上,大家还以声音、文字、身体表情、面部表情、音乐等形式将信息传回这个五彩缤纷的世界。

通过将自然语言理解与视觉表征生成相结合(即“阅读”与“视觉”相结合),dall-e第三展示了多模态AI的巨大潜力。

这只不过个开始。在将来几个月甚至几年,新的AI系统有望无缝连接音频、视频、语音、图像、文字、触摸和其他元素。伴随AI掌握以愈加复杂的方法组合多种信息,其理解世界和产生新见解的能力将爆炸式增长。

dall-e还有另一个,或者说更根本的意义:人类愈加没办法不承认AI所蕴含的巨大创造力。

dall-e所产生的图像远远超出了人类的想象范围。这不止是对网络上现成图片的容易修改——相反,这部分都是史无前例的渲染,其中的独创性和独创性足以让艺术家赞叹。事实上,即便是dall-e的创造者也常常不可以理解它的生成原理。

让大家来看看戴尔的一些作品。第一个是“一碗拉面表情”,第二个是“鳄梨企鹅”。假如这部分收获来自人类设计师,大家无疑会把它们视为真的的创意商品。在这样的情况下,大家有哪些理由不承认或拒绝dall-e?

dall-e依据“一碗拉面”输出的图像

图片
由dall-e从“鳄梨做成的企鹅”生成

有了这种强大的创造力,dall-e可以证明AI技能在商品设计、时髦、建筑等范围的现实意义。譬如达赖系统,甚至是设计职员的想法出处。

比如,在设计“甜甜圈式扶手椅”时,dall-e带来了多种构图选择。当然,它的设计和外观都是高标准的。不难想象,将来一些家具设计师会反复用dall-e来探索模输出,调整输入文本进行设计迭代,最后将AI元素引入作品。从汽车到灯具,从珠宝到房子,类似的创作过程将适用于很多商品。

dall-e依据“甜甜圈式扶手椅”生成的输出图像

当然,dall-e还远远不够完美,它生成的图像并不一直准确地表示输入的文本:比如,它常常在颜色、数目或空间关系上出错。

借助clip神经互联网对openai发布的All-E工作实例进行分类筛选。对于每一个文本输入,系统将只显示512个样本中置信度最高的前32个样本。换句话说,dall-e事实上生成了更多的图像,但大部分图像成效不好。

总而言之,dall-e的创造力是惊人的,技能本身仍处于迅速迭代中。

与AI技能的其他重大进步一样,dall-e第三提醒大家一个老问题:机器的智能水平是不是愈加接近人类?

一方面,dall-e的诞生激起了大家对超智能技能的夸大言论。其次,以著名的深度学习批评家加里·马库斯(Gary Marcus)为代表的怀疑论者觉得,dall-e并没给AI技能的进步带来任何真的的动力。

马库斯的看法值得认真对待。深度学习(包括为DALE E和GPT-3提供基础的前沿变压器体系结构)在智能定义建模中仍然存在紧急的局限性。

但在某种意义上,这场争论事实上偏离了真的的看法。无论openai的新模式是不是代表着迈向“通用AI”的下一步,无论深度学习能否真的带来与人类认知水平相同的机器智能成就,dall-e本身仍然拥有非同一般的新能力已成为不争的事实。

DALE E及其后续项目有望为人与机器之间的创造性关系带来新的可能性,从而获得巨大的经济价值,为新一轮革新初创企业和商品奠定基础。

面对无限可能,大家仅需充满期待。