网站首页

AI绘画何以日新月异? 从经历到技术突破, 一文读懂火爆的AI绘画发展史

2022-09-21超级管理员

自畴昔段时间偶然间被当下AI绘画的水平震住之后 (逾越全部的AI作画神器, 和它创作的234个盔甲美女来日兵士) , 作者深感现在AI绘画的飞速进展大概已远超全部人的预期. 而这里的来龙去脉, 包括AI绘画的经历, 以及近来的冲破性进展, 值得好好和大伙儿梳理和共享一下. 因此有了本文.

本文分为以下几末节:

1 2022, 进犯的AI绘画

2 AI绘画的经历

3 AI绘画何故突飞猛进

4 顶级AI绘画模子的PK

5 AI绘画的冲破对人类意味着什么

2022, 进犯的AI绘画

2019以来, 输入文本形貌主动生产图片的AI绘画神器突然雨后春笋的冒了出来.

首先是Disco Diffusion. 

Disco Diffusion 是在2019 2 月初开始爆红的一个 AI 图像生产法式,它能够凭据形貌场景的环节词渲染出对应的图像:

到了20194月, 著名人工智能团队OpenAI 也公布了新模子 DALL·E 2代,该名称来源于著名画家达利(Dalí)和机器人总动员(Wall-E), 一样支持从文本形貌生产效果优越的图像.

而很多读者对AI绘画开始产生特别的眷注, 大概是从以下这幅AI作品闹出的消息开始的:

这是一幅应用AI绘画服无 MidJourney 生产的数字油画, 生产它的用户以这幅画参加美国科罗拉多州博览会的艺术角逐, 夺得了第一位. 这件事被暴光之后引发了网页上巨大的争辩至今.

目前 AI绘画的技术仍在接续变更发展中, 其迭代之快, 完全能够用"突飞猛进"来形貌. 即使把2019年头的AI绘画和现在相比, 效果也有天壤之别. 

在年头的时分, 用Disco Diffusion能够生产少许很有空气感的草图, 但基本还无法生产人脸; 仅仅2个月后, DALL-E 2已经能够生产准确的五官;  现在, 最壮大的Stable Diffusion在画作的细腻水平和作画速度上更是有了一个量级的变更.

AI绘画这项技术并不是比年才有的, 但是2019以来, AI产出作品的品质以肉眼可见的速度日益晋升, 而效率也从年头的一个小时收缩到现在的十几秒.

在这个变更背面,  究竟发生了什么事情? 就让我们先全面回首一下AI绘画的经历, 再来理解一下, 这一年多来, AI绘画技术足以载入史册的冲破发展.

AI绘画的经历

AI绘画的发掘时间可能比很多人设想的要早.

计较机是上世纪60年代发掘的, 而就在70年代, 一位艺术家,哈罗德·科恩Harold Cohen(画家,加利福尼亚大学圣地亚哥分校的传授) 就开始打造电脑法式"AARON"进行绘画创作. 只是和当下AI绘画输出数字作品有所不同, AARON是真的去控制一个机器臂来作画的.

Harold 对 AARON的改善连续连接了几十年, 直到他离世. 在80年代的时分, ARRON"控制"了三维物体的绘制; 90年代时, AARON能够应用多种色彩进行绘画, 据称直到今天, ARRON仍旧在创作.

不过, AARON的代码没有开源, 因此其作画的细节无从知晓, 但能够推测, ARRON只是以一种复杂的编程技巧形貌了作者Harold本人对绘画的理解 -- 这也是为什么ARRON经过几十年的学习迭代,末了仍旧只能产生色彩美丽的空洞派样式画作,这正是 Harold Cohen 本人的空洞色彩绘画样式. Harold用了几十年时间, 把本人对艺术的理解和阐扬技巧通过法式引导机器臂发掘在了画布上.

(左:ARRON和哈罗德.科恩    右: ARRON 在 1992 年的创作作品)

尽管难说AARON怎样智能, 但作为第一个主动作画且真的在画布上作画的法式, 给予它一个AI作画始祖的名称, 倒也合乎其身份.

2006年, 发掘了一个相似ARRON的电脑绘画产品 The Painting Fool. 它能够调查照片, 提取照片里的块色彩消息, 应用实际中的绘画质料如油漆, 粉彩大概和铅笔等进行创作.

以上这两个例子算是相对"古典"技巧的电脑主动绘画, 有点像一个学步的婴儿, 有一点模样, 但从智能化的角度来看是相当低级的.

而现在, 我们所说的"AI绘画"概念, 更多指的是基于深度学习模子来进行主动作图的计较机法式. 这个绘画技巧的发展实在是相对晚的.

在2012年 Google两位大名鼎鼎的AI大神, 吴恩达和Jef Dean进行了一场空前的实验, 联手应用1.6万个CPU练习了一个其时天下上最大的深度学习网页, 用来引导计较机画出猫脸图片. 其时他们应用了来自youtube的1000万个猫脸图片, 1.6万个CPU整整练习了3天, 最终获得的模子, 使人振奋的能够生产一个非常模糊的猫脸.

在今天看起来, 这个模子的练习效率和输出结果都何足道哉. 但关于其时的AI钻研平台, 这是一次具备冲破意义的尝试, 正式开启了深度学习模子支持的AI绘画这个"斩新"钻研偏向。

在这里我们稍微讲一点技术细节: 基于深度学习模子的AI绘画究竟有多繁难呢, 为什么2012年已经很当代水平的大范围计较机集群耗时多天的练习只能得出一点不幸的结果?

读者们大概有个基本概念, 深度学习模子的练习简单说来即是行使外部大批标注好的练习数据输入, 凭据输入和所对应的预期输出, 反复调解模子里面参数加以般配的过程。

辣么让AI学会绘画的过程, 即是构建已有画作的练习数据, 输入AI模子进行参数迭代调解的过程。

一幅画带有几许消息呢? 首先即是长x宽个RGB像素点.  让计较机学绘画, 最简单的出发点是获得一个输出有规则像素组合的AI模子。

但RGB像素组合一起的并非都是画作, 也可能只是噪点. 一副纹理丰富, 笔触自然的画作有很多笔画实现, 涉及绘画中每一笔的地位, 形状, 色彩等多个方面的参数, 这里涉及到的参数组合是非常巨大的. 而深度模子练习的计较复杂度随着参数输入组合的增进而急剧增进...  大家能够理解这个事情为啥不简单了。

在吴恩达和Jeff Dean开创性的猫脸生产模子之后, AI科学家们开始前仆后继投入到这个新的搦战性平台里. 在2014年, AI学术界提出了一个非常紧张的深度学习模子, 这即是大名鼎鼎的抗衡生产网页GAN (Generative Adverserial Network, GAN)。

正如同其名字"抗衡生产", 这个深度学习模子的核心理念是让两个里面法式 "生产器(generator)" 和"鉴别器(discriminator)" 互相PK平均之后获得结果。

GAN模子一问世就风行AI学术界, 在多个平台获得了宽泛的应用. 它也随即成为了很多AI绘画模子的基础框架, 其中生产器用来生产图片, 而鉴别器用来校验图片品质. GAN的发掘大大推进了AI绘画的发展。

但是, 用基础的GAN模子进行AI绘画也有相对彰着的缺陷, 一方面是对输出结果的控制力很弱, 轻易产生随机图像, 而AI艺术家的输出应该是稳定的. 别的一个疑问是生产图像的分辨率相对低。

分辨率的疑问还好说,  GAN在"创作"这个点上还存在一个死结, 这个结凑巧是其本身的核心特色:  凭据GAN基本架构,鉴别器要校验产生的图像是否和已经供应给鉴别器的其余图像是同一个种别的, 这就决意了在最好的环境下, 输出的图像也即是对现有作品的借鉴, 而不是创新......

在抗衡生产网页GAN以外, 钻研职员也开始行使其余品种的深度学习模子来尝试教AI绘画。

一个相对著名的例子是2015年 Google公布的一个图像对象深梦(Deep Dream). 深梦公布了一系列画作, 一时迷惑了很多眼球。google乃至为这个深梦的作品筹谋了一场画展。

但若较真一下, 深梦与其说是AI绘画, 更像是一个高级AI版滤镜, 其滤镜样式一看上面的作品便可清楚。

和作品不尴不尬的Deep Dream相比, Google更靠谱的是今年年景千张手绘简笔绘图片练习的一个模子, AI通过练习能够绘制少许简笔画. (Google, 《A Neural Representation of Sketch Drawings》)

这个模子之因此受到宽泛眷注有一个原因,  Google把关联源代码开源了, 因此第三方开辟者能够基于该模子开辟有趣的AI简笔画应用. 一个在线应用叫做 “Draw Together with a Neural Network” ,随便画几笔,AI就能够主动帮你增补完整个图形。

值得留意的是, 在AI绘画模子的钻研过程当中, 各互联网大厂成了主力, 除了上述Google所做的钻研, 相对著名的是今年年7月, Facebook团结罗格斯大学和查尔斯顿学院艺术史系三方同盟获得的新模子, 堪称缔造性抗衡网页 (CAN, Creative Adversarial Networks)

(Facebook, 《CAN: Creative Adversarial Networks, Generating "Art" by Learning About Styles and Deviating from Style Norms》)

从下图的作品集能够看出,这个缔造性抗衡网页CAN在尝试输出少许像是艺术家作品的丹青,它们是唯一无二的,而不是现存艺术作品的仿品。

CAN模子生产作品里所体现的缔造性让其时的开辟钻研职员都感应震惊, 因为这些作品看起来和艺术圈子流行的空洞画非常相似. 因而钻研职员构造了一场图灵测试,请观众们去猜这些作品是人类艺术家的作品,或是人工智能的创作。

结果, 53%的观众认为CAN模子的AI艺术作品出自人类之手, 这在经历上相似的图灵测试里初次冲破半数。

但CAN这个AI作画, 仅限于少许空洞表白, 而且就艺术性评分而言, 还远远达不到人类巨匠的水平。

更不消说创作出少许写实大概具象的绘画作品了, 不存在的。

实在连续到2021年头, OpenAI公布了广受眷注的DALL-E体系, 其AI绘画的水平也就普通, 下面是DALL-E画一只狐狸的结果, 牵强能够辨别。

但值得留意的是, 到了DALL-E这里,  AI开始领有了一个紧张的才气, 那即是能够按照文字输入提示来进行创作了!

接下来, 我们连续去根究本文一开始提出的疑问. 不知各位读者是否有同感, 自2019以来, AI绘画的水平突然大涨, 和以前的作品格量相比有本质的奔腾, 恍然有种一日不见如隔三秋的感受。

事出必有妖. 究竟发生了什么环境? 我们逐步道来。

AI绘画何故突飞猛进

在很多科幻影戏或剧集里, 往往会有这么一幕, 主角和特别有科幻感的电脑AI说了一句话, 而后AI生产了一个3D影像, 用VR/AR/全息投影的技巧发掘在主角面前。

抛开那些酷炫的视觉效果包装, 这里的核心才气是, 人类用语言输入, 而后电脑AI理解人类的表白, 生产一个合乎要求的图形图像, 展示给人类。

仔细一想, 这个才气最基础的形式, 即是一个AI绘画的概念嘛. (固然, 从平面绘画到3D生产还稍有一点距离, 但相比于AI捏造创作一幅具象有意义的绘画作品的难度, 从2D图主动生产对应的3D模子就不是一个量级上的疑问)

因此, 不管是用说话控制, 或是更玄乎的脑电波控制, 科幻影视中的酷炫场景实际上形貌了一种AI才气 , 那即是把"语言形貌" 通过AI理解主动变为了图像. 目前语音主动识别文本的技术已经成熟至极,  因此这本质上即是一个从文本到图像的AI绘画过程。

实在挺牛逼的, 仅靠文字形貌, 没有任何参考图片, AI就能理解并主动把对应内容给画出来了, 而且画得越来越好!  这在昨天还感受有点远的事情, 现在已真真切切发掘在全部人的面前。

这全部到底怎么发生的呢?

首先要提到一个新模子的降生.  或是前面提到的OpenAI团队, 在2021年1月开源了新的深度学习模子 CLIP(Contrastive Language-Image Pre-Training). 一个现在最早进的图像分类人工智能。

CLIP练习AI同时做了两个事情, 一个是自然语言理解, 一个是计较机视觉剖析. 它被设计成一个有特定用途的才气壮大的对象, 那即是做通用的图像分类, CLIP能够决意图像和文字提示的对应水平, 好比把猫的图像和"猫"这个词完全般配起来。

CLIP模子的练习过程, 简单的说, 即是应用已经标注好的"文字-图像"练习数据, 一方面临文字进行模子练习, 一方面临图像进行另一个模子的练习, 接续调解两个模子里面参数, 使得模子划分输出的文字特性值和图像特性值能让对应的"文字-图像"经过简单验证确认般配。

环节的地方来了, 实在呢, 以前也有人尝试过练习"文字-图像" 般配的模子, 但CLIP最大的不同是, 它搜索了40亿个"文本-图像"练习数据! 通过这天量的数据, 再砸入让人咂舌的昂贵练习时间, CLIP模子终究修成正果。

聪明的读者会问, 这么多的"文本-图像"标志是谁做的呢? 40亿张啊, 若都需要人工来标志图像关联文字, 当时间成本和人力成本都是天价. 而这正是CLIP最聪明的地方, 它用的是宽泛散播在互联网上的图片! 

互联网上的图片普通都带有种种文本形貌, 好比题目, 凝视, 乃至用户打的标签, 等等, 这就自然的成为了可用的练习样本.  用这个特别伶俐的技巧, CLIP的练习过程完全以免了最昂贵费时的人工标注, 大概说, 全天下的互联网用户已经提前做了标注工作了。

CLIP功效壮大, 但不管怎样, 它第一眼看上去, 和艺术创作似乎没啥干系。

但就在CLIP开源公布几天后, 少许机器学习工程师玩家就认识到, 这个模子能够用来做更多的事情. 好比Ryan Murdock, 想出了怎样把其余AI连接到CLIP上, 来打造一个AI图像生产器. Ryan Murdock在接管采访时说:“在我把玩它几天后,我认识到我能够生产图像。”

最终他选定了BigGAN, 一个GAN模子的变种, 并将代码公布为Colab笔记The Big Sleep。

( 注: Colab Notebook 是Google供应的非常利便的Python Notebook交互式编程笔记本在线服无, 背地是Google云计较的支持. 略懂技术的用户能够在一个相似笔记本的Web界面上编辑运行Python剧本并获得输出. 紧张的是, 这个编程笔记是能够共享的 )

Big Sleep创作的丹青实在略诡异和空洞, 但这是一个很好的开始。

随后, 西班牙玩家@RiversHaveWings在此基础上公布了CLIP+VQGAN的版本和教程, 这个版本通过Twitter被广为转发传布, 惹起了AI钻研界和醉心者们的高度眷注.  而这个ID背地, 正是现在所被熟知的计较机数据科学家 Katherine Crowson。

在以前,相似VQ-GAN这样的生产对象在对大批图像进行练习后,能够合成相似的新图像,但是,如读者另有印象, 前面说过, GANs类型的模子本人并不能够通过文字提示生产新图像, 也不善于创作出斩新的图像内容。

而把CLIP嫁接到GAN上去生产图像, 这其中的思绪倒也简单清晰: 

既然行使CLIP能够计较出随便一串文字和哪些图像特性值相般配, 那只要把这个般配验证过程链接到负责生产图像的AI模子 (好比这里是VQ-GAN), , 负责生产图像的模子反过来推导一个产生适宜图像特性值, 能通过般配验证的图像, 不就获得一幅合乎文字形貌的作品了吗?

有人认为 CLIP+VQGAN是自2015年Deep Dream以来人工智能艺术平台最大的创新. 而美妙的是, CLIP+VQGAN对任何想应用它们的人来说都是现成的。按照Katherine Crowson的线上教程和Colab Notebook, 一个略懂技术的用户能够在几分钟内运行该体系。

有意思的是, 上一章也提到, 在同一个时间(2021年头), 开源公布CLIP的OpenAI团队也公布了本人的图像生产引擎DALL-E. DALL-E里面也正是用了CLIP, 但DALL-E并不开源!

因此论社区影响力和进献, DALL-E完全不能够和CLIP+VQGAN的开源实现公布相比, 固然, 开源CLIP已经是OpenAI对社区做出的巨大进献了。

说到开源进献, 这里还不得不提到LAION。

LAION 是一个跨全球的非营利机器学习钻研机构,20193月开放了目前最大范围的开源跨模态数据库LAION-5B,包括靠近60亿(5.85 Billion)个图片-文本对, 能够被用来练习全部从文字到图像的的生产模子,也能够用于练习 CLIP这种用于给文本和图像的般配水平打分的模子,而这两者都是现在 AI 图像生产模子的核心。

除了供应以上的海量练习素材库,LAION 还练习 AI 凭据艺术感和视觉美感,给LAION-5B 里图片打分, 并把得高分的图片归进了一个叫 LAION-Aesthetics 的子集。

事实上, 最新的AI绘画模子包括随后提到的AI绘画模子王者 Stable Diffusion都是行使LAION-Aesthetics这个高品质数据集练习出来的。

CLIP+VQGAN 引领了斩新一代 AI图像生产技术的风潮,现在全部的开源 TTI(Text to Image, 文本文本生产图像)模子的简介里都邑对 Katherine Crowson 称谢,她是当之无愧的斩新一代AI绘画模子的奠基者。

技术玩家们围绕着CLIP+VQGAN开始形成社区,代码接续有人做优化改善,另有Twitter账号特地网页和公布AI画作.  而最早的践行者 Ryan Murdoch 还因此被招募进了Adobe担负机器学习算法工程师。

不过这一波AI作画浪潮的玩家主要或是AI技术醉心者。

尽管和内陆部署AI开辟环境相比, 在Golab Notebooks上跑CLIP+VQGAN的门槛相对而言已经相对低, 但真相在Colab请求GPU运行代码并挪用AI输出图片,时时时还要处理一下代码报错,这不是大众化人群特别是没有技术背景的艺术创作者们能够做的. 而这也正是现在 MidJourney 这类零门槛的傻瓜式AI付费创作服无大放光彩的原因。

但激动民气的进展到这里还远没结束. 仔细的读者留意到, CLIP+VQGAN这个强力组合是昨年头公布并在小圈子传布的, 但AI绘画的大众化眷注, 如开篇所说, 则是在2019初开始, 由Disco Diffusion这个线上服无所引爆. 这里还隔着大半年的时间. 是什么耽搁了呢?

一个原因是CLIP+VQGAN 模子所用到的图像生产片面, 即GAN类模子的生产结果永远不尽如人意。

AI职员留意到了别的一种图像生产技巧。

若复习一下GAN模子的工作道理, 其图像输出是里面生产器和校验器的PK迁就结果。

但另有别的一种思绪, 那即是Diffusion模子(分散化模子)。

Diffusion这个词也很宏伟上, 但基本道理说出来大家都能理解, 实在即是"去噪点". 对, 即是我们熟悉的手机摄影(特别是夜景摄影)的主动降噪功效. 若把这个去噪点的计较过程反复进行, 在极端的环境下, 是不是可能把一个完全是噪声的图片还原为一个清楚的图片呢?

靠人固然不行, 简单的去噪法式也不可能, 但是基于AI才气去一面"猜"一面去噪, 倒是可行的。

这即是Diffusion分散化模子的基本思绪。

Diffusion分散化模子目前在计较机视觉平台的影响力越来越大,它能够高效合成视觉数据,图片生产完全击败了GAN模子, 而在其余平台如视频生产和音频合成也展示出了不俗的潜力。

2019初被大众首先熟知的AI绘画产品 Disco Diffusion,  正是第一个基于CLIP + Diffusion 模子的适用化AI绘画产品。

但Disco Diffusion的坏处或是有些彰着, 如身为专业艺术家的 Stijn Windig 反复尝试了Disco Diffusion,认为 Disco Diffusion 并无代替人工创作的才气,核心原因有2点:

Disco Diffusion 无法刻画详细细节,渲染出的图像第一眼很惊艳,但仔细调查就会发掘大片面都是模糊的综合,达不到贸易细节水准。

Disco Diffusion的开端渲染时间是以小时计较的, 而要在渲染图像的基础上刻画细节,则相当于要把整个图从新画一遍,这样一个流程下来花花消的时间精神,比直接手绘还要多。

不过 Stijn Windig 或是对AI绘画的发展持达观态度,他觉得尽管直接行使 Disco Diffusion 进行贸易化创作还不可行,但作为一种灵感参考或是很好的: "……我发掘它更适用作为一个创意生产器应用。给一个文字提示,它回笼少许图片能引发我的设想力,并能够作为草图用来在上面绘画。"

实在从技术上来说,   Stijn提出的两大痛点, 1) AI绘画细节还不敷深刻, 2) 渲染时间过长, 实际上都是因为Diffusion分散模子的一个内涵坏处, 这即是反向去噪生产图片的迭代过程很慢, 模子在像素空间中进行计较,这会造成对计较时间和内存资源的巨大需要, 在生产高分辨率图像时变得异常昂贵。

(像素空间, 有点专业化的说法, 实际上即是说模子直接在原始像素消息层面上做计较)

因此关于大众应用级的平台产品, 这个模子无法在用户能够接管的生产时间里去计较挖掘更多的图像细节, 即便那种底稿级别的作图, 也需要花消Disco Diffusion以小时计较的时间。

但不管怎样, Disco Diffusion给出的绘画品质, 相对于以前的全部AI绘画模子, 都是碾压式的逾越, 而且已经是大片面普通人无法企及的作画水平了, Stijn的挑刺只是站在人类专业创作的高点提出的要求。

但是, Stijn同窗生怕千万没想到, 他所指出的AI绘画两大痛点, 还没过几个月, 就被AI钻研职员近乎完善的办理了!

讲到这里, 当当当当, 现在天下最壮大的AI绘画模子 Stable Diffusion终究闪亮上台了!

Stable Diffusion20197月开始测试, 它很好的办理了上述痛点。

实际上Stable Diffusion和以前的Diffusion分散化模子相比, 重点是做了一件事, 那即是把模子的计较空间, 从像素空间经过数学变换, 在尽可能保存细节消息的环境降落维到一个称之为潜空间(Latent Space)的低维空间里, 而后再进行繁重的模子练习和图像生产计较。

这个"简单"的思绪转化, 带来了多大的影响呢?

基于潜空间的Diffusion模子与像素空间Diffusion模子相比, 大大降低了内存和计较要求。好比Stable Diffusion所应用的潜空间编码缩减因子为8, 说人话即是图像长和宽都缩减8倍,  一个512x512的图像在潜空间中直接变为64x64, 节减了8x8=64倍的内存!

这即是Stable Diffusion之因此又快又好的原因,  它能疾速(以秒计较)生产一张饱含细节的512x512图像, 只需要一张花费级的8GB 2060显卡即可!

读者能够简单算一下, 如没有这个空间收缩转换, 要实现Stable Diffusion 这样的秒级图像生产体验, 则需要一张 8Gx64=512G显存的超等显卡.  按照显卡硬件的发展规则来看, 花费级显卡到达这个显存生怕是8-10年后的事情。

而AI钻研职员一个算法上的紧张迭代, 把10年后我们才可能享受到的AI作画成果直接带到了当下全部普通用户的电脑前!

因此目前大家对AI绘画的进展感应受惊是完全正常的, 因为从昨年到2019, AI绘画的技术确凿发掘了连续的冲破性的进展, 从CLIP模子基于无需标注的海量互联网图片练习大成, 到CLIP开源引发的AI绘画模子嫁接高潮, 而后找到了Diffusion分散化模子作为更好的图像生产模块,  末了应用潜空间降维的改善技巧办理了Diffusion模子时间和内存资源消耗巨大的疑问... 这全部的全部, 让人应接不暇, 能够说AI绘画在这一年间, 变更是以天计较的!

而在这个过程当中, 最美满的莫过于全部AI技术醉心者和艺术创作者们. 大家亲眼眼见着窒碍了多年的AI绘画水平以火箭般的速度冲到了顶峰. 毫无疑问, 这是AI发展经历上的一个高光时刻。

而对全部普通用户来说, 最高兴的, 固然是享受到了行使Stable Diffusion大概MidJourney这样确现在顶级作画AI去生产专业级别画作的巨大兴趣。

有趣的是, Stable Diffusion的降生还和前面提到的两位前驱Katherine Crowson 和Ryan Murdoch 有关.  他们成为了一个去中心化构造的AI开源研发团队EleutherAI的核心成员. 固然自称草根团队, 但EleutherAI在超大范围预言模子和AI图像生产平台目前都已经是开源团队的佼佼者。

正是EleutherAI作为技术核心团队支持了Stability.AI 这一家创始于英国伦敦的AI计划供应商. 这些有抱负的人们聚在一起, 基于以上这些最新的AI绘画技术冲破,  推出了现在最壮大的AI绘画模子  Stable Diffusion. 紧张的是, Stable Diffusion按照答应, 已经在8月完全开源!  这个紧张的开源让全天下的AI学者和AI技术醉心者打动得痛哭流涕. Stable Diffusion一经开源, 就永远霸占着GitHub热榜第一。

Stability.AI彻底推行了它官网第一页的 Slogan "AI by the people, for the people",  务必给予一个大大的赞.

下图是作者线上运行的Stable Diffusion, 感谢开源! 话说这个AI生产的自带光环的日漫小哥是相当的帅气:)

顶级AI绘画模子的PK: Stable Diffusion V.S. MidJourney

作者在以前文章里已经说清晰MidJourney这个在线AI作画神器, 它最大的好处即是零门槛的交互和很好的输出结果. 创作者无需任何技术背景就能行使基于Discord的MidJourney bot进行对话式绘画创作 (恩, 固然, 全英文)

从输出样式上看, MidJourney非常彰着针对人像做了少许优化,  用多了后, MidJourney的样式倾向也相对彰着 (作者在MidJourney上花了数百刀的计较资源尝试了种种主题创作后的第一手感受) , 说得动听是相对细腻讨巧, 大概说, 相对油腻一点点.

而Stable Diffusion的作品, 就彰着的更清雅少许, 更艺术化少许.

以下是作者应用了同一种文字形貌在这两大平台上创作的AI作品对比. 读者无妨直接感受一下.

(注: 以下生产画作均有完全版权, 独自转载请说明来源)

Stable Diffusion(左) V.S. MidJourney(右) :

树屋

柴油朋克风的城市

魔兽天下主城奥格瑞玛

盔甲狼骑士

碧蓝梦境样式漫画少女

浪漫写实主义美女油画 (样式参考丹尼尔·戈尔哈茨, 美国画家)

带有狭长走道的迷宫般老城市建筑

类样式更好? 实在萝卜青菜各有所爱. 

因为做过针对性的优化, 如要出人像图大概糖水样式美图用MidJourney更利便. 但相对了多张作品后, 作者认为Stable Diffusion或是彰着技高一筹, 不管从艺术表白上或是样式变更的多样性上.

不过, MidJourney这几个月的迭代是有目共睹的快(真相是付费服无, 很赚钱很有能源啊), 加上Stable Diffusion的完全开源, 预计关联技术优势会很快被吸收进MidJourney.  而另一方面, Stable Diffusion模子的练习还在连接进行中, 我们能够非常等候, 来日版本的Stable Diffusion模子也将百尺竿头更进一步.

对全部的创作者用户而言, 这都是天大的功德.

AI绘画的冲破对人类意味着什么

2022年的AI平台, 基于文本生产图像的AI绘画模子是风头无两的主角. 从2月份的Disco Diffusion开始, 4月 DALL-E 2和MidJourney邀请内测,  5月和6月Google公布两大模子Imagen 和Parti (不开放内测惟有论文, 感受略水), 而后7月尾, Stable Diffusion横空出世...

真的让人眼花狼籍. 也勿怪作者在上篇文章里感伤, 怎么稍不留意AI绘画的水平就突飞猛进到云云境界, 事实上, 确凿即是在这一年半载里, AI绘画发生了革新性的, 乃至能够说经历上会留名的冲破性进展.

而接下去的时间里, AI绘画, 大概更宽泛的, AI生产内容平台(图像, 声响,  视频, 3D内容等...)还会发生什么, 让人填塞了遐想和等候.

但不消守候来日, 体验了当下以Stable Diffusion 为代表的最早进AI绘画模子所能触达的艺术高度, 我们已经基本能够确认, "设想力"和"缔造力"这两个曾经填塞着秘密主义的词汇, 同时也是人类末了的骄傲, 实在也是能够被技术解构的.

对人类魂魄圣洁至上说法的拥戴者而言, 现在AI绘画模子所展示的缔造力, 是一种对信仰的无情袭击. 所谓灵感, 缔造力, 设想力,这些填塞着神性的词, 即将(大概已经)被超等算力+大数据+数学模子的强力组合无情打脸了.

事实上, 相似Stable Diffusion这种AI生产模子的一个核心思绪, 大概说很多深度学习AI模子的核心思绪, 即是把人类创作的内容, 显露为某个高维大概低维数学空间里的一个向量(更简单的理解, 一串数字). 若这个"内容->向量"的转化设计充足合理,  辣么人类全部的创作内容都能够显露为某个数学空间里的片面向量而已. 而存在于这个无尽的数学空间里的其余向量, 正是那些表面上人类可能缔造, 但还未被缔造出来的内容. 通过逆向的"向量->内容"的转换, 这些还没被缔造的内容就被AI挖掘出来了.

这正是目前MidJourney, Stable Diffusion这些最新AI绘画模子所做的事情. AI能够说是在创作新的内容, 也能够说是新绘画作品的搬运工. AI产生的新绘画作品在数学意义上连续客观存在, 只是被AI通过很聪明的技巧, 从数学空间里还原出来, 而已.

"文章本天成, 妙手偶得之".

这句话放在这里非常适宜. 这"天", 是阿谁无尽的数学空间; 而这"手", 从人类,换成了AI.

数学真是天下至高法则:)

目前最新AI绘画的"缔造力"开始追逐乃至几已比肩人类, 这大概进一步袭击了人类的尊严, 从围棋阿法狗开始, 人类在"伶俐"这个点的尊严领地已经越来越小, 而AI绘画的冲破性进展则进一步把人类"想像力"和"缔造力"的尊严都打碎了 -- 大概还没完全破碎, 但已经填塞裂缝风雨飘摇.

作者连续对人类的科技发展保持某种中性看法:  尽管我们寄望于科技让人类的生活变得更美好, 但事实上正如核弹的发掘, 有些科学技术的发掘是中性的, 也无妨致命的. 完全代替人类的超等AI从实际来看似乎是一件越来越可能的事情. 人类需要思考的是, 在不太远的来日, 我们在全部平台面临AI都一败涂地的时分, 怎样保持对天下的主导权.

有个同事说的很对, 若AI最终学会了写代码 -- 似乎没有什么势必的壁垒在制止这件事的发生 -- 辣么影戏<闭幕者>的段子大概就要发生了. 若这样太悲观, 辣么人类起码要考虑, 怎样与一个逾越本人全部伶俐和缔造力的AI天下相处.

固然咯, 达观的角度而言, 来日的天下只会更美好: 人类通过AR/VR接入统一的大概片面的元天地, 人类主人只要动动嘴皮子, 无所不能够的AI助理就能凭据要求主动生产内容, 乃至直接生产可供人类体验的段子/游戏/虚拟生活.

这是一个更美好的盗梦空间, 或是一个更美好的黑客帝国? (笑)

不管怎样, 今天我们见证的AI绘画才气的冲破和逾越, 正是这条不归路的第一步:)

说个题外话作为结尾.  尽管还没发掘, 但应该就在这两年, 我们能够直接让AI生产一本指定样式的完整长篇小说, 特别是那些类型化的作品, 好比<斗破天穹>,<常人修仙传>这样的玄幻小说, 还能够指定长度, 指定女主角个数, 指定情节倾向性, 指定悲情水平和热血水平, 乃至xx水平, AI一键生产 :)

这完全不是天方夜谭, 考虑到AI绘画这一年坐火箭般的发展速度, 作者乃至觉得这一天就近在眼前.

目前还没有AI模子能够生产充足感染力和逻辑性的长篇文学内容, 但从AI绘画模子气焰汹汹的发展态势来看, 不久的来日AI生产高品质的类型文学作品险些已是板上钉钉的事情, 表面上没有任何的疑问.

这样说大概袭击了那些辛苦码字的网文作者, 但作为一个技术醉心者和玄幻小说醉心者, 作者对这一天的到来或是有些等候的... 今后再也不需催更, 也不需要忧虑连载作者的写作状况了; 更美好的是, 看到一半如觉得不爽, 还能够随时让AI调解后续情节偏向从新生产再连续看...

若你还接续定这样的一天即将到来, 我们能够求同存异, 一起守候.


Copyright © 2022 www.xyzr122.com All Rights Reserved. XML地图 惜缘之人助孕公司|武汉助孕
电话:13971193333 地址:湖北省武汉市洪山区关山大道150号