热门 来源:IT之家 2022-06-05 14:07 阅读量:6150
谁能想到宋朝的老虎有一天会被烧死在国外。
然后有脑洞大的外国网友不按套路给Imagen出了个问题:
把VR穿到宋朝的东方老虎身上。
Imagen也不害怕《一击即中》给出了一个代表作——《穿VR的老虎》
别说,这个老虎穿VR还真有点味道不仅仅是画风,VR头套也能和老虎以及整幅画保持一致连手柄和双虎嬉闹的感觉都是一步画出来的
然后是两只老虎戴着VR,手牵在一起刚刚好:
甚至Imagen也设计了一个连接版本的VR:
但毕竟AI绘画除了Google Imagen还有很多神器于是,一场老虎穿VR的绘画大战拉开序幕
Dal—e也来战斗
首先OpenAI家的DALL肯定是要打的。
网友Jacob出于好奇,用它做了几张图进行对比。
首先,《虎穿VR》充满了定妆照的风格:
不难看出,dalle E的画和Imagen的画在风格上还是有很大区别的。
Imagen的画更倾向于简单的线条感,而DALL则多了一点油画元素。
但在意境上,dalle E也能做出双胡嬉闹甚至拟人化的画作:
相比之下,网友们给出了自己的评论:
大多数网民为谷歌的Imagen付费更多。
除了他们,AI绘画神器MidJourney也参与了大战。但是,它的作品有点怪异...
DALL E VS Imagen
那么,同样作为AI创作神器,为什么最近大火的Imagen和dalle E风格完全不同。
Open的dalle E和Google的Imagen都可以通过文字描述直接生成超现实的图像,让机器也能拥有设计师般的创造力。
可是,他们的创造原则却大相径庭。
Dalle2使用CLIP将文本特征映射到图像特征,然后引导GAN或扩散模型生成图像。
而Google的Imagen则采用纯语言模型,只对文本特征进行编码,把文本到图像转换的工作留给了图像生成模型。
语言部分使用谷歌自己的T5—XXL编码器来冻结训练好的文本。
图像生成部分是一系列扩散模型,生成低分辨率图像,然后逐步过采样。
谷歌T5—XXL拥有46亿个参数,扩大文本编码器的规模可以有效提高文本与图像的对应性,以及图像的保真度。
此外,Imagen还使用了另一种称为噪声调节增强的扩散技术来帮助模型学习添加的噪声量,从而提高图像的可还原度。
相比之下,Imagen似乎比DALL更现实:
有人给浣熊戴上了宇航员头盔。
泰迪熊在这里开始蝶泳。
还有老鹰巧克力冰淇淋。
截至目前,Imagen和DALL都还在调试阶段,没有对外开放。
还有一点
在这场老虎穿VR的AI绘画大战中,也有一些失败的作品。
比如有网友举了一个用Dallemini生成的例子。
不难看出,虎戴VR这一版没有VR,老虎的脸基本上是模糊的。
根据网友的描述,他只是在其生成过程中将北宋改成了南宋:
画中最难的意象这次下降了。
那么你觉得老虎穿VR哪个AI神器更强呢。
参考链接:
郑重声明:此文内容为本网站转载企业宣传资讯,目的在于传播更多信息,与本站立场无关。仅供读者参考,并请自行核实相关内容。