在让AI创作这件事上,Google和OpenAI刚刚起来。
不,它震惊了全网的DALLmiddotE发布仅一个月后,谷歌就给gallants送去了一个叫Imagen的选手。
直接对比上图,左边是Google Imagen玩家眼中的猫被人类雕像绊倒,右边是达尔middot,2.选手e的同题创作。
你认为哪位选手的作品更符合题目。
并让网友直呼达尔middot,这个过时了吗是的,不仅仅是这种正面PK的刺激
看到这样的照片,如果不说是AI生成的,是不是要感叹两足兽的摆姿势技术越来越高了。
你也可以试着让文字变长。
比如一只非常快乐的毛茸茸的熊猫,打扮成一个在厨房里做面团的厨师的高对比度肖像,身后的墙上挂着一幅花的画hellip
Imagen也很容易赢得,元素齐全:
看到这里,机器学习圈网友的反应是这样的:
真的,才一个月就又更新了。
请不要再电击我了。
在一起很热,很快就破了圈。
吃瓜的人立马想到了海贼王。
以后可能就没有画廊网站了。
那么这个来自谷歌的新AI掌握了哪些独家秘密呢。
详情我们一起往下看。
增强理解比优化生成更重要
在文字和图像产生之前我们已经介绍了很多,基本都是套路:
CLIP负责从文本特征映射到图像特征,然后指导GAN或扩散模型生成图像。
但是Google Imagen这次有一个颠覆性的变化mdashmdash
纯语言模型只负责编码文本特征,把文本到图像转换的工作留给图像生成模型。
语言部分使用谷歌自己的T5—XXL,训练后冻结文本编码器。
图像生成部分是一系列扩散模型,生成低分辨率图像,然后逐步过采样。
这样做的最大好处是,纯文本训练数据比高质量的图形数据更容易获得。
这也是有实验数据支持的在人类评估中,T5—XXL在保真度和语义对齐方面比CLIP表现得更好
谷歌在实验中还发现,扩大语言模型的规模比扩大图像生成模型对最终效果的影响更大。
有网友指出,谷歌最终采用的T5—XXL参数的规模,还不到最新PaLM language模型5400亿个参数的1%如果用PaLM会是什么样子
除了语言模型的发现,Google还通过对Imagen的研究,对扩展模型做了很多优化。
首先,增加无分类器引导的权重可以提高图文对齐,但会损害图像保真度。
解决方法是在每个采样步骤中使用动态阈值,这可以防止过饱和。
其次,扩散模型多样性不足的问题可以通过在使用高引导权重的同时向低分辨率图像添加噪声来解决。
第三,改进了扩散模型的经典结构U—Net新的高效U—Net提高了内存使用效率,收敛速度和推理时间
在提升了语言理解和图像生成两方面后,Imagen模型整体在评测中也取得了不错的成绩。
例如,新的SOTA是在COCO基准测试上实现的,但它根本没有用COCO数据集进行训练。
在COCO测试的人体评测部分,我们还发现了Imagen的一个缺点,就是不擅长生成人体图像。
具体来说,在现实主义中,没有一个人类形象具有更高的人类偏好程度。
与此同时,谷歌推出了比COCO更具挑战性的测试基准DrawBench,其中包含了各种棘手的提示。
实验发现达尔middot,e两种颜色需求同时出现的情况很难准确理解,但是Imagen还好。
反常识的情况,比如骑着宇航员两个都表现不好,只能画宇航员骑马。
但Imagen对来说是对的,一只熊猫正在煮咖啡和摘花,比较准确的理解,只错一次达尔middot,我们把所有的熊猫都画成了花朵图案
可能骑着宇航员一点反常识
Imagen也更擅长要求文字出现在图像中。
除了正确书写文本之外,还可以为文本正确添加fireworks效果。
AI绘画正在走出循环。
说起来,AI绘画最早起源于Google。
2015年,谷歌推出了DeepDream,开创了AI基于文本生成图像的先河。
DeepDream作品
但是要说相关技术真的开Rdquo,出圈了,标志性事件还得算2021年OpenAI的DALLmiddote出生了。
当时的吴恩达,Keras之父等大牌都转发赞他们,DALLmiddote甚至被称为2021年第一个令人兴奋的AI技术突破。
随后,语言理解模型和图像生成模型多年的技术进步在AI画这一事件密集爆发,一系列CLIP+GAN,CLIP+扩散模型的研究和应用在网上频频掀起热潮。
从此一发不可收拾,技术更新迭代越来越快。
达尔middot,当E第一次发布时,一些网民发起了一项投票,问一个新的SOTA需要多长时间才能出现。
当时大多数人选择几个月或者一年以上。
但是现在,Imagen的出现只需要6周。
伴随着AI绘画效果越来越大,受众范围也在不断扩大,突破技术圈,进入大众视野。
前阵子苹果App Store图形和设计排行榜上有一个AI画图应用。
现在最新的趋势是,各行各业的设计师排队申请中旅,迪亚马特等商业产品的内测,这将会爆红社交网络。
这种出圈也给OpenAI,Google这样的大公司很大压力。
出于AI伦理和公平的原因,DALLmiddote和Imagen没有直接开源或开放API。
他们每个人都在论文中用了很大的篇幅谈论风险和社会影响。
OpenAI选择了内测模式,而Google还在做进一步的研究和标准化,会等到确保AI不被滥用后再对外公开。
如果您现在想体验Imagen,有一个在线演示。
您可以根据给定的提示自由组合不同的场景。
快来试试吧~
声明:以上内容为本网站转自其它媒体,相关信息仅为传递更多企业信息之目的,不代表本网观点,亦不代表本网站赞同其观点或证实其内容的真实性。投资有风险,需谨慎。