Stability AI宣布推出Stable Diffusion XL1.0,这是一款文本到图像的模型,该公司称之为迄今为止“最先进”的版本。除了Stability的API和消费者应用ClipDrop和DreamStudio之外,Stable Diffusion XL1.0还在GitHub上以开源的形式提供,Stability声称,与其前身相比,Stable Diffusion XL1.0提供了“更鲜艳”和“准确”的颜色,以及更好的对比度、阴影和光照效果。
在接受TechCrunch采访时,Stability AI的应用机器学习负责人Joe Penna指出,Stable Diffusion XL1.0包含了35亿个参数,可以在多种纵横比下“在几秒钟内”产生全1兆像素分辨率的图像。“参数”是模型从训练数据中学习到的部分,基本上定义了模型在一个问题上的技能,在这里就是生成图像。
上一代Stable Diffusion模型,Stable Diffusion XL0.9,也可以产生更高分辨率的图像,但需要更多的计算力。
“Stable Diffusion XL1.0是可定制的,可以针对概念和风格进行微调。”Penna说。“它也更容易使用,能够通过基本的自然语言处理提示实现复杂的设计。”
Stable Diffusion XL1.0在文本生成方面也有所改进。虽然许多最好的文本到图像模型都难以生成带有清晰标志的图像,更不用说书法或字体了,但Penna说,Stable Diffusion XL1.0能够实现“先进”的文本生成和可读性。
此外,正如SiliconAngle和VentureBeat报道的那样,Stable Diffusion XL1.0还支持修复(重建图像缺失的部分)、扩展(扩展现有图像)和“图像到图像”提示——意味着用户可以输入一个图像,并添加一些文本提示来创建更详细的变化。而且,该模型能够理解复杂的、多部分的、用简短提示给出的指令,而之前的Stable Diffusion模型则需要更长的文本提示。
“我们希望通过发布这个更强大的开源模型,不仅图像的分辨率会增加四倍,而且还会带来一些巨大的进步,这将极大地惠及所有用户。”他补充说。
但是与之前版本的Stable Diffusion一样,该模型也引发了一些棘手的道德问题。
Stable Diffusion XL1.0的开源版本理论上可以被不法分子用来生成有毒或有害的内容,比如未经同意的换脸。这在一定程度上反映了用来训练它的数据:来自网络的数百万张图片。
无数教程演示了如何使用Stability AI自己的工具,包括DreamStudio,一个为Stable Diffusion提供开源前端界面的工具来创建换脸。还有无数其他教程展示了如何微调基础的Stable Diffusion模型来生成色情内容。
Penna并没有否认滥用是可能发生的——并承认该模型也包含了某些偏见。但他补充说,Stability AI已经采取了“额外的步骤”来减少有害内容的生成,通过过滤模型的训练数据中的“不安全”图像,发布与有问题的提示相关的新警告,并尽可能地在工具中屏蔽单个有问题的术语。
Stable Diffusion XL1.0的训练集还包括了一些艺术家的作品,这些艺术家曾经抗议过包括Stability AI在内的一些公司使用他们的作品作为生成式人工智能模型的训练数据。Stability AI声称,它受到了美国公平使用原则的法律保护。但这并没有阻止一些艺术家和库存照片公司Getty Images提起诉讼,以阻止这种做法。
Stability AI与初创公司Spawning有合作关系,尊重这些艺术家的“退出”请求,表示它并没有从其训练数据集中删除所有被标记的艺术作品,但它“继续考虑艺术家的要求”。