有了“AI 作图”神器Stable Diffusion你可能再也不会相信网上看到的东西了

神译局是36氪旗下编译团队,关注科技、商业、职场、生活等领域,重点介绍国外的新技术、新观点、新风向。

编者按:“AI 作图”是最近超级火的一项尖端人工智能技术。著名 AI 作图模型“Stable Diffusion”能免费将用户输入的文字描述转化成逼真的图像。这项技术将对社会产生深远的影响。本文来自编译,希望对您有所启发。

你知道亚伯拉罕·林肯是个牛仔吗?Stable Diffusion知道。(图片来源:

人工智能图像生成(AI image generation)在很大程度上已经实现了。一个新发布的名为“Stable Diffusion”的开源图像合成模型,可以让任何拥有一台 PC 和一个像样 GPU 的人,将文本转化为图像。这个 AI 作画工具几乎可以模仿任何视觉风格,如果你输入一个描述性短语,图像就会像魔术一样出现在你的屏幕上。

有些艺术家对此技术的前景感到兴奋,有些则不然,而整个社会似乎仍然没有意识到 AI 作画所带来的广泛影响。可以说,图像合成技术带来的影响堪比照相机的发明,或者堪比视觉艺术本身的创造。甚至我们的历史感也可能受到威胁,这取决于事态的发展。无论如何,Stable Diffusion 正引领一波深度学习创新工具的新浪潮,这必将彻底改变视觉媒体的创作。

Stable Diffusion 是伦敦前对冲基金经理伊马德•穆斯塔克(Emad Mostaque)的创意,他的目标是通过自己的公司 Stability AI 为大众带来深度学习的新应用。但是现代图像合成的根源可以追溯到 2014 年,Stable Diffusion 并不是今年第一个引起轰动的图像合成模型(ISM)。

2022 年4月,OpenAI 发布了 DALL-E 2,它能够将文字写的场景(称为prompt)转换成无数的视觉风格,震惊了社交媒体,这些视觉风格可以是梦幻的、奇妙的和逼真的。有人使用这个工具创造了“骑马的宇航员、在古埃及买面包的泰迪熊、著名艺术家风格的新奇雕塑”等等。

在 DALL-E 2 之后不久,谷歌和 Meta 也宣布了他们自己的文本转图像 AI 模型。接着,MidJourney 自 2022 年 3 月起可以通过 Discord 服务器访问,几个月后向公众开放,收费访问,并实现了类似的效果。

然后是 Stable Diffusion。8 月 22 日,Stability AI 发布了其开源图像生成模型,其质量可以说与DALL-E 2 相当。它还推出了自己的商业网站 DreamStudio,出售使用 Stable Diffusion 生成图像的计算时间。与 DALL-E 2 不同的是,任何人都可以使用它,而且由于 Stable Diffusion 代码是开源的,因此项目可以在几乎没有限制的情况下被构建。

仅在过去一周,就有数十个将 Stable Diffusion 带入全新方向的项目如雨后春笋般涌现。人们使用一种名为“img2img”的技术获得了意想不到的结果,它“升级”了 MS-DOS 游戏美术,能将《我的世界》(Minecraft)的游戏图像转换为逼真的图像,将《阿拉丁》中的场景转换为 3D,将孩子般的涂鸦转换为丰富的插图,等等。图像合成技术可以让广大用户的想法变成可视化的图像,降低了进入门槛,同时也加强了那些拥抱该技术的艺术家的能力,就像 1990 年代的 Adobe Photoshop 所做的那样。

如果你愿意遵循一系列有些晦涩难懂的步骤,就可以自己在本地运行 Stable Diffusion。在过去的两周里,我们一直在一台搭载 Nvidia RTX 3060 12GB GPU的 Windows PC上运行这个模型。它可以在大约 10 秒内生成一个 512×512 图像。在 3090 Ti 显卡下,每幅图像的生成时间下降到 4 秒。Stable Diffusion 的界面也在快速优化,更友好和完善的界面很快就会出现。所以,如果你对技术不感兴趣,请坚持住,更简单的解决方案即将推出。如果本地运行失败了,你也可以尝试在线. Stable Diffusion 是如何工作的?

首先,训练该模型的人或小组用元数据(如在网上找到的图片标签和标题)来收集图像,形成一个大型数据集。在 Stable Diffusion 的案例中,Stability AI 使用了 LAION-5B 图像集的一个子集,这基本上抓取了互联网上 50 亿张可公开访问的图像。最近对数据集的分析显示,许多图像来自 Pinterest、DeviantArt 甚至 Getty images 等网站。因此,“Stable Diffusion”吸收了许多在世艺术家的风格——这也遭到了其中一些艺术家的强烈反对。下面会详细介绍。

接下来,该模型使用数百个高端 GPU(如 Nvidia A100)在图像数据集上进行自我训练。根据创始人穆斯塔克(Mostaque)的说法,到目前为止,“Stable Diffusion”的训练成本为 60 万美元(其他 ISMs 的训练成本估计通常在数百万美元左右)。在训练过程中,模型通过一种名为 CLIP(对比语言-图像预训练)的技术,将单词与图像关联起来,该技术是由 OpenAI 公司在去年发明并公布的。

通过训练,一个使用潜在扩散(latent diffusion)的 ISM 学会了在某个主题中,特定颜色像素之间的关系。所以虽然它不一定能在高水平上“理解”他们的关系,但结果仍然可以是令人惊叹和惊讶的,可以使推理和风格组合看起来非常聪明。训练过程完成后,该模型永远不会复制源集中的任何图像,而是可以根据所学的内容创建新颖的样式组合。这样做的结果可能是令人愉快的,且非常有趣。

目前,Stable Diffusion 并不关心一个人是否有三只手、两颗头,还是每只手上有 6 根手指,所以除非你是创造 prompt 文本提示的天才,(AI艺术家有时称之为“提示工程”),否则你可能需要生成大量图像,并从中挑选出最好的图像。请记住,提示与数据集中已知图像的标题匹配得越多,就越有可能得到你想要的结果。在未来,很有可能模型会得到足够的改进,从而增加精度,减少挑选的必要,或者某种内部过滤器会为你提前挑选好。

如上所述,Stable Diffusion 的公开发布已经开始让一些人担心了,这些人担心它对文化和经济的影响。与 DALL-E 2 不同,Stable Diffusion 的训练数据可供任何人使用,没有任何硬性限制。官方发布的 Stable Diffusion(和DreamStudio)包括自动的“NSFW”过滤器和嵌入在图像中的不可见的跟踪水印,但这些限制可以在开放源代码中轻松绕过。这意味着,Stable Diffusion 可以被用来创建 OpenAI 目前禁止用 DALL-E 2 生成的图像,比如暴力图像、色情图像、可能侵犯公司版权的图像、名人造假图像等。事实上,已经有一些专用的 Discord 服务器专门用于该模型的色情图片输出。

需要明确的是,Stable Diffusion 的许可证正式禁止了其中的许多用途,但随着代码和权重的公开,实施起来会非常困难,甚至是不可能的。当被问及这些问题时,穆斯塔克(Mostaque)表示,他认为公开这种工具的好处超过了潜在的缺点。在一次简短的采访中,他告诉我们,“我们相信个人责任和代理,同时制定了道德政策和工具来减轻其带来的伤害。”

此外,Stable Diffusion 在推特上引起了艺术家们的愤怒,因为模型有模仿在世艺术家风格的能力。用于训练 Stable Diffusion 的图像集包含了从在世艺术家那里收集的数百万幅艺术作品,而没有与艺术家提前进行协商,这引发了关于作者和版权的深刻伦理问题。根据美国的法律先例,收集数据似乎是合法的,但有人可能会辩称,这项法律落后于快速发展的技术,而这些技术已经颠覆了公共数据的利用方式。

因此,如果图像合成技术在未来被大公司采用(这可能很快就会实现,因为穆斯塔克说“我们与 Adobe 有合作关系”),公司可能会根据一个“干净的”数据集来训练自己的模型,其中包括授权内容、选择加入的内容和公共领域的图像,以避免这些道德问题——即使使用互联网搜索在技术上是合法的。我们问穆斯塔克他是否有这方面的计划,他回答说:“Stability 正在研究一系列的模型,我们自己和合作者的所有模型在所属的管辖范围内都是合法的。”

Stable Diffusion 的另一个问题是文化偏见。由于这些 ISMs 目前的工作方式是抓取互联网上的图像及其相关元数据,因此它们也学会了数据集中存在的社会和文化刻板印象。例如,在其 Discord 服务器上的 Stable Diffusion 测试版中,早期的测试人员发现,几乎每次输入“美女”时,出现的图像都有点裸体的意思,这反映了西方社会经常在互联网上描述女性的方式。其他文化和种族歧视的刻板印象在 ISM 训练数据中随处可见,因此研究人员警告说,如果没有适当的保护措施,它就不应该在生产环境中被使用。这可能也是其他强大的模型,如 DALLE-2 和谷歌的 Imagen 仍然没有广泛向公众提供的原因之一。

尽管一些人工智能研究人员对数据集质量和偏见的担忧反响强烈,但互联网仍然是带有元数据的图像的最大来源,而这些数据是可以免费访问的。因此对于 ISMs 的开发人员来说,它总是一个诱人的目标。试图手动为数百万或数十亿的图像编写描述性的文字说明,以建立一个全新的伦理数据集,目前在经济上可能是不可行的。因此,虽然互联网上的数据带有偏见,但要想让这项技术成为可能,也只能这样了。由于不存在跨文化的普遍世界观,图像合成模型在多大程度上过滤或解释某些想法,可能仍将依赖未来使用该技术的不同群体的价值判断。

纵观计算领域的历史趋势,我们可以大胆设想,现在需要强大的 GPU 才能实现的东西,未来很有可能最终会在智能手机上实现。“Stable Diffusion 很可能在一年之内就能在智能手机上运行。”穆斯塔克告诉我们。此外,新技术将允许在较便宜的设备上训练这些模型。我们可能很快就会看到,由人工智能推动的创意产出将出现爆炸式增长。

Stable Diffusion 和其他模型已经开始着手动态视频生成了,所以去期待“不久之后就能通过文本提示生成逼真的视频”这件事吧。在此基础上,将这些功能扩展到音频和音乐、实时视频游戏和 3D VR 体验也是合乎逻辑的。很快,先进的人工智能可能只需要一些提示,就能完成大部分创造性的繁重工作。想象一下实时、按需生成的无限娱乐,“我希望它是多模式的,”穆斯塔克说,“这样你可以创造任何你能想象的东西,就像《星际迷航》的全息甲板(Holodeck)体验一样。”

ISMs 也是一种了不起的图像压缩方式:Stable Diffusion 需要数亿张图像,并将有关这些图像的信息压缩到一个 4.2 GB 的权重文件中。通过正确的种子和设置,可以确定地再现某些生成的图像。可以想象,人们在未来使用这种技术的变体,将一部 8K 故事片压缩成几兆字节的文本。一旦成真,任何人都可以用这种方式创作自己的故事片。这项技术的意义才刚刚开始被探索,所以它可能会把我们带到目前无法预见的新方向上。

由于前面提到的原因,如此逼真的图像合成模型具有潜在的危险,例如制造和宣传错误信息、篡改历史和冒充他人等,以及还会破坏照片或视频证据的法律价值。在人工智能驱动的未来,我们如何知道哪些图像是真的,哪些图像是假的?穆斯塔克对此类问题相对乐观,他说:“到时候会有新的验证系统到位。”

当然,这说起来容易,而我们也很容易对新事物感到害怕。尽管我们尽了最大努力,但如果没有看到图像合成和其他人工智能驱动的技术得到广泛应用,就很难确切知道它们将如何影响我们的社会。最终,人类将会适应,即使我们的文化框架最终可能会在这个过程中发生根本性的变化。这种情况以前也发生过,这也是为什么据说古希腊哲学家赫拉克利特说:“唯一不变的就是变化。”

事实上,现在有一张他说这句话时的照片,这还要归功于 Stable Diffusion。

You May Also Like

More From Author

+ There are no comments

Add yours