!Stability  AI  模型人形绘制太 阴间 最强 喜发新模型 却被众嘲是破产 前兆 网友 因为研发太讲武德 (stability)

!Stability  AI  模型人形绘制太 阴间 最强 喜发新模型 却被众嘲是破产 前兆 网友 因为研发太讲武德 (stability)

整理|华卫、核子可乐

6 月 12 日,StabilityAI推出了StableDiffusion3Medium,这家英国初创公司称其为“迄今为止最先进的文本到图像开放模型”。至关重要的是,该模型可以在消费级 PC、笔记本电脑等个人消费系统以及企业级 GPU 上运行时生成这些图像。

要体验 SD3Medium,可使用 StabilityPlatform()上的 API,注册 StableAssistant()以获取三天免费试用,也可通过 Discord 体验 StableArtisan()。

据介绍,SD3Medium由20亿个参数组成,无需复杂的工作流程即可获得逼真的结果。模型的大小也是 SD3Medium的核心亮点,该模型比许多StableDiffusion3模型都要小,后者的参数范围在8亿到80亿之间。

Stability公司表示,其构建SD3Medium来理解涉及空间关系、构图元素、动作和风格的复杂提示,它还能克服手部和面部常见的伪影和瑕疵。但意外的是,SD3Medium一经发布,却因手脚等人体部位的“奇怪”绘制引发了“群嘲”。

面对 SD3Medium生成的离谱画面,甚至有不少用户纷纷吐槽:“这个版本是来搞笑的吗?”

SD3Medium 有何突破性?

根据官方说法,SD3Medium 是一套拥有 20 亿参数的 SD3 模型,其显著特点包括:

使用“一只猫在车里抱着一罐啤酒”作为提示词,在 SD3Medium 中生成的示例

同时,Stability与英伟达和 AMD 开展合作。利用英伟达 RTXGPU 以及 TensorRT 增强全体 StableDiffusion 模型(包括 SD3Medium)的性能,TensorRT 优化版本更可提供 50%的一流性能提升;AMD 已针对各类 AMD 设备(包括最新 APU、消费级 GPU 以及 MI-300X 企业级 GPU)优化了 SD3Medium 的推理性能。

此外,Stability强调安全、负责任的 AI 实践原则,并已经采取并将继续通过合理措施以防范恶意行为者对 SD3Medium 的滥用行为。其表示,安全自模型训练之时起,贯穿整个测试、评估与部署过程。Stability对模型开展了广泛的内、外部测试,同时制定并实施了多项保护措施以防止危害发生。

因人体绘制问题被狂嘲

然而,SD3Medium 的到来很快在网上受到用户的嘲笑。因为其生成人体图像的能力相较于其他最先进的图像合成模型(例如 Midjourney 及 DALL-E3)似乎反而有所倒退,会生成一些在结构上诡异扭曲的视觉效果。

Reddit 用户使用 SD3Medium 创建的 AI 生成图像,提示词为“一个人在客厅里打盹”

Reddit 上的原帖题为《这个版本是来搞笑的吗?(Isthisreleasesupposedtobeajoke?[SD3-2B])》,其中详细介绍了 SD3Medium 在渲染人物,特别是在手、脚等肢体方面的离谱操作。

Reddit 用户使用 SD3Medium 创建的 AI 生成图像,提示词为“海滩上穿着裙子的女子”。

受到早期训练数据集中高质量示例不足的影响,绘制手部一直是 AI 图像生成工具面临的关键挑战。但近来,不少图像合成模型似乎已经克服了这个问题。所以对于汇聚在 Reddit 上的图像合成爱好者们来说,SD3 的表现似乎确有倒退之嫌——特别是与去年 11 月发布的 SDXLTurbo 等 Stability 版本相比。

使用 SD3Medium 创建的三张 AI 生成图像,手部明显残缺不全

一位 Reddit 用户写道,“不久之前,StableDiffusion 还在与 Midjourney 分庭抗礼;可现如今,它看起来就像是个笑话。唯一能拿出来说说的,就只有数据集安全和符合道德原则了!”

另一篇题为《SD3 在生成躺在草地上的女孩时为何表现糟糕?(WhyisSD3sobadatgeneratinggirlslyingonthegrass?)》也展示了类似的问题,只是这回出问题的是整个躯体。

使用 SD3 创建的 AI 生成图像,提示词是“一位女子躺在草地上”

AI 图像爱好者们目前将 SD3 的人体绘制问题,归咎于 Stability 坚持从 SD3 的训练数据中过滤掉成人内容(所谓「不适合工作时间观看」的内容,简称 NSFW),因此图像生成质量有所下降。一位 Reddit 用户写道,“分享一条冷知识,对模型的严格审查也会过滤掉人体解剖素材,于是……就变成现在这样了。”

也就是说,每当用户的提示词表达了 AI 模型未能在训练数据集中充分接触过的概念,图像合成模型就会自行捏造对于用户要求的最佳解释,扭曲诡异的图像也由此产生。

2022 年发布的 StableDiffusion2.0 在描绘人体方面也出现过类似的问题。当时,AI 研究人员很快发现,筛除包含裸露内容的成人素材很可能会严重妨碍 AI 模型准确生成人体解剖结构的能力。随后发布的 SD2.1 和 SDXL 成功扭转了局面,恢复了一部分因严格过滤 NSFW 内容而失去的绘图能力。

模型预训练期间可能出现的另一个问题,是研究人员设计的 NSFW 过滤器在删除数据集中成人图像时可能过于挑剔,意外排除了那些并不存在冒犯性的内容,这就导致模型偶尔无法准确描绘人体。一位 Reddit 用户在帖子中写道,“只要图片不涉及人物,SD3 的工作就一切正常。所以我认为是他们用于过滤训练数据的 NSFW 过滤器敏感度过高,把所有人类图像都划入了 NSFW 范畴。”

使用 HuggingFace 上的 SD3 免费在线演示,即可快速输入提示词并看到与 Reddit 用户们上报情况类似的结果。例如,使用“一名男子伸出双手”的提示词,模型生成了一张男子举起两只硕大且左右颠倒手部的图像,好在指头倒是正确的五根。

使用“一名男子伸出双手”作为提示词,在 SD3Medium 中生成的示例

结语

SD3Medium在Stability的动荡时期到来。

这家初创公司成立于2020年,很快就被誉为生成式人工智能的新兴领导者之一。与竞争对手Midjourney和OpenAI的Dall-E并驾齐驱,StableDiffusion登上了新生文本到图像子行业的顶峰。2022年,投资者对这家初创公司的估值为10亿美元。

然而,从那时起,一连串的诉讼和财务问题吞噬了这家企业。艺术家们起诉该公司未经同意就用他们的作品训练人工智能模型。上个月据外媒报道,Stability公司也曾讨论过出售事宜,因为它面临着资金紧张的问题。

今年 2 月,StableDiffusion3 模型的延迟发布也激起了不少传闻。有声音认为,Stability是遇到了技术问题或是受到管理不善的影响。该公司最近也确实身陷困境,其创始人兼 CEOEmadMostaque 已经于 3 月辞职,随后又经历了一系列裁员。在此之前,三位核心工程师 RobinRombach、AndreasBlattmann 和 DominikLorenz 也已决定离去。

在一部分 StableDiffusion 粉丝看来,SD3Medium 如今在部分方面表现不佳的“失败”可谓该公司管理失能的直观体现,也代表着问题已经大到无法掩盖的地步。尽管该公司尚未申请破产,但不少用户在看到 SD3Medium 的表现后尖锐地讽刺称:“我猜他们终于能以一种安全且符合道德的方式宣告破产了。”

但无论如何,SD3Medium是 Stability打造的 StableDiffusion3 家族中最新、最先进的文本转图像 AI 模型,代表着生成式 AI 发展的重要里程碑,将继续为这项强大技术的普及贡献力量。Stability表示,其将根据用户反馈不断改进 SD3Medium 模型,扩展其功能并优化性能。目标是为生成式 AI 的艺术创作领域树立新的标杆,并使 SD3Medium 成为服务专业人士与业余爱好者的重要工具。

参考链接:

声明:本文来自用户分享和网络收集,仅供学习与参考,测试请备份。