！Stability AI 模型人形绘制太阴间最强喜发新模型却被众嘲是破产前兆网友因为研发太讲武德 (stability)

整理|华卫、核子可乐

6 月 12 日，StabilityAI推出了StableDiffusion3Medium，这家英国初创公司称其为“迄今为止最先进的文本到图像开放模型”。至关重要的是，该模型可以在消费级 PC、笔记本电脑等个人消费系统以及企业级 GPU 上运行时生成这些图像。

要体验 SD3Medium，可使用 StabilityPlatform（）上的 API，注册 StableAssistant（）以获取三天免费试用，也可通过 Discord 体验 StableArtisan（）。

据介绍，SD3Medium由20亿个参数组成，无需复杂的工作流程即可获得逼真的结果。模型的大小也是 SD3Medium的核心亮点，该模型比许多StableDiffusion3模型都要小，后者的参数范围在8亿到80亿之间。

Stability公司表示，其构建SD3Medium来理解涉及空间关系、构图元素、动作和风格的复杂提示，它还能克服手部和面部常见的伪影和瑕疵。但意外的是，SD3Medium一经发布，却因手脚等人体部位的“奇怪”绘制引发了“群嘲”。

面对 SD3Medium生成的离谱画面，甚至有不少用户纷纷吐槽：“这个版本是来搞笑的吗？”

SD3Medium 有何突破性？

根据官方说法，SD3Medium 是一套拥有 20 亿参数的 SD3 模型，其显著特点包括：

使用“一只猫在车里抱着一罐啤酒”作为提示词，在 SD3Medium 中生成的示例

同时，Stability与英伟达和 AMD 开展合作。利用英伟达 RTXGPU 以及 TensorRT 增强全体 StableDiffusion 模型（包括 SD3Medium）的性能，TensorRT 优化版本更可提供 50%的一流性能提升；AMD 已针对各类 AMD 设备（包括最新 APU、消费级 GPU 以及 MI-300X 企业级 GPU）优化了 SD3Medium 的推理性能。

此外，Stability强调安全、负责任的 AI 实践原则，并已经采取并将继续通过合理措施以防范恶意行为者对 SD3Medium 的滥用行为。其表示，安全自模型训练之时起，贯穿整个测试、评估与部署过程。Stability对模型开展了广泛的内、外部测试，同时制定并实施了多项保护措施以防止危害发生。

因人体绘制问题被狂嘲

然而，SD3Medium 的到来很快在网上受到用户的嘲笑。因为其生成人体图像的能力相较于其他最先进的图像合成模型（例如 Midjourney 及 DALL-E3）似乎反而有所倒退，会生成一些在结构上诡异扭曲的视觉效果。

Reddit 用户使用 SD3Medium 创建的 AI 生成图像，提示词为“一个人在客厅里打盹”

Reddit 上的原帖题为《这个版本是来搞笑的吗？（Isthisreleasesupposedtobeajoke?[SD3-2B]）》，其中详细介绍了 SD3Medium 在渲染人物，特别是在手、脚等肢体方面的离谱操作。

Reddit 用户使用 SD3Medium 创建的 AI 生成图像，提示词为“海滩上穿着裙子的女子”。

受到早期训练数据集中高质量示例不足的影响，绘制手部一直是 AI 图像生成工具面临的关键挑战。但近来，不少图像合成模型似乎已经克服了这个问题。所以对于汇聚在 Reddit 上的图像合成爱好者们来说，SD3 的表现似乎确有倒退之嫌——特别是与去年 11 月发布的 SDXLTurbo 等 Stability 版本相比。

使用 SD3Medium 创建的三张 AI 生成图像，手部明显残缺不全

一位 Reddit 用户写道，“不久之前，StableDiffusion 还在与 Midjourney 分庭抗礼；可现如今，它看起来就像是个笑话。唯一能拿出来说说的，就只有数据集安全和符合道德原则了！”

另一篇题为《SD3 在生成躺在草地上的女孩时为何表现糟糕？（WhyisSD3sobadatgeneratinggirlslyingonthegrass?）》也展示了类似的问题，只是这回出问题的是整个躯体。

使用 SD3 创建的 AI 生成图像，提示词是“一位女子躺在草地上”

AI 图像爱好者们目前将 SD3 的人体绘制问题，归咎于 Stability 坚持从 SD3 的训练数据中过滤掉成人内容（所谓「不适合工作时间观看」的内容，简称 NSFW），因此图像生成质量有所下降。一位 Reddit 用户写道，“分享一条冷知识，对模型的严格审查也会过滤掉人体解剖素材，于是……就变成现在这样了。”

也就是说，每当用户的提示词表达了 AI 模型未能在训练数据集中充分接触过的概念，图像合成模型就会自行捏造对于用户要求的最佳解释，扭曲诡异的图像也由此产生。

2022 年发布的 StableDiffusion2.0 在描绘人体方面也出现过类似的问题。当时，AI 研究人员很快发现，筛除包含裸露内容的成人素材很可能会严重妨碍 AI 模型准确生成人体解剖结构的能力。随后发布的 SD2.1 和 SDXL 成功扭转了局面，恢复了一部分因严格过滤 NSFW 内容而失去的绘图能力。

模型预训练期间可能出现的另一个问题，是研究人员设计的 NSFW 过滤器在删除数据集中成人图像时可能过于挑剔，意外排除了那些并不存在冒犯性的内容，这就导致模型偶尔无法准确描绘人体。一位 Reddit 用户在帖子中写道，“只要图片不涉及人物，SD3 的工作就一切正常。所以我认为是他们用于过滤训练数据的 NSFW 过滤器敏感度过高，把所有人类图像都划入了 NSFW 范畴。”

使用 HuggingFace 上的 SD3 免费在线演示，即可快速输入提示词并看到与 Reddit 用户们上报情况类似的结果。例如，使用“一名男子伸出双手”的提示词，模型生成了一张男子举起两只硕大且左右颠倒手部的图像，好在指头倒是正确的五根。

使用“一名男子伸出双手”作为提示词，在 SD3Medium 中生成的示例

结语

SD3Medium在Stability的动荡时期到来。

这家初创公司成立于2020年，很快就被誉为生成式人工智能的新兴领导者之一。与竞争对手Midjourney和OpenAI的Dall-E并驾齐驱，StableDiffusion登上了新生文本到图像子行业的顶峰。2022年，投资者对这家初创公司的估值为10亿美元。

然而，从那时起，一连串的诉讼和财务问题吞噬了这家企业。艺术家们起诉该公司未经同意就用他们的作品训练人工智能模型。上个月据外媒报道，Stability公司也曾讨论过出售事宜，因为它面临着资金紧张的问题。

今年 2 月，StableDiffusion3 模型的延迟发布也激起了不少传闻。有声音认为，Stability是遇到了技术问题或是受到管理不善的影响。该公司最近也确实身陷困境，其创始人兼 CEOEmadMostaque 已经于 3 月辞职，随后又经历了一系列裁员。在此之前，三位核心工程师 RobinRombach、AndreasBlattmann 和 DominikLorenz 也已决定离去。

在一部分 StableDiffusion 粉丝看来，SD3Medium 如今在部分方面表现不佳的“失败”可谓该公司管理失能的直观体现，也代表着问题已经大到无法掩盖的地步。尽管该公司尚未申请破产，但不少用户在看到 SD3Medium 的表现后尖锐地讽刺称：“我猜他们终于能以一种安全且符合道德的方式宣告破产了。”

但无论如何，SD3Medium是 Stability打造的 StableDiffusion3 家族中最新、最先进的文本转图像 AI 模型，代表着生成式 AI 发展的重要里程碑，将继续为这项强大技术的普及贡献力量。Stability表示，其将根据用户反馈不断改进 SD3Medium 模型，扩展其功能并优化性能。目标是为生成式 AI 的艺术创作领域树立新的标杆，并使 SD3Medium 成为服务专业人士与业余爱好者的重要工具。

参考链接：