V6来了！号称比以往所有版本都强大从零开始训练历时9个月 Midjourney

圣诞前夕，又一份大礼从天而降：由 David Holz 主导开发团队打造的高人气图像生成 AI 模型的最新、最强版本 Midjourney V6 现已发布，目前处于 alpha 测试阶段，并立即得到众多高级用户的关注。

新版本带来一系列令人欣喜的改进，也帮助那些已经在通过 Midjourney 乃至其他 AI 艺术工具创作图像的用户巩固了信心。

在官方发布的 Discord 帖子中，该公司将 V6 版本定位为重大革新成果。

公告解释称，“提示词遵循效果将更加准确，可容纳的提示词更长、连贯性更高、模型知识也更为丰富。”此外，公告还强调了 V6 版本相较于 2023 年 5 月推出的 V5.1 版模型的进步之处。V5 模型的主要亮点在于出色的易用性，可支持简短提示词并带来美学效果提升，这也为处理能力更强、更复杂的 V6 版本奠定了基础。

实际上 OpenAI DALL-E 3 以及 Ideogram 等竞争对手 AI 图像生成器已经推出了此类功能，但 Midjourney 自 2022 年亮相以来却始终未能实现。

Holz 在 Midjourney Discord 服务器（目前已拥有超 1700 万会员）发帖指出，“这套模型生成的图像在真实度方面远超我们以往发布的任何版本。”Holz 还提到， V6 实际是“我们在 AI 超级集群上从零开始训练而成的第三套模型”，整个开发周期长达九个月 。

同类型产品相比，MJ V6 表现如何？

V6 模型最值得关注的功能之一，就是其文本绘制功能。虽然并不属于本次升级的重点（开发团队表示这仍属于「次要」功能），但这仍令 MidJourney 获得了直接与 DALL-E 3 乃至 Ideogram 等其他领先模型直接竞争的资格。更重要的是，MidJourney 采取了一种截然不同的独特文本生成方法。

MidJourney 表示这是一种“次要文本绘制能力，用户必须在「引号」内编写文本，并配合—style raw 或者更低的—stylize 值来实现生成。”

这里使用 Decrypt 对 MidJourney 与以文本生成准确性而闻名的 DALL-E 3 进行了测试比较。从结果来看，MidJourney 似乎优先考虑风格和美观度，有时甚至会为此而牺牲文本准确性。大多数时候，它生成的文本要么不够准确、要么无法生成。但只要能够顺利输出，其图像质量至少与 DALL-E 3 的结果相当、甚至更好。顺带一提，DALL-E 3 是专为 ChatGPT 和微软 Bing 提供技术支持的文本到图像 AI 模型。

将 MidJourney、DALL-E 3、SDXL 加 Harrlogos 以及 Ideogram AI 的文本生成功能进行比较，最简单的概括就是 MidJourney 更适合那些以美观为优先考量的需求，DALL-E 3 在易用性和卡通风格数字创作上表现较好，SDXL 主要面向那些精通 A1111WebUI 的用户，而 Ideogram AI 则更善于牺牲一点美学效果来换取文本还原效果。

MidJourney 和 ChatGPT 上的 DALL-E 3 目前均需要付费使用，但 SDXL 和 Ideogram AI 则免费开放。Bing 版本的 DALL-E 3 倒是提供免费使用，但仅支持生成矩形图像，而且用户只能修改提示词、无法直接使用 OpenAI 提供的自然对话方式。

V6 的速度比 V5 略慢一些、成本也更高，但该团队希望能随时间推移而加快模型速度。V6 模型还拥有更加“微妙”且“创意性”的 upscaler，能够将图像分辨率提高至 2 倍。

将这些功能与各种受支持的参数（例如用于更改分辨率的—ar、用于在每次生成结果间体现差异的—chaos、用于更改模型创意程度的—stylize 等）相结合，将为用户带来广泛探索创意空间的可能性。但图像修复、覆盖和图像描述等功能尚不可用。据 MidJourney 介绍，这些功能应该会在下个月逐一补全。

公告鼓励用户们运用这些“令人难以置信的力量，但在享受愉悦与惊奇也应保持负责和尊重的态度”，这也一直是 MidJourney 抱持的宗旨所在。而且后半部分所言非虚，官方的审查制度也将更加严格。

公告中写道，“别干坏事，也不要创作有争议的图像。”这很可能是指 MidJourney 将阻止创作色情或跟政治相关的 Deepfake 图像。

如何使用 MJ V6 新模型？

值得一提的是，此次更新似乎不会默认对用户开放。大家需要在 Midjourney Discord 服务器中、或者在 Midjourney 机器人的直接消息（DM）栏中输入斜杠命令“/settings”，之后在上方的下拉菜单中选择 V6。或者，也可以按照传统方式进行操作，在提示词后方手动输入“—v 6”。

MJ V6 有什么新功能？

具体来讲，Holz 公布了以下几项新功能：

鼓励新的提示词编写方式

作为 Midjourney 项目的创始人和负责人，Holz 还公布了一种全新的提示词编写方法。

长期以来，Midjourney 要求用户在 Discord 服务器或者 Alpha 版本的网站中输入特定的文本描述加关键词来生成图像，但很多使用者反映体验深奥而且相当考验技术。为此，用户们还专门在社交媒体上分享了比较好用的提示词编写范式，例如引用相机名称（例如徕卡 M11）、胶片格式（35 毫米）和分辨率（8k），以便从 AI 模型中获取高质量、逼真甚至趋近电影的视觉效果。

但 Holz 在他的 Discord 帖子中明确指出，这类提示词编写方式在 V6 上将呈现出与期望相背的效果。“大家需要重新学习如何编写提示词。”