V6来了!号称比以往所有版本都强大 从零开始训练 历时9个月 Midjourney

V6来了!号称比以往所有版本都强大 从零开始训练 历时9个月 Midjourney

圣诞前夕,又一份大礼从天而降:由 David Holz 主导开发团队打造的高人气图像生成 AI 模型的最新、最强版本 Midjourney V6 现已发布,目前处于 alpha 测试阶段,并立即得到众多高级用户的关注。

新版本带来一系列令人欣喜的改进,也帮助那些已经在通过 Midjourney 乃至其他 AI 艺术工具创作图像的用户巩固了信心。

在官方发布的 Discord 帖子中,该公司将 V6 版本定位为重大革新成果。

公告解释称,“提示词遵循效果将更加准确,可容纳的提示词更长、连贯性更高、模型知识也更为丰富。”此外,公告还强调了 V6 版本相较于 2023 年 5 月推出的 V5.1 版模型的进步之处。V5 模型的主要亮点在于出色的易用性,可支持简短提示词并带来美学效果提升,这也为处理能力更强、更复杂的 V6 版本奠定了基础。

实际上 OpenAI DALL-E 3 以及 Ideogram 等竞争对手 AI 图像生成器已经推出了此类功能,但 Midjourney 自 2022 年亮相以来却始终未能实现。

Holz 在 Midjourney Discord 服务器(目前已拥有超 1700 万会员)发帖指出,“这套模型生成的图像在真实度方面远超我们以往发布的任何版本。”Holz 还提到, V6 实际是“我们在 AI 超级集群上从零开始训练而成的第三套模型”,整个开发周期长达九个月

同类型产品相比,MJ V6 表现如何?

V6 模型最值得关注的功能之一,就是其文本绘制功能。虽然并不属于本次升级的重点(开发团队表示这仍属于「次要」功能),但这仍令 MidJourney 获得了直接与 DALL-E 3 乃至 Ideogram 等其他领先模型直接竞争的资格。更重要的是,MidJourney 采取了一种截然不同的独特文本生成方法。

MidJourney 表示这是一种“次要文本绘制能力,用户必须在「引号」内编写文本,并配合—style raw 或者更低的—stylize 值来实现生成。”

这里使用 Decrypt 对 MidJourney 与以文本生成准确性而闻名的 DALL-E 3 进行了测试比较。从结果来看,MidJourney 似乎优先考虑风格和美观度,有时甚至会为此而牺牲文本准确性。大多数时候,它生成的文本要么不够准确、要么无法生成。但只要能够顺利输出,其图像质量至少与 DALL-E 3 的结果相当、甚至更好。顺带一提,DALL-E 3 是专为 ChatGPT 和微软 Bing 提供技术支持的文本到图像 AI 模型。

将 MidJourney、DALL-E 3、SDXL 加 Harrlogos 以及 Ideogram AI 的文本生成功能进行比较,最简单的概括就是 MidJourney 更适合那些以美观为优先考量的需求,DALL-E 3 在易用性和卡通风格数字创作上表现较好,SDXL 主要面向那些精通 A1111WebUI 的用户,而 Ideogram AI 则更善于牺牲一点美学效果来换取文本还原效果。

MidJourney 和 ChatGPT 上的 DALL-E 3 目前均需要付费使用,但 SDXL 和 Ideogram AI 则免费开放。Bing 版本的 DALL-E 3 倒是提供免费使用,但仅支持生成矩形图像,而且用户只能修改提示词、无法直接使用 OpenAI 提供的自然对话方式。

V6 的速度比 V5 略慢一些、成本也更高,但该团队希望能随时间推移而加快模型速度。V6 模型还拥有更加“微妙”且“创意性”的 upscaler,能够将图像分辨率提高至 2 倍。

将这些功能与各种受支持的参数(例如用于更改分辨率的—ar、用于在每次生成结果间体现差异的—chaos、用于更改模型创意程度的—stylize 等)相结合,将为用户带来广泛探索创意空间的可能性。但图像修复、覆盖和图像描述等功能尚不可用。据 MidJourney 介绍,这些功能应该会在下个月逐一补全。

公告鼓励用户们运用这些“令人难以置信的力量,但在享受愉悦与惊奇也应保持负责和尊重的态度”,这也一直是 MidJourney 抱持的宗旨所在。而且后半部分所言非虚,官方的审查制度也将更加严格。

公告中写道,“别干坏事,也不要创作有争议的图像。”这很可能是指 MidJourney 将阻止创作色情或跟政治相关的 Deepfake 图像。

如何使用 MJ V6 新模型?

值得一提的是,此次更新似乎不会默认对用户开放。大家需要在 Midjourney Discord 服务器中、或者在 Midjourney 机器人的直接消息(DM)栏中输入斜杠命令“/settings”,之后在上方的下拉菜单中选择 V6。或者,也可以按照传统方式进行操作,在提示词后方手动输入“—v 6”。

MJ V6 有什么新功能?

具体来讲,Holz 公布了以下几项新功能:

鼓励新的提示词编写方式

作为 Midjourney 项目的创始人和负责人,Holz 还公布了一种全新的提示词编写方法。

长期以来,Midjourney 要求用户在 Discord 服务器或者 Alpha 版本的网站中输入特定的文本描述加关键词来生成图像,但很多使用者反映体验深奥而且相当考验技术。为此,用户们还专门在社交媒体上分享了比较好用的提示词编写范式,例如引用相机名称(例如徕卡 M11)、胶片格式(35 毫米)和分辨率(8k),以便从 AI 模型中获取高质量、逼真甚至趋近电影的视觉效果。

但 Holz 在他的 Discord 帖子中明确指出,这类提示词编写方式在 V6 上将呈现出与期望相背的效果。“大家需要重新学习如何编写提示词。”

MJ V6 用起来怎么样?

模型刚发布不久,就已经有国外网友简单测试了 MJ V6。该名网友表示,“至少就个人使用体验来讲,此次更新只能说是平淡无奇。虽然确实看到了更多的细节和更逼真的生成效果,但区别跟上代模型并不是很大。反正我是没办法一眼就看出哪张图片是 V5.2 生成的、哪张是 V6 生成的。”

但不可否认,V6 生成的灯光效果和反射细节确实让人深刻印象。

包括恐怖片导演兼数字艺术家 Chris Perna 在内的其他狂热用户,已经开始对 MJ V6 的生成功能进行全面测试,并将成果发布到了 Instagram 及其他社交媒体网站之上。从早期示例来看,V6 的文本生成效果确实相当出彩。

Chris Perna 发文并配图称,“刚开始,“克苏鲁觉醒”还真让新版 V6 有点懵。”

一些网友也晒图并发表了自己对于 V6 的看法。

Midjourney V6……终于可以绘制文字啦!也许效果还不完美,但我一直在探索要如何实现。这四张图都是一次生成的结果,可能是我运气好吧

声明:本文来自用户分享和网络收集,仅供学习与参考,测试请备份。