StableDiffusion开发团队打造的新图像生成模型“FLUX.1”发布

碳材谈科技 2024-08-05 14:46:42

Black Forest Labs是一家由 Stable Diffusion 开发人员创立的新 AI 初创公司,发布了FLUX.1,这是一款突破性的图像生成 AI 。这种新模型克服了传统挑战,例如人手的描绘,并有可能对行业产生重大影响。它已经成功筹集了 3100 万美元,有望为开源 AI 社区带来新的活力。

FLUX.1:下一代图像生成AI的到来

Black Forest Labs 是一家由 Stable Diffusion 开发人员 Robin Rombach、Patrick Esser 和 Andreas Blattmann 创立的初创公司。尽管到目前为止它一直在秘密运作,但它于 2024 年 8 月 1 日宣布成立,并宣布了一组名为“ FLUX.1 ”的新 AI 模型,可从文本生成图像。

FLUX.1 提供三种版本。 FLUX.1 [pro] 是具有最高性能的私有源模型,可通过 API 获取,旨在用于商业用途。 FLUX.1 [dev] 是一个用于非商业用途的开放权重模型,直接从 [pro] 版本中提炼出来,具有可比的质量和提示跟踪能力,但具有更高效的设计。 FLUX.1 [schnell]是最快的版本,在Apache 2.0许可下发布,适合本地开发和个人使用。

这些模型拥有 120 亿个参数,并采用多模态和并行扩散 变压器块的混合架构。这种创新方法在视觉质量、及时跟随性和输出多功能性方面提供了卓越的性能。

在技​术方面,FLUX.1使用了一种称为“流匹配”的方法来概括扩散模型。此外,我们通过结合旋转位置嵌入和并行注意层来提高性能和硬件效率。得益于这些技术创新,FLUX.1 实现了超越以前型号的性能。

FLUX.1最显着的特点是它能够描绘人手。早期的图像生成模型(例如 Stable Diffusion 1.5)在手部描绘方面存在弱点,但 FLUX.1 克服了这个问题,能够相对准确地描绘各种姿势的手部。这可能是由于训练数据集的改进和模型架构的演变。

业内专家表示,FLUX.1的输出质量可以媲美甚至超越Midjourney v6.0和DALL-E 3。 “这对于多模式 AI 来说确实是个好消息!开源 AGI 的进程仍在继续,”AI 行业杰出人物 Bindu Reddy 在 X 上的一篇文章中评论道。

继最近稳定人工智能领域的动荡之后,黑森林实验室的成立为开源人工智能社区带来了新的希望。 Stability AI 于 2024 年 6 月中旬发布了 Stable Diffusion 3 Medium,但因其生成的人体解剖学而受到广泛批评。相比之下,FLUX.1克服了人体描绘的问题,实现了更高质量的图像生成。

除了图像生成之外,该公司还计划开发下一代文本到视频的人工智能系统。这使其与 OpenAI 的 Sora、Runway 的 Gen-3 Alpha 和快手的 Kling 等公司展开竞争。黑森林实验室还打算彻底改变视频生成方式,所谓的“以高分辨率和前所未有的速度进行精确的创建和编辑”。

然而,FLUX.1 的到来也引发了有关负责任的人工智能开发和部署的重要问题。黑森林实验室有严格的使用准则,包括禁止制作虚假信息、未经同意的图像以及可能伤害个人或团体的内容。但没有明确提及训练数据的来源,并指出该公司可能使用了互联网上的大规模图像抓取。这可能会引发版权问题和“合理使用”的道德问题。

Black Forest Labs 已成功筹集 3100 万美元资金,由 Andreessen Horowitz (a16z) 领投。知名投资者也参与了此次融资,包括 Brendan Iribe、Michael Ovitz 和 Garry Tan。该公司还聘请了娱乐界重量级人物、迪士尼前总裁 Michael Ovitz 和人工智能研究员 Matthias Bethge 作为顾问。这些强大的后盾增加了黑森林实验室在技术和商业上取得成功的机会。

FLUX.1 [dev] 和 FLUX.1 [schnell]可以从 GitHub 下载,但 [dev] 的权重文件为 23GB,因此根据显卡的不同,您可能需要事先对其进行量化才能在本地运行。可能有必要。

来源

黑森林实验室:宣布成立黑森林实验室Andreessen Horowitz:投资黑森林实验室
0 阅读:3