但实际上,这张图片完全由“Flux”系列大模型生成,该大模型已经在GitHub上开源,任何人都可以去尝试使用■★◆,该模型的研发公司黑森林今年8月刚刚创立,创始人是领导全球著名文生图开源项目Stable Diffusion的罗宾龙巴赫(Robin Rombach)。
另外,AI生成的人物的皮肤过于光滑,当记者将AI生成的图片混入普通照片并随机请网友评价时,对方虽然并未看出图片为AI生成,但表示该人物“磨皮比较严重”。
新京报贝壳财经记者使用Flux Schnell模型生成的图片◆★★■■★,图中记者工牌显示为新京报的英文。
但在总体上◆■,记者体验后发现,Flux确实在生成图片的光线质感◆■◆、对手指发丝等细节的处理、对文字的理解以及对提示词的理解上做到了令人惊艳的效果★■■◆◆■,也难怪其会在众多文生图大模型中脱颖而出。
新京报记者浏览Flux的开发团队◆★■★★“黑森林实验室★■◆★”的官方社交平台发现■■◆■◆★,该团队8月1日刚刚创立,创始人是领导了全球著名文生图开源项目Stable Diffusion的罗宾龙巴赫(Robin Rombach)■★★■■◆,其他创始团队成员则大多是从AI初创公司 Stability AI离职的工程师。
8月13日■◆,新京报贝壳财经记者测试了Flux的效果,发现作为开源模型◆★◆◆◆■,其生成写实类图片的质量和效果可谓业界一流,此外还能正确生成英文字母★■◆■★◆,耗费算力较低■◆◆,不过多次生成依然会出现手指等细节的错误◆★★◆,此外该模型也无法正确生成汉字。
据了解,Flux拥有高达120 亿个参数,因此可以提供与文生图领域的头部模型Midjourney相媲美的视觉效果,其包括三个系列模型:Flux Dev、快速版本的Flux Schnell,以及Flux Pro.◆◆◆★,其中前两个模型已经开源,任何人都可以使用。
目前,黑森林实验室已经获得了3100万美元种子轮融资■◆,以及Brendan Iribe、Michael Ovitz等知名投资者的支持。此外,Flux火爆风也吹到了国内,魔搭社区已经第一时间上架了Flux模型,百炼平台也上线了首个Flux中文优化版■★★■★◆,可更好地理解和执行中文指令。
DW告诉记者,Flux的训练参数量也是相当巨大的,但相对应的就是它要运行的硬件门槛相较于SDXL等之前的文生图模型提升得也非常高,无论是训练还是推理,都需要极高的显存与算力■■◆,“所以从我的观点,对于开源社区来说★◆★◆★■,越高的参数量意味着这不再是个人玩家和创作者所能微调的量级”。
黑森林实验室方面晒出图表称◆★★◆■,其 Pro 和 Dev 模型是迄今为止最好的图像生成器,而其相对较弱的 Schnell 版本(即记者测试版本)虽然未超越 SD3-Ultra 和 Ideogram,但也超越了 Midjourney v6.0 和 DALL·E 3(HD)。黑森林实验室称,Flux◆★■★.1 (schnell) 是迄今为止最先进的少步模型★◆■,不仅在其类别中表现出色,还超越了强大的非蒸馏模型。
据了解◆■★◆◆,Flux Schnell是专精运行速度的蒸馏版本◆◆,模型平台还给出了每次生成消耗的具体算力价格:1美元可以生成333张上述记者测试生成的图片■◆,显然其不只在性能上,在成本上也有相当的优势◆★■★。
8月13日◆■,新京报贝壳财经记者使用Flux Schnell版本进行了实测,输入“脖子上佩戴新京报工牌◆★★■★◆,手举话筒在奥运会现场采访的女记者(英文)”后,Flux Schnell用时几秒钟就生成了图片◆★★◆。可以发现,不仅女记者、手持话筒等均被正确理解且质量接近实景,其还正确生成出了工牌上的新京报英文◆★★★◆“The Beijing News◆★★◆”。
黑森林实验室称,Flux.1 模型采用了其称之为“多模态和平行扩散 Transformer块的混合架构”,使得其比之前的扩散模型更进一步,融合了流匹配和其他优化技术。
黑森林实验室在社交平台表示,■★◆★◆“我们深深植根于生成式 AI 研究社区,致力于开发和推进用于图像和视频等媒体的最先进的生成式深度学习模型■◆◆■■◆。■★”
该公司表示★■◆★◆★,其使命是为媒体开发和推进最先进的生成式深度学习模型◆■◆,并推动创造力◆■◆、效率和多样性的边界◆■◆■。为了实现这一目标的第一步,他们发布了 Flux.1文本生成图像模型套件,其在图像细节、提示响应、风格多样性和场景复杂性方面定义了文本生成图像的新前沿★■★◆。
目前,由于Flux Pro依然闭源,记者还无法测试■★◆■★◆,但显然其性能会比Flux Schnell更加优秀,因此有不少外国AI圈内人士惊呼,Flux系列大模型将成为文生图视频的“新王”◆★■◆■■,且开源还令其比Midjourney更易于使用。
■■■“Flux和SD都是一样的diffusion扩散模型,但不同的是Flux基于Dit架构的模型■■◆◆,整体效果优于传统Unet架构的模型(SDXL,SD1.5等),尤其是在对提示词的语义理解上会有很大的提升,但对运行的硬件门槛要求也比较高。”8月13日★◆★■,拥有自己文生图模型的AIGC创作者DynamicWang(下称DW)在接受新京报贝壳财经记者采访时表示■★■◆。
微卷长发披肩,面带露齿微笑,可以清晰看到眼角的褶皱、嘴边的酒窝以及细微的碎发★■★◆■★,再加上颇有现场感的谷歌挂牌和舞台光◆◆◆,任谁看,这都是一位精英女性正在台前演讲的图片★◆◆■◆★,摄影师选择的角度不错,抓住了她演讲中的精彩瞬间。
不过,相比真实的照片,Flux Schnell生成图片的效果依然存在不少破绽,如记者进行的12次生成中有2次图片出现了人物的手指数量错误◆■◆■★★,记者试图让其生成中文时,其生成的图片出现了乱码,显然其无法理解中文。