DiffusionGPT 这个玩法是不是有点太复杂了?

DiffusionGPT 这个玩法是不是有点太复杂了?

首页休闲益智难以捉摸更新时间:2024-05-11

看了字节跳动和中山大学研究团队的论文《DiffusionGPT : LLM-Driven Text-to-Image Generation System

论文地址:https://arxiv.org/abs/2401.10061

添加图片注释,不超过 140 字(可选)

论文内容总结

研究背景: 随着Stable Diffusion模型在图像生成领域的快速发展,不同类型的文本提示输入对现有模型提出了挑战。当前系统难以有效处理多种提示类型,而统一的尝试常局限于输入解析和模型输出两个正交方面。

过去的方案及其问题: 过去的方法如SDXL在特定领域性能方面取得了进步,但实现终极性能仍难以捉摸。其他方法如提示工程和固定提示模板改善了输入提示的质量,但未提供全面解决方案。

添加图片注释,不超过 140 字(可选)

本文方案及具体步骤: 本文提出了DiffusionGPT,利用大语言模型(LLM)提供统一生成系统,无缝集成卓越的生成模型和有效解析各种提示。

添加图片注释,不超过 140 字(可选)

DiffusionGPT的流程包括:

下图是一个例子:

添加图片注释,不超过 140 字(可选)

本文在哪些任务中取得效果: 通过实验和比较,DiffusionGPT证明了在语义一致性、美学质量、用户偏好等方面优于传统Stable Diffusion模型。

添加图片注释,不超过 140 字(可选)

添加图片注释,不超过 140 字(可选)

我的一些想法:

看了DiffusionGPT的论文和代码,感觉是一个典型的LLM Agent应用,做的其实蛮精巧的。所有的逻辑都由LLM来解决,包括查找合适的生图模型。我一开始以为是用的文本匹配,结果发现代码是这样的:

prompt1 = f"Please judge whether each name in this list {model_names_of_tree} has highly similar name in the list {topk_model_list}, if yes, output the similar model name, the output MUST be Template: Model: [model name, ...]" intersection_model = self.llm(prompt1)

然后感觉就是实用性不大,如果真的用它来生成图片的话,估计用户得急死。不过很多LLM Agent应用也都有这个毛病,估计未来这方面会有些优化。

查看全文
大家还看了
也许喜欢
更多游戏

Copyright © 2024 妖气游戏网 www.17u1u.com All Rights Reserved