DiffusionGPT 这个玩法是不是有点太复杂了？

妖气游戏网

DiffusionGPT 这个玩法是不是有点太复杂了？

首页休闲益智难以捉摸更新时间：2024-05-11

看了字节跳动和中山大学研究团队的论文《DiffusionGPT : LLM-Driven Text-to-Image Generation System 》

论文地址：https://arxiv.org/abs/2401.10061

添加图片注释，不超过 140 字（可选）

论文内容总结

研究背景：随着Stable Diffusion模型在图像生成领域的快速发展，不同类型的文本提示输入对现有模型提出了挑战。当前系统难以有效处理多种提示类型，而统一的尝试常局限于输入解析和模型输出两个正交方面。

过去的方案及其问题：过去的方法如SDXL在特定领域性能方面取得了进步，但实现终极性能仍难以捉摸。其他方法如提示工程和固定提示模板改善了输入提示的质量，但未提供全面解决方案。

添加图片注释，不超过 140 字（可选）

本文方案及具体步骤：本文提出了DiffusionGPT，利用大语言模型(LLM)提供统一生成系统，无缝集成卓越的生成模型和有效解析各种提示。

添加图片注释，不超过 140 字（可选）

DiffusionGPT的流程包括：

Prompt Parse：LLM分析提取输入提示的核心文本信息。
Tree-of-Thought：构建基于先验知识的模型树，通过搜索缩小候选模型集。
Model Selection：利用人类反馈的优势数据库，选择最适合的模型。
Execution Generation：选择模型生成图像，同时Prompt Extension Agent增强提示质量。

下图是一个例子：

添加图片注释，不超过 140 字（可选）

本文在哪些任务中取得效果：通过实验和比较，DiffusionGPT证明了在语义一致性、美学质量、用户偏好等方面优于传统Stable Diffusion模型。

添加图片注释，不超过 140 字（可选）

添加图片注释，不超过 140 字（可选）

我的一些想法：

看了DiffusionGPT的论文和代码，感觉是一个典型的LLM Agent应用，做的其实蛮精巧的。所有的逻辑都由LLM来解决，包括查找合适的生图模型。我一开始以为是用的文本匹配，结果发现代码是这样的：

prompt1 = f"Please judge whether each name in this list {model_names_of_tree} has highly similar name in the list {topk_model_list}, if yes, output the similar model name, the output MUST be Template: Model: [model name, ...]" intersection_model = self.llm(prompt1)

然后感觉就是实用性不大，如果真的用它来生成图片的话，估计用户得急死。不过很多LLM Agent应用也都有这个毛病，估计未来这方面会有些优化。

,

大家还看了

也许喜欢

更多游戏

Copyright © 2024 妖气游戏网 www.17u1u.com All Rights Reserved