如何用Dalle·E 3做角色设计?Dalle·E 3角色一致性风格处理完整教程

如何用Dalle·E 3做角色设计?Dalle·E 3角色一致性风格处理完整教程

首页动作格斗最终幻想3像素重制版更新时间:2024-06-14

自从Stable diffusion和Midjourney的出现后,AI在绘画领域掀起了滔天巨浪,将绘画的门槛一下降低到了小白都能参与的级别,那么Dalle·E 3的出现更加加剧了这一赛道的内卷程度,只通过几个提示词就能得到一张精美的图片,但是在这个领域能够参与跟将AI变为实际的生产力还是有很大区别的。

比如如何生成风格一致性的图片呢?在实际的生产中都是需要批量生成一致的图片,而不是随便生成几张图片。作者今天就给大家分享一下:如何使用DALL-E 3生成角色类照片,同时保持风格的一致。

Dalle·E 3的参数

我们进入这个GPT-4,然后选择Dalle·E 3模型。今天的所有的操作都是基于Dalle·E 3。我们现在先来问一下这个Dalle·E 3都支持哪些参数?我们可以直接输入这个问题,Dalle·E 3可以使用哪些参数来提高图片质量和对图片的控制?Dalle·E 3是这么回答的:

DALLE-3 提供了以下参数,以提高图像质量和对图像的控制:

1.size:这是要生成的图像的分辨率。它可以是宽(例如 1792x1024)、正方形(例如 1024x1024)或高(例如 1024x792),你可以根据需要选择合适的尺寸。

2.prompts:这是用于生成图像的文本描述。通过提供详细、具体和富有创意的描述,你可以更好地控制生成的图像的内容和外观。

3.seeds:这是用于生成图像的随机种子。每个种子都会产生一个独特的图像版本。如果你希望修改之前生成的图像,可以使用该图像的种子再次生成。

为了获得最佳效果,请确保提供的描述是详细、具体且没有歧义的。这有助于 DALLE-3 更准确地理解你的意图并生成满足你期望的图像。

可以看到Dalle·E 3支持三个参数。首先是尺寸size,然后第二个是prompts,也就是文本的描述。第三个是seeds值。其实Dalle·E 3还支持更多的参数,比如说这个weird参数,之前作者发过通过weird调整图片的文章,weird的参数越高,这个图片的质量就越奇怪,有点像Midjourney chaos这个参数参数。

神奇的seeds

接下来我们主要是探索seeds这个的参数。我们先让Dalle·E 3来随便生成一些图片,来比如:我们让Dalle·E 3来生成一个女孩。输入Prompt:画一个女孩。

我们可以看到Dalle·E 3根据提示词生成了四张女孩的图像,是四张不同风格的图片。每一张图像我们在右边可以看到这个图像的提示词,这四张图像的提示词都是不同的,那我们应该如何查看这四张图片的seeds值呢?直接问题它就好了:请显示这四张图片的seed值。

Dalle·E 3的回复是:

当然,可以,这是上方四张图片的seed值:

1.第一张图片的seed值:5000

2.第二张图片的seed值:5000

3.第三张图片的seed值:5000

4.第四张图片的seed值:5000

所有图片都使用了相同的seed值,即5000,如果您有其他问题或需求,请随时告诉我。

我们可以看到Dalle·E 3给我们回复是上方这四张图片的seed值都是5000。那我们来试一下这个seed值是否准确。我们就拿这个第二张图片来举例,我们复制一下这张图片的提示词。我们控制这个seed值是5000。我们来重新提交给Dalle·E,看一下Dalle·E是否可以画出相同的图片。我们可以看到由于我们规定了这个seed的值是5000,所以这次Dalle·E为我们画出的图片是和我们上方这张图片是一样的。

那我们就可以利用这个特点来在Dalle·E 3中进行角色的设计。比如说我们看到现在这个小女孩是低头看书的那我们现在想让这个小女孩看着镜头,我们就可以先把上面这段提示词来复制一下。这时候我们需要把对应的描述修改一下,我们给它修改成看着镜头,直接可以用中文,重新提交一下,看出图的效果。

图片生成后,我们看到虽然小女孩的衣服和背景都变了,但是基本上可以看出是同一个人。这个效果说实话其实是不太符合我们的要求的。

那我们来试着改变一下小女孩的表情来试一下。我们还是复制上面的这段提示词。这次在开头给它添加一个大笑的女孩的提示词,其他的保持这个就不变,重新提交给Dalle·E 3,看一下效果。

好像离目标越来越远了呢,我们看到这次Dalle·E 3给我们生成了四张完全不一样的图片,跟原图的风格完全不搭,显然这次尝试是错误的。

接下来我又将这个大笑的女孩的提示词放到了整个提示词的最后,可以看到这次生成的图片的女孩表情,那就符合了我们的要求。只是服装还是老毛病,做不到统一的控制。

作者为了解决这个服装和背景的一致性的问题,又写了一段提示词试了一下。这次我在提示词中说明注意控制服装和背景的一致性。这一次生成的图片和我们上面这张图片比较,只能说在一定程度上控制了这个图片的服装和背景,但是依然还差的很多。

从刚刚的这一套操作下来,相信大家应该学到两点:

  1. 首先就是我们在添加其他的要求的时候,需要在这个结尾处添加,这样Dalle·E 3的出图才更符合我们的要求。
  2. 第二就是即使我们控制seed的值,也让这个Dalle·E去控制一致性。但是如果这个图片中的元素过多,一致性的问题就依然不太好统一。
Dalle·E 3 角色设计

接下来,我们吸取上个案例的经验,把提示词来修改一下。我们在提示词中添加近景镜头和纯白背景。添加这个近景镜头是为了得到这个小女孩面部特写的图片,然后纯白背景也是为了尽可能的排除其他的元素。图片生成后,这一次我们看到生成的这四张图大Dalle·E就更注重面部的设计,其他的干扰项也相对比较少,这很符合我们的要求。

接下来作者用第四张图来继续的操作。本来第一张图也不错,只是这个面部的位置稍微有点跑偏。那我们来获取一下图片的seed值,这四张图片的seed的值也是5000。其实经过作者的测试,Dalle·E默认出图的seed的值好像就是5000。但是我们可以通过指定不同的seed值,在相同描述下得到不同的图片说明,这个seed值还是生效的。

我们来复制一下第四张图片的描述,然后输入一下这个描述seed值,指定是5000,把这张图来单独的画一下。

那到这里我们和刚才的步骤都一样,我们通过控制seed的值,把上方的第四张图片单独的拎了出来。

接下来我们来试着改变一下这张图片的表情,我们来试着把这个图片的提示词修改一下。这一次我们在这个提示词的后面输入一个大笑的表情。我们看到Dalle·E这次生成的图片,除了小女孩的表情变了,其他的元素,比如:这个小女孩的样貌和发型基本上都和源图片保持一致。有了这个基础,我们就可以很方便的去生成不同表情的相同人物的小女孩的图片。比如说我在最后换成这个悲伤的表情,其他的提示词保持不变,就生成了一张悲伤表情的小女孩的图片。

这里有一个问题,就是经过作者的测试下来,不是说所有的表情的提示词替换以后,都能达到比较统一的效果。比如作者这里换成生气的表情,我们可以看到这一次的出图,虽然图像是同一个小女孩,但是这个画风发生了明显的变化,说明这个表情对这个画风也是有一定影响。

所以大家也可以多测试一下不同的表情,尽可能得到相同的结果。然后关于这个表情的问题,作者尝试了另一个解决的方法,大家也可以去试一下。我们可以在这个提示词的最后写一句,给出这张图片的不同的表情,也可以获取到一些不同表情的图片。但是我们依然可以看到,还是有一些表情的画风跟我们之前的图片有所不同。同时利用这个方法,我们也可以把最后的提示词改成给出图片不同的拍摄角度,以得到不同角度的面部的图片。

接下来我们再用这个方法来试一下。根据我们刚刚的经验,我们知道用不同的表情可能对这个画风也有影响。我们这次在做这个角色设计的时候,就把这个要求给的具体一些。我们的要求是这个写实风格的色设计,一个长相夸张的外星人,大大的獠牙,绿色的皮肤类似半兽人,然后还是要这个纯白色的背景和近景镜头。

我们看到Dalle·E给出了我们四张图片,然后我还是拿第一张图片来做演示。我们在得到第一张图片的seed值后,我们还是复制第一张图片的描述和seed的值,然后让这个Dalle·E画出四张不同角度的图片,注意保持这个角色的一致性。我们就得到了新的四张图片,可以看到这个侧脸明显是不应该有这个胡子的。严格来说,只有最后这张图片基本上符合我们的要求。但是也画的有点瘦了。

那我这边又试了一下不控制seed的值的结果,我们把这个seed值取消掉,然后保持其他的描述不变。可以看到第一张图片其实还行,就是这个耳朵的视频有一些不一样,然后二、三、四张图片这个耳朵的细节明显发生了改变。

接下来让Dalle·E给出四张不同表情的图片,然后还是注意保持角色的一致性。这次看来图一有一点发胖,但是这个234其实都还可以,就是这个耳朵上的配饰做不到统一。怎么说呢?这个相似度大概在80%,感觉这一套测试下来,用作者方法生成不同表情的相似度要高于生成不同角度的面部的相似度。

那么既然没有达到要求,作者又换了一套思路。这一次我们单独的将这张原图拎了出来,然后要求Dalle·E给这张图片一个唯一的编号。可以看到Dalle·E也是很随意,他直接给图片赋予了一个12345678的ID号,接下来我们就让Dalle·E画出这个图片,就是是12345678这个ID的四张不同视角的图片。可以看到在这一次的结果中图一和图四基本上是差不多的,就是有一些偏瘦。然后我们看图二和图三的侧脸图还是老毛病,就是一直有这个胡子。

我们接着让这个Dalle·E根据这个12345678的ID的图片给出四张不同表情的图片。这一次Dalle·E给到我们的结果,图2和图4都还可以,所以在某种程度上我们也可以用设置图片ID的方法去做角色设计,可以在一定程度上得到一些可用的结果。

最后作者也把自己觉得几张相似的图片整理了一下,但从细节上来看,还是能看出许多不一样的地方。比如说獠牙的角度,还有耳朵的形状和配饰。作者这里也会继续研究深挖,如果有更进一步提升一致性的方法,也会第一时间出文章更新。也欢迎各位朋友在评论区多多指教,大家一起讨论,集思广益,肯定要比作者一个人的效率高很多。

总结

我们演示了如何在Dalle·E中去进行角色设计。这个成品的相似度是不如Midjourney和Stable Diffusion角色设计。因为AI绘画的不稳定性,可能大家在实操的时候会遇到和我类似的问题。我们其实更重要的不是学到一个解决方案,而是有解决问题的思路和能力。在实际的应用中,作者也用这个视频的方法还做过其他的案例,有一些跑起来就很顺,有一些就会遇到视频中形象不统一的问题。

最后作者还有一点小建议,就是如果可以的话,我们在使用Dalle·E画图的时候,还是最好用英文的描述。因为Dalle·E在处理其他语言的时候,都会先翻译成英文再去画图,的那这个过程就可能会有信息的丢失,或者意思表达不完整,再或者这序不一致,也可能会影响到最终初步结果。

查看全文
大家还看了
也许喜欢
更多游戏

Copyright © 2024 妖气游戏网 www.17u1u.com All Rights Reserved