作者:漩凝
引言:调皮的箱子
在上一篇专题文章《》中,我尝试用类比的方式探讨了对游戏设计进行理论化研究的可能性问题。在本文中我将用另一个科学方法论作为核心思想,继续尝试讨论游戏设计与理论化研究的方法论。这个方法论就是我们今天的主角:黑箱方法。
第一天,神说,要有箱:一天,一个黑咕隆咚的玩意从天上掉下来,引来了很多吃瓜群众围观。
仅可见的黑箱
很多人一看到这个黑漆漆的箱子就有想要把它摔碎的冲动,有人还撸起了袖子,奈何,作为今天文章的主角,这个箱子拥有以下设定:坚不可摧,不可打开。
吃瓜群众接着对这个箱子进行任何神奇的操作(用液压机碾压或者原子弹爆破),可是这个鬼东西一点反应都没有。我们不知道到底是炸弹威力不够大还是箱子太黑了所以看不出什么变化。
这时候,读者可能会问了,那要这破玩意有啥用?
事实上,这是一个只可能存在于思维实验中的存在,它不可被感知,不可进行交互,不会产生反馈,是一个完全独立且封闭的系统。
众人折腾了一会儿之后,有人从箱子边缘拽出来两个东西:
可进行输入输出的黑箱
如图所示,这里有一个无法打开的箱子(非常黑),我们能做的只是按红色或者绿色的按钮(输入)来控制黑箱,并且通过灯泡的亮暗来观察输出结果(输出)。
看到按钮,在人类好奇本能的驱使下,(假设)所有读者都毫不犹豫地一掌拍在了绿色按钮上,结果1s之后下面的灯泡就闪烁了一下。
这时候大家就开心了,哦,原来这个破箱子是处理按钮信号,控制灯泡的啊。
于是在围观的吃瓜群众一拥而上,纷纷起了兴趣。有按红按钮的,有按绿按钮的,有的人只按一下,有的人连按十下。更有甚者,以“动次打次”的节奏分别按两个按钮。而这两个灯泡呢,就忽亮忽灭,最后甚至还亮出了节奏感,闪出了彩色光芒,一时之间好不热闹。
人们围着这个黑箱子吃着火锅唱着歌,一晚上过去了,吃瓜群众各回各家各找各妈,我们的故事也暂时告一段落了。
这时候,有个吃瓜的聪明小朋友躺在床上就开始反思发生的一切了:
吃瓜,侵删
潜在的认识论
其实,这里面包含了人类认识世界的一个底层过程:
在本能的驱使下,人们尝试对黑箱进行输入(破坏、称重、摇晃箱子等等),然后观察黑箱,期待着黑箱能够输出一个反馈。当人们发现无论如何都无法影响黑箱本体时,他们通过控制按钮可以间接达成对灯泡的控制,这个过程就是在按钮和灯泡之间建立了一个耦合关系。当人们可以自如地控制灯泡了,至于黑箱能不能打开,就不是一个非常重要的问题了。
人们在对黑箱进行输入并期待结果的过程中,产生了并不被意识到的第一个默认前提,即:我对黑箱进行互动(输入),就一定会在哪里产生一些结果(输出)。因此人们本能地就会认为:①事物之间是存在普遍关联的,并且能够互相施加影响。当人们以一定的规律尝试按按钮并观察灯泡的时候,则产生了第二个默认前提:②事物之间的联系是存在规律的。也就是说,即使是一个完全不能打开的黑箱,我们也会尝试去与之交互(比如说很多人会拍一拍变成了雪花屏幕的老电视,心里期待电视信号恢复正常),获得对这个未知事物的控制能力。
好,到了这里就开始进入主题。我们把黑箱视作对一切未知事物的抽象类比来考虑问题:
黑箱就是一种不同事物之间相互关联并相互作用的耦合方式。
无论吃瓜群众能不能打开黑箱,他们都会尝试对黑箱进行交互(提供输入),并且观察黑箱的变化(产生输出),就像无论你一巴掌拍下去电视会不会变成正常播放电视剧,你都还是会选择先拍一巴掌试试。
并且,在这个过程中我们都默认了上文提到了两种前提的存在,并且本能地认为这两个前提的绝对合理性。否则我们会走向另一个极端:会否认事物之间的关联,投入不可知论的怀抱(这就像一个黑箱永远不提供按钮和灯泡(甚至不能被看到或者触碰到,因为只要能够观察,就一定会产生可观察变量),人们只会在摆弄它几下之后悻悻而归,然后弃之不顾了)。
在上面的例子里还有一个重要的地方,那就是人们在按下按钮的时候,产生了一个对灯泡的影响的预期,而这个预期就是被称为理论的主体模型。综合下来,这个抽象结构是这样的:
摘自:控制论与科学方法论
人们对一个未知的事物进行某种理论预测,并产生一个预期的理论结果,当人对客体黑箱进行实践的时候,用这个理论结果与时间结果进行比较,而比较产生的目标差距则作为对主体模型的修正依据。当这个过程循环若干次之后,人们对于客体黑箱的理解就会逐渐加深,理论模型也被建立了起来。在上面的例子里,按按钮的人就会越来越清楚自己按下按钮将会使灯以什么样的规律变化,即使不能完全弄清楚黑箱内部的电路组成,也会弄懂一些最基本的规律了。
在上面的例子中,我们可以假设按红色按钮是关闭所有亮着的灯,绿色是开启所有关着的灯,将这个作为版本V0.1的粗糙主体模型。所以我们的理论预测是,按下绿色按钮,那么两盏灯就会呈现都发光的客体结果。然而当我们按下绿色按钮时,只亮起了一盏灯。那么我们就有充分的理由去否定V0.1的模型,找到另一个改进的模型(V0.2),这一步实际就是上图中的:利用实践结果和理论结果的目标差来修改理论模型。而新的V0.2理论模型则至少可以解释“按下绿色按钮,仅一盏灯亮”这个客观的实践结果。
游戏设计实践中的应用
聪明的小朋友已经想到了,退一万步讲,游戏设计对玩家游戏体验的塑造的影响过程是至少可以被看做是一个黑箱的。在最极端的情况下,可以假设我们在游戏系统中设计的某个机制的效果是一无所知的,然后通过游戏测试来产出一个体现设计好坏的结果,这样就能依据这个结果对设计进行重新修正,并且逐渐找到设计和最终体验之间的理论联系。
黑箱方法的第一步是建立理论假设,我们现在选取一个实例来作为研究对象,这里以技巧/挑战为核心玩法的游戏PVP中最常见到的匹配机制设计来举例。
众所周知,市面上的大多数游戏的匹配机制系统都是依据ELO( 埃洛等级分系统)来衡量玩家实力,然后进行匹配的。以下摘自维基百科:
Elo等级分制度(英语:Elo rating system)是指由匈牙利裔美国物理学家Arpad Elo创建的一个衡量各类对弈活动水平的评价方法,是当今对弈水平评估公认的权威标准,且被广泛用于国际象棋、围棋、足球、篮球等运动。网络游戏的竞技对战系统也采用此分级制度。ELO等级分制度是基于统计学的一个评估棋手水平的方法。美国国际象棋协会在1960年首先使用这种计分方法。由于它比先前的方法更公平客观,这种方法很快流行开来。1970年国际棋联正式开始使用等级分制度。
来源:互联网
在任何类型的游戏中,评价玩家水平都不是一件容易的事,因为不同种类的游戏拥有完全不同的指标来反映玩家水平。比如在LOL/DOTA类游戏中,玩家在对局时的补兵数量、GANK成功率、参团率、总团队输出占比、KDA等等参数分别从不同的维度衡量了一个玩家在对局中的表现。这些参数与玩家实力都有一定的相关性,但是并不能用来直接反映玩家的水平。这里会遇到几个问题:
①玩家的水平可能会在短期内呈现波动性,单局内的参数会被这种波动性严重干扰。比如,我们在对局时产生失误是很常见的事儿,但是失误对比赛结果产生的影响是难以测算的。
②这一系列的参数种类太多,他们类别不一、口径不一致,无法直接作对比,且每个指标反映的侧重点不同,选取某一个指标度量会导致结果单一化。
我们再来看ELO在最初设计衡量国际围棋棋手水平的算法时的思路。他首先做出了几个假设:①参赛棋手的水平符合正态分布;②棋手的对局结果只用胜/负/平三种状态作为指标来衡量,胜者比负者拥有更高竞技水平;③如果选定一个值(实力值)来衡量选手实力,这个值高的选手与值低的选手对局会有更高胜率而不是必定获胜。如果比赛获胜,则选手的实力分应该上升,反之则下降;④选手的水平存在短期波动,但是从长期来看则不会产生大幅波动。
来源:GDC:Elo Rating System
接下来,他用一些方法构建了实力值、胜率预测、赛后实力值变化:
我们能观察到,在这个模型下,当对战双方实力值差距大于600时,胜负的结果几乎是确定的
ELO算法本身就是一个利用黑箱方法产生的算法,因为这个算法把比赛的具体内容作为了一个黑箱,它承认了通过对局内的信息来分析棋手水平这件事是无法做到的。因此,这个算法把具体的对局看成一个黑箱,而可控制变量则是不同水平的参赛选手,而唯一产生的可观察变量则只有胜/负/平的三种比赛结果。
既然已经有了这个计算模型,我们在这里把这个模型当做理论模型来加以验证,以此确定模型的可靠性。接下来,我会给出例子来解释黑箱模型的应用。
举个小栗子
与此类似的,在游戏性设计中,我们也仍然可以利用黑箱方法对自己的设计理论进行修正和改善。
现在尝试把这个模型用在类LOL/DOTA游戏中,把是否启用ELO算法本身作为可控制变量,然后开始设计实验,并对结果进行预测。然后,我们可以通过对比结果和预测值的差别来评价理论模型。
模型的相关描述:
模型目的:提升玩家对局体验。
可控制变量:是否启用ELO算法。这一项可以看做是一个单变量布尔值(class:0表示不使用,1表示使用)。使用ELO算法时,玩家游玩时依据段位分的相近原则匹配在一起,保持对战的两个阵营整体段位分相近。
可观察变量:玩家对对局体验的评分、玩家胜率分布。
实验结果预测:玩家的对局体验评分显著上升,玩家胜率分布集中在50%附近(考虑到样本容量,定为下四分位数胜率值>38%,上四分位数胜率值<62%,中位数为50%(允许偏差±5%)。玩家胜率的方差下降。
主体模型与客体黑箱比较方法:以使用ELO算法的玩家数据作为实验组,不使用的作为对照组。对比对照组和实验组的玩家数据,看玩家体验指标是否有显著提升。
可判定条件:对比实验组和对照组的可观察变量是否在统计意义上有所改变。
实验设计:随机把找来的玩家分成等数量的两组,组0代表对照组,组1代表实验组。分别对比组0与组1对游戏对局的打分(10分制)和胜率。剔除对局数小于10的数据,仍然保证两组数据数量相等(最后为每组19个,数量太少,作为示例演示一下)。
下图是对玩家评分的统计,可以看出对照组平均值低于实验组,接下来看我们这个判断是否显著。
对使用模型前后(class=0/1)的简单统计
使用独立样本检验,可以看到双尾显著性<<0.05,表示实验组在对游戏评分的表现确实显著高于对照组:
进行独立样本检验
对玩家胜率分布的统计,可以看出实验组的标准差对比独照组下降了55.47%:
描述统计
从胜率分布的箱型图看,实验组的数值极差变小,四分位点的分布也满足了实验结果预测:
玩家胜率分布对照箱型图
至此,我们可以得出结论:通过使用ELO算法,的确显著提升了玩家的对局体验,并且满足了使玩家胜率的分布相对集中于50%附近的预期。
理论模型修正和改进
完美的理论模型几乎是不存在的。从根本上说,想要100%精确地描述设计师的设计预期都是不太可能的。任何模型都有适用环境的限制。众所周知,牛顿力学创造了光辉的成就,是一座物理学发展历程上的丰碑,但是它也只能在宏观低速世界问题上才会适用。
虽然完美的模型不存在,但是我们仍然可以对模型进行不断的修改,使其趋近完美。接下来继续考虑一下ELO算法和匹配规则,尝试下还能不能提升一下玩家体验。
比如说,现在证明描述对局表现最贴切的分布是逻辑斯谛分布,而非正态分布。当我们使用新的分布函数计算P(D)时,就理应能产生更优化的结果(这个倒是没有做过验证,有经验的同学欢迎交流)。
在这个例子中,我们确认了使用ELO算法后对玩家体验的提升,进一步地,我们可以把可控制变量变为对K值的分布进行设定(典型的做法是让低段位的K值高,高段位的K值低,这样的做法是为了满足两个设计预期:①让更多玩家可以迅速从低段位爬升至中间段位。②使低段位玩家的段位波动较大,让他们觉得冲击更高段位是可能的,形成激励。③高分段玩家更需要较低的K值(也就是更低的分数波动)来缓和短期内的对局表现波动,高分段玩家上分很难,他们需要更高的稳定性来维持成就感)。由于这次我们想要达到的设计目标、可控制变量都改变了,所以可观察变量也需要相应调整。
我们还能从其他的角度继续来优化这个理论模型。ELO算法是为国际象棋设计的,国际象棋是一个1V1的游戏,它在DOTA-LIKE游戏的5V5模式中的适用性必定会有所下降。因为普遍的做法都是粗暴地用单人排位分和团队实力做一个简单的加和平均计算,所以这一步必定会增大团队实力衡量的误差。所以我们需要找到一个模型能客观地考量个人实力与团队综合实力的关系,从而使玩家的综合胜率分布更接近50%。而这个模型的思路则很可能会从团队阵容的层面:英雄联动性、玩家英雄熟练度等角度切入,具体模型的设计则等待进一步尝试了。
如果再考虑到有“代练上分”这种不被官方鼓励的操作存在,那么我们可以为实力分的计算引入一种保护机制。大致思路如下:
①当玩家在一段时间内的集中游玩短期胜率显著高于先前的胜率时,考虑启用保护机制。
②当玩家登陆的IP地址并非常用地址时,考虑启用保护机制。
③保护机制启用时,玩家在参与匹配时使用的实力分将会加入一个“隐藏分”,这个隐藏分并不会实际被增加到实力分中,但是会增加玩家匹配到的对手强度。玩家如果持续保持高胜率,隐藏分会以增速上升的形式迅速累加。
当这个基础的模型逻辑成立后,我们才考虑为其添加细节。首次对这个理论模型进行实践时,可以直接把可控制变量定为是否使用此模型,与没有使用的情况进行对照。而我们关心的可观察变量,则可以从玩家贴吧、第三方游戏交易市场等平台收集成交量、相关话题热度等数据,来评价模型对“代练上分”的限制效果。
运营分析的应用
再比如说,国游的设计中偏偏是最讲究数据分析这个过程的,尽管这个方法并没有被应用到游戏性设计,而是把数据分析的技能点全部都点到了商业化设计上。于是,这才出现大家整天挂在嘴边的DAU(Daily Active Users)/MAU(Monthly Active Users)/CPI(Cost per intall)等等来衡量项目表现的指标。
关于在游戏设计的天赋树上点偏的事儿咱们暂且按下不表。从商业的角度来说,在对于一个商业项目的的绩效进行衡量时,这些指标的确客观地反映了用户粘性、产品热度和营收预期。也就是说,这些可观察的变量确实反映了一个产品所需要达到的商业目的。如果任何运营活动的设计都围绕着这些指标来进行设计,那么最终确实也更容易达到产品所期望的商业目的。
但是,从另外一个角度讲,只是纯粹地强调这些商业性的KPI,会导致游戏的玩法设计方面的盲目和短视。公司的目的是营收,所有游戏公司都会把营收作为月度指标作为游戏运营的绩效指标。这样导致的问题就是:游戏运营为了完成指标往往会增强玩家的付费引导或者提出更多的运营活动。在短期内,这些设计的确大幅提高了项目营收,但是从长期看,对于想要以正常节奏体验游戏或者是倾向于游戏性体验的玩家来说,这种高强度的付费刺激必将导致这部分玩家的游戏体验下降,用户粘性降低。
也许有同学会说,那是因为他们选定的KPI评判机制有问题,如果是每3个月评价一次营收,不就可以消除短期的营收震荡从而看到更全面的数据了吗?话虽如此,由于商业活动本身的特性就决定了需要风险规避和即时反馈,这样的评判机制在许多项目中并不一定能奏效(尤其是现在手游项目的生命周期普遍是6~12个月左右的情况下)。况且,我始终认为,能够驱动玩家投入时间和金钱的根本因素仍然是游戏性。单方面忽略对游戏性的提升而只关注商业指标未免有所偏废。
心流理论的问题
现在,我们从黑箱方法的角度来提一下现在所有游戏行业的人都喜欢讲的“心流理论(Flow theory)”的问题。
来源:互联网、侵删
这个理论是我一度认为是极其正确并且无法反驳的理论,但是隐隐觉得哪里有点儿问题。但是我们如果结合黑箱方法就能很轻松地看出这个理论问题出在哪儿。
???
前面讲到我们认识世界无法脱离两种变量:可控制变量和可观察变量。但是我们可以看见,在心流理论中所描述到的“难度”、“焦躁程度”、“无聊程度”,都只是一种定性描述,而不是量化指标。它笼统地概括了我们在游戏设计时对机制、数值等的控制过程和获取测试反馈的过程,导致我们拿到一个非常正确的理论,但是并不能加以运用。因为我们并不知道如何去控制游戏达到“合理难度”,我们甚至不知道什么指标才能够客观衡量“难度”和“玩家技巧”,也不知道“焦虑”和“无聊”是以什么变量作为表征的。
这就像我们玩一个生存类的游戏,目标是为了存活不被饿死,但是我们既不能控制角色吃多少个馒头,也不知道角色什么时候饿或者饱——我敢保证,任何人玩到这样的游戏都会想要骂人。
尽管这个例子非常粗暴,但是它足够鲜明地指出了一个问题:任何理论如果没能具体解释可控制变量和可观察变量之间联系或者无法提取出可控制变量和可观察变量,那么这个理论对于现实世界的实践过程将没有任何的指导意义。
我们其实可以用一句话概括心流理论:玩家需要合适的难度来体验游戏,高了焦虑低了无聊。因此,心流理论实际上就是一个令你无法反驳,绝对正确但实践意义微乎其微的理论。当我们遇到一个无法证明也不可能被证伪的理论的时候,我们就得小心了——因为它在最好的情况下是一句用处不大但正确的废话,在不那么好的情况下则是忽悠人的话术,令人以为自己掌握了“真理”。
从认识论的角度讲,“心流理论”和前几年知乎er大加挞伐的“鸡汤文”有异曲同工之妙。
喝下这碗毒鸡汤,保你长寿又健康 (来源:互联网,侵删)
它们的共同特点是:既没有指出控制手段(可控制变量:就是相当于喝鸡汤不给勺),也没有指出衡量指标(可观察变量:评价幸福度的指标),所以它们能提供的“价值”就只是让你看了之后获得些许暂时的愉悦而已。
如果我们确实想要这个“心流理论”能够变得可以验证且可使用。那么设计师们需要建立游戏动态难度调整(DDA)的理论模型,并且去尝试使用数据统计等方式衡量玩家在游戏中表现出的技巧水平,再将玩家技巧评价映射到怪物强度、刷怪频率等等可控制变量上去。然后,在若干次试验获得大批样本后,设计师再对使用动态难度调整前后的可观察变量进行对比验证,量化对玩家游戏体验提升的效果(对游戏设计来说是个很值得尝试的方向)。
局限性
正如前文所说,完美的模型是不存在的,所以我们仍然需要认识到黑箱方法的局限性。
由于黑箱方法最初会假设我们对一个事物是完全毫不知情的,而是依赖多次的输入和对输出的观察来逐步建立理论,这个过程需要涉及到非常多次的理论迭代和非常频繁的输入输出,这在游戏设计过程中是非常消耗人力成本的事情。
另外,黑箱理论本身并不会从黑箱内部(就是涉及到事物运行规律的角度)给出机理模型,而只是提供了对理论模型(主体模型)的纠偏方式。黑箱方法并没有强调打开黑箱直接进行观察验证的方法,相比打开黑箱(也就是找出机理模型的过程),黑箱方法则要繁琐地多,这样的思路本身是低效的,却也是必须的。因为即使我们已经掌握了一个较为靠谱的理论模型,也需要在大量可控制变量和可观察变量的验证中得出理论最终可以用于实践的佐证。只不过,如果理论模型可靠,那么进行模型验证和纠偏的效率将会大幅提高。
再者,由于游戏设计本身要达到的目标就是塑造良好的游戏体验,而有关于体验的一切的底层指标都涉及到神经心理学的范畴,而这个学科也仅仅是处于较为初级的阶段,并不能直接为游戏设计提供直接的指导(涉猎太浅,有待大家共同研究)。
模型成立的条件
笔者现在已经通过一个例子大致介绍了黑箱方法模型,也指出了此方法的局限性。然而,我们还需要注意的是,想要黑箱方法真正靠谱,还得遵循以下这些条件:
1.可观察变量和可控制变量的限制
2.模型逼近客观真理的速度
3.可判定条件不成立
结语
在本文开头我曾提到过,即使大家在不知道黑箱方法的情况下,仍然会下意识地使用黑箱方法。那有小朋友就会问了:“那为啥还需要了解这个方法?”那是因为,有意识地应用理论会增大理论产生的实践效果。可控制变量代表了设计师对一个设计的控制能力,可观察变量代表了设计师对设计效果的认知能力。设计师如果在设计过程中不断地主动使用黑箱方法,就能可控地、可观察地提升我们的设计水平。
最后,我认为黑箱方法作为一种认识论模型,精准无误地诠释了“承认无知亦是有知”的智慧。
来源:互联网,侵删
道阻且长,与君共勉~
专栏地址:
https://zhuanlan.zhihu.com/p/142072661
关联阅读:
Copyright © 2024 妖气游戏网 www.17u1u.com All Rights Reserved