游戏论｜电子游戏中的声音和音乐（最后的克劳迪娅2023）

本文原载吉田宽《电子游戏研究》（デジタルゲーム研究），东京大学出版社，2023年。

本文是以旧文《游戏中的声音指的是什么——关于diegesis（故事世界）的概念》（“ゲームにとって音とはなにか―ダイエジーシス（物語世界）概念をめぐって”）为基础重新撰写的文章，这篇旧文收录于细川周平编著的《从声音和耳朵思考——历史、身体、技术》（“音と耳から考える―歴史・身体・テクノロジー”，Artes Publishing，2021年10月）一书。该著作是国际日本文化研究中心（通称日文研究会）的细川周平教授（当时以及现在的名誉教授）主办的共同研究会关于“音响与听觉文化史”（2017—2019年）的成果报告。该研究会汇集了40多位来自各个领域的专家学者，包括音乐学家、历史学家、民族学家、人类学家、社会学家、工程学家、音响学家以及艺术家。对我来说，这是一个可以让我得以在作为音乐学者的时代就有交情的老面孔面前再次确认自己现在致力于游戏研究的意义的宝贵机会。此外，长门洋平以基于电影的“故事世界的声音”为主题的论文也同时刊载在该书中。本文出于这方面的原因，也竭力探索与电影研究的连接点。

1、电子游戏中的声音和音乐

如今发售的电子游戏（视频游戏或电脑游戏）几乎无一例外都带有声音。这些声音作为“音乐”被创作和聆听，已经超越了单纯的音效效果。目前，“游戏音乐”已被公认为是一种音乐类型，不仅通过CD和定额制（订阅制）的音乐服务获得了大量受众，还作为音乐会的节目吸引了很多听众。

不过游戏音乐的历史其实并不短，已经持续了半个多世纪。让我们来简单回顾一下。1951年，英国计算机科学家克里斯托弗·S·斯特雷奇（Christopher Stratchey）在曼彻斯特大学为世界上第一个面向大众市场的通用数字计算机“Ferranti mark Ⅰ”（1951年2月开始启动）编写了一款叫作“Draughts”（一种棋盘游戏，也叫跳棋）的程序，其中添加了英国国歌《天佑吾王（God Save the King）》（作曲者不详）的旋律来作为游戏胜利时刻的象征（田中2017，17-18）。这便是最早被应用到电脑游戏上的音乐[1]。

1971年，Nutting Associates公司的工程师诺兰·布什内尔（Nolan Bushnell）（后来创立了雅达利公司）开发出了世界上第一款商用电子游戏（街机电子游戏）《电脑太空战》（Computer Space）。这款游戏配备了声音回路，能够发出由噪声和矩形波构成的效果音（田中2017，30-31）。

《电脑太空战》（Computer Space）

而象征着游戏音乐正式诞生的源头，则要追溯到第一款在电路板里采用微处理器（CPU芯片）——“Intel 8080”（英特尔，1974年）——的游戏《枪战》（Midway，AC，1975年）。在该游戏中，如果玩家出现失误情况，就会以单个矩形波的形式播放《葬礼进行曲》（Marche Funebre，肖邦作曲，1827年）的旋律。

此外，在第一款风靡全球的日本游戏《太空入侵者》（Space Invaders,taito、AC、1978年）中，作为效果音（入侵者移动时的声音）的音效同时也充当了背景音乐。细野晴臣还将这款游戏的音效收录到YMO的首张专辑《黄色魔术管弦乐团》（Yellow Magic Orchestra，1978年11月）中。游戏音乐由此与流行音乐史产生了联系。1984年4月，由细野制作的世界上第一张游戏音乐原声大碟《video game music》（阿尔法唱片）在日本发行。这张专辑收录了南梦宫的街机游戏《吃豆人》（Pac-Man ,1980）和《太空战机》（Xevious ,1983）的音乐，由细野当时所属的阿尔法唱片公司发行。

《吃豆人》

当然，如果仅仅止步于这种确认游戏声音从“音乐未满”上升为“音乐”的历史性回顾，那么无论对于游戏研究还是音乐研究这一主题来说都显然是一种不幸。因为有一点很重要，那就是我们必须意识到游戏声音不是通常意义上的“音乐”。游戏声音不只是“被聆听”的存在。玩家能够从中获得信息，并受这些信息内容的影响而采取行动。定义游戏，以及游戏与电影和动画最不同的基本指标，就在于游戏具有“互动性”，而这一点也从根本上决定了声音设计和听觉体验。有不听声音就玩不了的游戏，也有将发出声音作为玩法的一部分的游戏[2]。在今天的很多游戏中，声音已经超越了仅作为点缀以及背景的范畴，构成游戏玩法的本质。那么，对于游戏来说，声音和音乐具有什么样的意义和作用呢？这就是本文所要讨论的主要问题。后文将以“diegesis（故事世界）”这一概念为出发点对此进行深入探讨。

虽然游戏音乐已有超过半个世纪的历史，但对于游戏音乐以及与其有关的理论方面的研究历史却并不长。目前最早关于游戏音乐研究的文献是阿克塞尔·斯托克伯格（Axel Stockburger）于2003年发表的文章（Stockburger 2003）。不过，尽管在2000年左右游戏研究（Game Studies）就已正式确立为一门学科，但其中关于音乐的研究相对来说起步却较晚。如下文所述，虽然游戏研究（特别是在北美）是在电影研究的巨大影响下建立的，而电影研究在很长一段时间内是参照的文学研究。因此在这样的背景下，游戏研究便顺理成章地从借用电影研究和文学研究的相关理论和概念开始起步。而“diegesis”这个概念就是其中一个较为典型的例子。

2、作为“故事世界”的diegesis——在电影研究与文学研究里的展开

在H·伯特·阿波特（H. Porter Abbott）编的《剑桥叙事学导论》（The Cambridge Introduction to Narrative，2008年第二版）一书的术语表（名词解释）中“diegesis”被分为新旧两种含义（Abbott 2008，231）。最初的“diegesis”表示“叙事（the telling of a story）”，这个含义源自柏拉图的《理想国》第三卷，书中柏拉图对诗人的叙述方式进行了划分，将其分为“纯叙述”和“模仿”（Plato 1902,392c-395b=1976、194-201）。其中前者就是以“diegesis（διήγησις）”这个词表示，后者则以“mimesis（μίμησις）”表示。“mimesis”指“诗人假扮某个人物，模仿这个人物的语气说话”，而“diegesis”则指“诗人以自己的口吻说话”。此后，在20世纪“diegesis”又衍生出了一种新的含义，表示“故事世界，通过叙述构造的世界（the storyworld, the world created by the narration）”。在该书的其他部分中，“diegesis”被定义为“在叙述的世界中所发生的事件被想象为具现实性（reality）”，但“表示这层含义的diegesis近来已逐渐被叙事世界（narrative world）或故事世界（storyworld）等词所取代”（Abbott 2008,75）。关于“diegesis”（英）或“diégèse”（法），中文里面一般有“故事世界”/“叙事空间”/“叙境”三种译法，后文会根据语境选择性表述为“故事世界”（英）或“叙事空间”（法），其形容词形式“diegetic”（英）或“diégétique”（法）则译为“叙事（空间/性）”。

“diegesis”的第二重含义，即表示“故事世界”的这层含义是由法国美学家艾蒂安·苏里奥（Étienne Souriau）最先使用的[3]。苏里奥在其论文《电影世界的结构与电影学词汇表》（La structure de l'univers filmique et le vocabulaire de la filmologie，1951）中将“电影世界（l'Univers filmique）分为七种存在平面”。其中第五面被称为“diégèse”。它介于第四面“影片中播放的（以及银幕中的）现实（réalités filmophaniques[et écraniques]）”和第六面“观众所处的真实现实（les faits spectatoriels）”之间（Souriau 1951,234-240）。“diégèse”指的是“所有在电影中以及包括从电影内涵中引申出的以现实（réalités）再现的形式描绘的一切”，简而言之就是“虚构的现实性（une réalités de fiction）”（Souriau 1951,237）。苏里奥在《电影世界》（1953年）的序言中再次提到了这个词。在该书中，“Diégèse、Diégètique”被解释为“可理解范围内（dans l'intelligibilité）的被讲述故事（如吉贝尔·科昂-塞阿[Gilbert Cohen-Séat]所言）所包含的一切、一部虚构影片所假设或提供的世界内的一切”（Souriau 1953,7）。

此后，苏里奥对“diégèse”所作的定义被开创了“电影符号学”理论的克里斯蒂安·麦茨（Christian Metz）所继承并发展。麦茨在《电影语言——电影符号学导论》（Essais sur la signification au cinéma）（第一卷，1968年）中，将这一概念解释为“虚构的‘现实性’（une “réalités” qui est celle de la fiction），即对电影的感知使我们形成了投射-认同的心理过程，由此而产生的一种只属于我们自身的、主观上的现实性”（Metz 1968,19=2005,29）。此外，麦茨还以苏里奥的观点为基础，对这一概念作出了独特的符号学阐释。他在书中对“diégèse”进一步解释道：“他[苏里奥]所指的是电影的整个再现作用域……也就是电影的外延（denotation）整体（l'ensemble de la dénotation filmique）”（Metz 1968,100-101= 2005,177-178），麦茨在这个定义中将“diégèse”与“外延”这个概念联系到了一起，作出了独特的延伸。而根据这个定义，声音是否构成“diégèse”的一部分，取决于声音是否具有“外延性”。但是麦茨并没有阐明这一点。正如本·温特斯（Ben H. Winters）指出的那样，尽管“苏里奥和麦茨对diégèse概念所作的定义并没有排除音乐的存在”（Winters 2010,227），但他们却并不打算将这个概念与电影中的声音或音乐联系起来。

如上所述，“diégèse”概念便由此在20世纪法国电影理论中获得了新的阐释，此后，为话语研究建立系统性理论的热拉尔·热奈特（Gérard Genette）也将这一概念纳入到了他的叙事学理论中。热奈特在探讨叙事话语的“语态（voix）”——言语行为与主语之间的关系——时援引了“diégèse”概念，尤其是在针对“叙事层”（叙述行为与所述事件之间的关系）和“人称”（叙述者与所讲述故事之间的关系）的分析上，这个概念扮演着十分重要的角色[4]。

首先是“叙事层”。热奈特认为根据叙事诗和小说中叙述的事件与叙述行为的关系，它可分为“外叙事层（extradiégétique）”、“内叙事层（intradiégétique）”、“元叙事层（métadiégétique）”（Genette 1972，238-241= 1985、266 - 270）。简单来说，这三个叙事层分别可以理解为与旁白所处的故事层、叙述者与作品中的人物处于同一层级的故事层、作品中的人物在作品内讲述的故事的故事层相对应。其次是“人称”。热奈特基于“所有叙事在定义上，都是潜在的第一人称”这一独特观点，摒弃了以往所采用的“第一人称”、“第三人称”这样的划分，并且根据叙述者是否为故事中的人物提出了“同质叙事（homodiégétique）”和“异质叙事（hérérodiégétique）”的区分，叙述者在自己讲述的故事中作为人物登场的称为“同质叙事（homodiégétique）”，不登场的称为“异质叙事（hérérodiégétique）”（Genette 1972,251-259=1985、286 - 297）。

如上文所述，继苏里奥和麦茨之后热奈特又进一步从叙事学角度对“diégèse（以及diégétique）”概念作了新的拓展，并且着重探讨了叙事话语中“语态”的种类。他的这种叙事理论反过来又对电影研究者产生了强烈的影响。因此，在电影理论中主要关注“现实性”的苏里奥-麦茨式的“diégèse”概念便逐渐被主要关注“叙事层”的热奈特式“diégèse”概念所“覆盖”。而这也使得“diégèse”概念更加难以应用到声音和音乐上。

最早将热奈特的“diégèse”概念纳入电影理论的是克劳迪娅·高伯幔（Claudia Gorbman）。她在《叙事性电影音乐》（Narrative Film Music,1980）一文中通过叙事空间/非叙事空间（diegetic/nondiegetic）的区分以及上述热奈特提出的三个概念（关于“叙事层”的划分），深入探讨了电影音乐与电影叙事之间的种种关系。不过她在接近结尾时最终承认:“在每个例子中，音乐都如同一种贯穿所有叙事层，并将这些叙事层串连在一起的丝线，也就是音乐在电影中是以非表象的方式作为将各个镜头连接起来的存在而发挥作用。”（高伯幔 1980，202）。由此可见，被后来的众多研究者反复强调的——电影声音不适用于“叙事空间”框架的论断，最早在高伯幔的研究中便已经有所体现。也就是说，高伯幔不仅展示了“diegesis”概念在分析电影声音方面所具有的重要作用，同时也前瞻性地暗示了它的局限性。

《电影中的声音》书封

此外，在普及“diégèse”概念方面，高伯幔作为法国电影音乐理论家米歇尔·希翁（Michel Chion）的译者所起到的作用也不容忽视。希翁在《电影中的声音》（Le son au cinéma,1985）一书中按照声音与影像之间的关系将影像声音分为“son in（镜头内）”、“son hors-champ（镜头外）”和“son off（画面外）”。“son in”是指“能够在银幕中看到声源的声音”，“son hors-champ”是指“声源在银幕上虽然看不到，但可以推测出是来自银幕上的场景所描述的时空内相邻空间中的声音”（比如户外的声音），“son off”指的是“声源处于银幕上的场景所描述的时空之外的声音”（比如配乐、旁白等）（chion 1985,31-34=1993、31- 36）。这种分类方法的新颖之处就在于将过去笼统视作一类的后两者明确区分开来。由于1994年高伯幔对希翁的著作《视听：幻觉的构建》（Audio-Vision: Sound on Screen，1990）作英文译介时将这三个术语分别译作“画内音（onscreen）”、“画外音（off screen）”和“非叙事空间声音（nondiegetic）”的缘故（chion 1990,65= 1994,73 -74）[5]，希翁的理论从此便与“diegesis”概念联系在了一起。

3、Diegesis概念在游戏研究中的应用与发展

学院派游戏研究于2000年前后以北欧和北美为中心正式确立。北欧主要以来自文学和数字媒体领域的研究者为主，北美则主要是电影和电视领域的研究者。著有《电子游戏的媒介》（The Medium of the Video Game，2001）一书的马克·J· P· 沃尔夫（Mark J. P.Wolf）就是北美研究体系的代表学者之一，他在书中指出“电子游戏理论起源于电影和电视理论”（Wolf 2001,2）。并且他认为“在电影和电视理论以及媒介研究中发展起来的概念性工具”对于分析电子游戏最为有效，而“叙事世界（diegetic world）”就是其中之一（Wolf 2001,2-3）。但是，在将这一概念引入游戏研究时，有几点需要注意。因为电子游戏媒介具有电影和电视所不具备的新特征。首先是鼠标、操纵杆、键盘等“界面”的存在。与电影不同，在游戏中“界面充当了故事世界和玩家世界之间桥梁的作用”（Wolf 2001,3）。另外，电子游戏需要“世界观和思想更加匹配故事世界”。这是因为与“线性非互动作品”的观众相比，玩家的“自主度更高”（Wolf 2001,4）。沃尔夫指出，游戏研究在现有的媒介研究基础之上增加了界面、玩家行为、交互、导航、算法结构等多种新元素。

在早期游戏研究中，“diegesis”这一概念是作为一个已经在其他研究领域确立的既定术语而被使用的，因此并没有受到多少批判。比如在沃尔夫与伯纳德·佩伦（Bernard Perron）共同编撰的游戏研究论文选《电子游戏理论读本》（The Video Game Theory Reader）第一卷（2003年）和第二卷（2009年）中，这个概念就曾反复出现（Wolf and Perron 2003；Perron and Wolf 2009）。

同样，以游戏声音或音乐为对象的研究中也显示出了频繁应用“diegesis”概念的趋势。比如斯托克伯格的最早以音乐为主题的游戏研究《从听觉角度看游戏环境》（The game environment from an auditive perspective，2003），在这篇文章中他将来源于游戏环境中的“声音对象（sound object）”分为五类（言语、效果、地带、得分、界面），并探讨了这五个类别在游戏环境中分别属于“叙事性部分（diegetic part）”还是“非叙事性部分（non-diegetic part）”（Stockburger 2003）。不过也存在同时兼有两种属性的声音对象。首先是界面声音。与属于“故事世界”的效果音相反，界面声音原则上作为“非叙事性”的一部分被玩家所感知。但是很多游戏都在尝试将界面的声音纳入故事世界。另外，言语的声音也同样具有横跨“故事世界”和“非故事世界”的性质。斯托克伯格在这篇论文中所举的例子《合金装备2：自由之子》（konami、PS2、2001年）就尝试打破角色所属的故事世界和玩家所属的现实世界之间的界限，进行了所谓的“跨层叙述（metalepsis）”实验（参见吉田宽《电子游戏研究》第8章第3节）。比如故事世界内部的游戏剧情人物（雷电的上司坎贝尔上校和恋人罗斯玛丽）直接对玩家本人而不是玩家控制的角色（雷电）说话，就是个典型例子。

此外，理查德·范·托尔（Richard van Tol）和桑德·海贝茨（Sander Huiberts）在《IEZA——游戏音频框架》（IEZA: A Framework For Game Audio，2008）一文中也将“diegesis”概念作为讨论的基础（Tol and Huiberts 2008）。在这篇论文中他们将斯托克伯格对声音对象所作的分类与叙事音/非叙事音的区分相结合，对游戏声音作了更加系统的阐释。IEZA是由Interface（界面）、Effect（效果）、Zone（场景）、Affect（氛围）的首字母组合而成的合成词，指的是来源于游戏环境的四类声音。为了更清晰地揭示游戏声音的分类，他们将这四类游戏声音区分为两个维度，提出了IEZA结构模型——一个二维平面坐标四象限图。首先第一个维度是按照声音来源分为“叙事音（diegetic）”/“非叙事音（non-diegetic）”，分别表示“虚拟游戏世界内部声源”发出的声音和“虚拟游戏世界外部声源”发出的声音。第二个维度则是按照声音表达的信息内容分为“活动（activity）”/“背景（setting）”，分别表示传达“关于游戏活动的信息”的声音和传达“关于游戏背景的信息”的声音。目前IEZA框架已作为游戏声音分类的主要模型被广泛接受。

IEZA框架（Tol & Huiberts 2008,5）

但此后，许多游戏音乐研究者开始对“diegesis”概念产生质疑。而且在这一背景下，对该概念持批判态度的电影音乐研究也越来越多。

4、Diegesis概念在游戏研究中的批判性扩展

前文提到热奈特对“diegesis”概念作了独特的延伸，而除了热奈特之外，游戏领域的研究者也出于各种各样的原因和目的拓展了这一概念。在这样的背景下，有学者认为“diegesis”概念无法原封不动地应用于游戏音乐的研究。

比如克里斯汀·约根森（Kristine Jørgensen）在她的论文《论电脑游戏中的跨叙事空间声音》（On transdiegetic sounds in computer games，2007）中提出了一个新概念——“跨叙事空间（transdiegetic）”。“跨叙事空间声音”是指“声源不在游戏世界，却仍然能够对游戏世界的事件造成影响的音乐”（Jørgensen 2007,105）。这类声音和音乐的“特点与其说是无法确定它们属于叙事空间还是叙事空间之外的（diegetic or extradiegetic）”，不如说是“介于两者之间”(Jørgensen 2007,107)。也就是说，她认为游戏声音存在很多“脱离”电影理论中默认的两个空间范畴的情况。

希区科克《伸冤记》电影海报

约根森提出跨叙事空间声音这一概念是受美国电影学者爱德华·布拉尼根（Edward Branigan）的电影音乐理论的启发。布拉尼根在《叙事理解与电影》（Narrative Comprehension and Film,1992）一书中，通过对阿尔弗雷德·希区科克（Alfred Hitchcock）导演的《伸冤记》（The Wrong Man，1956）的分析，展示了电影音乐是如何在多个叙事空间之间流畅切换的。他指出：

因此，尽管对我们来说从头到尾都是“同一首”乐曲，但却以三种不同的方式听到。我们对从银幕中传出的乐声的(自下而上的)感知已经与我们对音乐和故事世界之间关系的（自上而下的）猜想丝滑地整合在了一起。(Branigan 1992,97)

除了传统的“叙事空间声音（diegetic）”和“非叙事空间声音（nondiegetic）”的区分之外，布拉尼根还提出了另一个新的层级——“虚拟世界之外的（extra-fictional）”。“三种不同的方式”指的就是这三种。他认为对电影音乐的感知，包含了我们对故事世界的“假设”。而这种假设是根据各种视听信息形成的，并且随着时间的推移而变化。约根森认为“音乐能够轻易使空间状态发生变化，是因为我们会结合银幕中的背景信息对声音的意义作出假设”（Jørgensen 2007，108）。

约根森认为，电影中的“虚拟世界之外”维度就相当于游戏中的“界面”。但是RPG游戏中的道具清单（道具选择画面），尽管位于游戏世界（故事世界）之外，但罗列在这里的道具却是玩家在游戏世界中获得的。另外，在道具清单页面上发出的声音，尽管位于游戏世界的外侧——玩家可以听到，游戏世界内的角色听不到——却与游戏世界有着紧密的语义联系。也就是说，“界面声音在游戏世界和玩家所属的现实世界之间架起了一座桥梁”（Jørgensen 2007,112）。

叙事空间声音，非叙事空间声音，还有界面声音。这就是“跨叙事空间声音”所横跨的三种声音类型。也就是说，约根森所说的“跨叙事空间”，与其说是指能够明确识别的某种“空间”，不如说是指将多个空间相互关联起来的“功能”。也就是“当我们试图将故事世界、界面、故事世界之外这三个维度联系起来时，就会产生跨叙事空间功能”(Jørgensen 2007,115)。

在游戏音乐研究领域，马克·尼古拉斯·格雷姆肖（Nicholas Grimshaw）在他的《第一人称射击游戏的声学生态》（The Acoustic Ecology of the First-Person Shooter，2007）一文中也对“diegesis”概念进行了独创性扩展。他以FPS游戏为主要考察对象，阐明了玩家在体验第一人称视角的虚拟环境时，声音发挥了怎样的作用。并且他指出在游戏中“叙事音（diegetic sound）”是一种构成“听觉生态体系（acoustic ecology framework）”的声音（Grimshaw 2007，221）。简而言之，就是能够传递“关于游戏世界信息”的声音。具体来说，是指从游戏环境、物体、角色口中发出的、能够向玩家提供关于游戏世界中的事件、行动、对象等信息的声音。主要包括脚步声、环境音、开枪声、提示其他角色参加或退出的语音信息，以及达成目标时的提示音等。与此相对，“非叙事音（nondiegetic）”则是在“游戏开始之前以及之后”听到的声音，如点击设置菜单发出的界面音和旋律音乐（记谱的音乐）等。而“非叙事音”与“叙事音”的区别就在于玩家无法从中获取“关于游戏世界的信息”（Grimshaw 2007，221-229）。

也就是说，格林姆肖所定义的“叙事音”不是单纯的仅仅为了营造氛围而附带的装饰性声音，而是一种不听就玩不了游戏的、构成游戏环境本质的一个不可或缺元素的声音。这个定义包含了一种“ecology（生态）”概念。“生态”简而言之就是“交往之网”，根据格林姆肖所依据的格诺特·波默(Gernot Böhme)的定义，指的是“环境因素与人的感知之间的关系”（Böhme 2000,14）。这篇论文所提出的假设是“FPS游戏中的声音是一种玩家参与其中并且是重要组成部分的听觉生态（an acoustic ecology）”（Grimshaw 2007,4,328）。他认为，游戏环境中的听觉生态可以和真实物理世界中的类比理解，换句话说，两者之间存在着同样的“功能性（affordance）”（Grimshaw 2007,103-106）。“尽管游戏声音的声学调色板（调节范围）可能更小，但它模拟了真实世界的生态”（Grimshaw 2007,328-329）。

因此，这也导致了电影和FPS游戏的巨大差异。在观看电影时，观众处于故事世界之外，因此视点和听点会产生错位，但另一方面，第一人称视角游戏则只有“一个视点和一个听点”。希翁在《视听：幻觉的构建》（Audio-Vision: Sound on Screen）中发出了“我（观众）听到的内容，究竟是银幕中的谁在听？”（Chion 1990,80=1994,90）的疑问，对此，格林姆肖的回答是“是我在听我听到的内容”（Grimshaw 2007,155）。与电影不同，在FPS游戏中，摄像机和麦克风的位置被融合在同时具有“第一人称视点和第一人称听点”的玩家身上。因此，这里的“听者”自然而然就变成了“第一人称听者（first-person auditor）”。这就是“我听，故我在”（Grimshaw 2007，157-158）。

格林姆肖认为声音对于帮助构建“三维虚拟环境”（Grimshaw 2007，332）有着很大优势。这是因为声音具有“全方向的（omnidirectional）特征，能够同时向屏幕内外两边传递关于游戏环境和活动的信息”（Grimshaw 2007,27）。因此，可以说“声音是让玩家沉浸和参与FPS游戏世界的关键”（Grimshaw 2007，332）。不过，由于与电影声音不同，FPS游戏的声音具有“可以影响玩家的活动”以及“并不是所有声音都能同时被所有玩家听到”的特点（Grimshaw 2007，226）。因此，格林姆肖根据交互形态的不同，将叙事空间声音进一步分为“观念叙事音（ideodiegetic）”和“远程叙事音（telediegetic）”这两种类型。“观念叙事音”是指“某名玩家在游戏中听到的所有声音”。另一方面，“对于玩家A来说的观念叙事音，在玩家B听不到的情况下，如果玩家A对该声音的反应会对玩家B造成影响”，那么该声音对于后者来说就是“远程叙事音”（Grimshaw 2007，226）。另外，“观念叙事音”还可进一步分为由玩家自身发出的“动作叙事音（kinediegetic）”以及除此之外（包括其他玩家发出的声音、环境音和物体发出的声音）的“外部叙事音（exodiegetic）（Grimshaw 2007，227）。

因此，综上所述，格林姆肖对于“diegisis”这个概念的定义是指玩家参与活动的空间，并且是一个类似现实世界的第一人称视角虚拟环境。而在这个定义中，可以说“虚构”这个词完全失去了原本所泛指的偏离现实世界的含义。

5、超越diegesis争论——游戏音乐研究的发展方向

凯伦·柯林斯（Karen Collins）是第一位对“diegesis”概念产生质疑并有意识地否定它的游戏音乐研究者。在《游戏之声：游戏音乐与音效设计的历史、理论与实践》（Game Sound: An Introduction to the History, Theory, and Practice of Video Game Music and Sound Design，2008）一书中，她指出“从电影与戏剧的研究中衍生的故事世界（diegesis）这一概念可能并不适合游戏”，但同时她也认为“diegesis概念对于分析玩家/观众与银幕内容之间的交互程度以及在展现电影音乐的线性（linear）性质与游戏的非线性（nonlinear）性质之间的差异方面具有十分重要的作用”（Collins 2008,125），因此这个术语只能在特定的语境中使用。科林斯认为“diegesis”概念的有效性在电影研究中已经受到质疑。她指出“在当前的电影研究中，叙事音与非叙事音这样的分类（division of diegetic-nondiegetic）已经受到了质疑，这是因为它不能应用到声音的其他范畴（比如高伯幔所说的“元叙事”中的主观体验等）”（Collins 2008,180）。因此，科林斯提出了“交互式音频（interactive audio）”和“自适应音频（adaptive audio）”的概念（Collins 2008,4）。前者是“由玩家的直接输入所引发的声音事件”，比如《超级马里奥兄弟》（任天堂、FC、1985年）中马里奥跳跃的声音。后者则是“反馈游戏状态（the gane states）的声音”，具体指的是“对游戏中的计时、超时、玩家和敌人的健康状况等参数进行提示的声音”。比如《超级马里奥兄弟》中当背景音乐的节奏随着超时的临近而加快的情况。交互式音频和自适应音频的划分主要是依据声音在整个游戏过程中所担任的功能，而不是叙事性或非叙事性的空间层级或关系。因此，科林斯提出的这两个概念破除了“diegesis”概念的局限性。事实上，她提出的概念已被许多游戏研究者应用到游戏声音的分类上。

《超级马里奥兄弟》

2011年，约根森的论文《新术语的时机？——重新审视电子游戏中的叙事空间声音和非叙事空间声音》（Time for New Terminology? Diegetic and Non-diegetic Sounds in Computer Games Revisited）一文的发表，宣告了“diegisis”概念的无效性（Jørgensen 2011）。她在这篇论文中对该概念的起源、如何被引入游戏研究以及它在处理游戏音乐方面的有效性和局限性进行了简明扼要的总结，本文也从中得到了很大的启发。虽然约根森是游戏音乐研究领域的世界第一，但遗憾的是，她试图寻找新的理论框架和视角来取代“diegisis”的努力并不成功。

前文提到约根森于2007年提出了“跨叙事空间（transdiegetic）”这一新概念，但在2011年的论文中，她却彻底放弃了“diegisis”这一概念，并准备与之分道扬镳。于是她提出了“游戏空间（gamespace）”的概念，试图超越“diegisis”。游戏空间是一个与“游戏世界（gameworld）”相对的概念。游戏世界指的是“玩家能够在其中展开各种行动、参与各种事件、以游戏为目的而设计的一个足够广阔的场域或环境”，而游戏空间则是“一个可以在其中进行游戏的、独立于任何可能的虚拟世界的抽象空间（conceptual space）”（Jørgensen 2011,89,96）。这个定义在“现实世界的子集（a subset of the real world）”这一点上十分接近约翰·赫伊津哈（Johan Huizinga）所说的“魔圈”[6]（Jørgensen 2011,89）。她将这个“包含了与玩游戏相关的外部系统的特征”的游戏空间，等同于“格林姆肖和（阿克塞尔）伯纳德定义的故事世界”，并且她尝试以此为突破点在整体上把握游戏声音的特征。然而，游戏空间的概念是否充分涵盖了声音所具有的游离于现实和虚拟的边界的性质，仍然是一个疑问。

另外，约根森在《游戏世界界面中的强调音和生态音》（Emphatic and Ecological Sounds in Gameworld Interfaces，2017）一文中还提出了“生态音（ecological sound）”和“强调音（emphatic sound）”的概念，“生态音（ecological sound）”指“与游戏世界的生态有直接关系，并且与现实物理世界中的声音具有密切相似性”的声音。“强调音”是指“强调或加深游戏世界中事件的影响，并提供与生态音相反的额外信息”（Jørgensen 2017）。她的理论显然十分接近格林姆肖的生态学论，却并没有对其作进一步的探讨。

不过对于生态学论，我也发现了它的巨大潜力。在上一节提到的格林姆肖之前，莫滕·布林比约格（Morten Breinbjerg）在《声音的美学体验——3D电脑游戏中听觉空间的产生》（The aesthetic experience of sound: Staging of auditoryspaces in 3D computer games，2005）一文中也提出了类似的针对游戏音乐的听取的“生态学理解（an ecological understanding）”（Breinbjerg 2005）。布林比约格以同样是FPS游戏的《半条命2》（Half Life 2,Valve、Win、2004年）为例，基于“声音提供了一种与眼睛完全不同的体验景观的方式”这一观点，揭示了游戏声音的“生态功能”，即玩家如何通过声音从环境中获得信息，并依此做出响应。在我看来，这种生态学的观点不仅适用于FPS游戏这样的3D第一人称视角游戏，也广泛适用于一般的电子游戏。并且，我在自己的文章中将这种可以使玩家对游戏环境的状态做出评估并获得行动线索的声音称为“认知性声音（epistemic sound）”[7]。

但是，我并不认为“diegesis”概念不再有效，或者应该被其他概念所取代。虽然的确存在着用“diegesis”概念无法解释的游戏声音。对此我也没有异议。但具体是什么原因造成的不匹配，到目前为止，所有的研究都没有完全弄清楚这一点。是因为它是一种作为互动媒介的“游戏”吗，还是因为它是耳朵所感知的“声音”呢？或者两者兼而有之？我们有必要重新思考这个问题。不过从电影音乐研究者（高伯幔、布拉尼根）指出的这一概念的局限性来看，可以说造成这种不匹配的原因并不能仅仅归咎于游戏的互动特性。那么，是因为它是声音吗？但是这个问题又引发了另一个全新的、更根本的问题。那就是，从不同的感觉器官——眼睛和耳朵——输入的知觉信息构成“同一个故事世界”是指的什么，以及这种情况是否有发生的可能性。如果答案是“否”，那么“diegesis”概念就不能应用于多模态领域，而应该停留在文学和无声电影的世界中。苏里奥和麦茨在讨论电影的故事世界时没有提到声音，或许不是他们的不足之处，反而该说是一种明智。

最后，即使最终证实“diegesis”概念不适合游戏，也不会动摇我们通过结论以及讨论的过程得到的对于游戏的本质、游戏与其他媒体的异同、游戏研究与其他研究领域的关联及影响关系的认识。可以说如果能弄清楚这些，那么也就等于达成一直以来的研究目的了。

注释：

[1] 斯特雷奇最初是为了在“飞行者ACE计算机（Pilot ACE）”（英国国家物理实验室，于1950年开始运行）上运行而编写的“跳棋”程序，但最终却以失败告终（1951年7月），于是他重新编写了程序，尝试在内存更大的“Ferranti MarkⅠ”上运行该程序。不过，虽然在1951年10月就完成了程序转录，但直到1952年夏天才能“以足够的速度运行”（Strachey 1952,47）。该音源后来经过修复，现在可以在大英图书馆的网站上听到。

URL=https://soundcloud.com/the-british-library/first-recording-of-computer-music-1951-copeland-long-restoration（最后浏览日：2023年1月13日）

[2] 这类游戏的雏形最早可追溯到雅达利公司的街机游戏《touch me》（1974年），在该游戏中，玩家需要按照电脑所演示的音乐播放顺序，然后通过按下按钮进行再现。其外壳仅有四个按钮，没有显示屏（参见吉田宽《电子游戏研究》序言中的图0-3）。同时，比如能否找出关于敌人弱点的旋律对于剧情发展有着至关重要作用的《Jesus》（『ジーザス』，Enix、PC-88、1987年），引入了根据声音探测敌人的系统的《宇宙警备队》（Silent Debuggers，Data East、PCE、1991年）和《异灵》（ENEMY ZERO，WARP、SS、1996年），还有在包装上明确写明“这是一款完全没有画面，仅靠声音来玩的游戏”的声音冒险游戏《真实的声音:风之悔恨》（『リアルサウンド～風のリグレット～』，WARP、SS、1999年）、以及以《啪啦啪啦啪》（PaRappa the Rapper，七音社、PS1、1996年）和《Beat Mania》（KONAMI、AC、1997年）为代表的一系列“不听声音就玩不了”的音乐游戏（也就是所谓的“音响游戏”）。除此之外，还有《Otoky》（Asky、FDS、1987年）、《Rez》（United Game Artists、PS2、2001年）等将发出声音作为游戏玩法一部分的射击游戏。

[3] 也有说法认为这个词是艾蒂安的女儿安娜·苏里奥（Anne Souriau）创造的——她自己在晚年也强调过这件事，但本文对此不作讨论（Taylor 2007;Winters 2010,226）。

[4] 尽管热奈特在其著作《叙事的边界》（Frontiers of Narrative,1966年）中就已经提到了“diégèse”概念，但在这本书中他还并没有针对叙事层作出划分（Genette 1966=1989）。直到在《论巴洛克式叙事》（D'un récit baroque，1968年）（Genette1968=1989）中他才初步尝试了这种划分，并在《叙事话语——方法论》（Discours du récit:essai de méthode，收录于《Figures III》，1972年）中使之完善并加以巩固（Genette 1972=1985）。这里主要以后者为参考依据。

[5] 这里需要注意一下，《电影中的声音》(Le son au cinéma,1985)在本书出版时（2023年）尚未译介成英文。

[6] 尽管约根森的“游戏空间”概念是受杰斯珀·尤尔（Juul 2005b，164-167=2016，202-206）得到的启发，但实际上两者之间的论点有很大不同。尤尔所定义的“游戏空间”概念除了与物理游戏（如足球等）中的“世界空间（现实）”相对应外，还包括针对电子游戏的、位于虚构世界内侧的魔圈（比如《2002FIFA世界杯》（Electronic Arts、PS2/CG/Xbox/PC、2002年）中的虚拟足球场空间域），他引入这个概念不如说更多是用来说明后者。所以尤尔的这种“嵌套结构”式定义与被定义为“独立于任何可能的虚构世界”的约根森的“游戏空间”概念并不相符。

[7] 我对此的相关论述参见以下文献。Hiroshi Yoshida.“Epistemic Sound in Video Games.”Paper presented at Music Research Series,Goldsmiths,University of London,United Kingdom(12 May 2015);Hiroshi Yoshida.“Early History of Epistemic Sounds in Digital Games.”Paper presented at Replaying Japan 2018,the National Videogame Arcade,Nottingham,United Kingdom(21 August 2018).