早年间我们总是会“空耳”游戏中的一些语音 —— 比如把《街头霸王2》里的波动拳(Hadoken)听成“阿多肯”,升龙拳(Shoryuken)误认成“殴哟肯”。后来我才发现,这些都是因为街机基板 CPS1 对发音“H”支持不佳所导致的。
几十年前,电子游戏的容量非常有限,想要展现出人声通常只能采取合成的方式,请真人来录制一段对话是件无比奢侈的事情,还不如多塞几首好听的 BGM 来得划算。但合成人声直到今天也并不完美,即便是 Siri 和 Cortana,你仍然能明显感受到它们说话时的违和感。
游戏人声的发展过程无疑非常漫长,从《打鸭子》里“wawawawawa”的音效笑声,到配音演员点对点的录制,这一切或许都要从一尊铜像,以及地球人都知道的一台机器说起。
人类对于创造人声的执念由来已久,中世纪末期(12~13 世纪)就有一则关于“人头铜像”的传说,据说这玩意能够正确的回答任何问题,与当时炼金术的兴起有很大关系。
但事情肯定没那么玄乎,古希腊数学家希罗老早就写过两本关于蒸汽,水,空气动力装置的书,名字是《气体力学》(Pneumatica)和《自动装置》(Automata),后来被伊斯兰世界加以应用,12 到 13 世纪又在欧洲被重新挖掘出来。
近代魔术师约瑟菲也用铜造了个“巴尔萨莫头骨”,上面镶嵌着人类的牙齿,通过转动或敲击下颚就能配合着回答问题。在很长一段时间内,把合成人声当成魔术也不为过。
但科学家们看得更明白一点。1779 年,俄国帝国理工学院给一个声道模型颁发了奖项,该设备可以念出 a、e、i、o、u 五个长元音。匈牙利人沃尔夫冈也在 1791 年的一篇论文中提到了“声-机械语音机器”,它增加了舌头和嘴唇模型,能够同时发出辅音和元音。
直到 20 世纪 30 年代,由贝尔实验室开发的声码器(Vocoder)才算是构筑了现代合成人声的主要思路。
这台机器具备分析语音音调和共振的能力,原理是将声音编码后再进行传输。因为从本质来看,人声大体上可以解构成周期性的波形和谐波,声带、鼻子和喉咙则是改变声音振幅、频率的系统。只不过有一些“抑扬顿挫”信号难以量化,合成人声听起来才会非常像机器人。
相比录制一段语音,这么做的好处是可以最大限度的压缩数据体积。总共存储的声音就那么几个,要组成一句话时便调用拼起来,然后再调整深度和长度。原理其实和 FC 的图像处理方式相似 —— 角色和场景是由零散图块拼成的,其中存在大量复用,而不是一张张的 JPG 图片塞到 ROM 里。
在这套理论的基础上,1968 年,日本电机技术实验室开发了第一个将“英语文本转换为语音”的系统,由于它是基于计算机的成果,和声码器一样不同于过往那些依靠螺丝、阀门的“机械式”模型,因此电子游戏后续才有了应用合成人声的可能。
但先别着急,这项技术真正被游戏使用之前还有个小插曲 —— 那便是万家皆有,中国人都把玩过的语音计算器,你肯定对那一声声“归零”记忆犹新。
1974 年时,美国人莫泽(Forrest Mozer)创造了一套基于集成电路的语音算法,他首先将这项技术授权给了 Telesensory Systems,后者在 1976 年打造了一款面向盲人的语音计算器。而作为首款具有语音合成功能的消费品,它内置的 TSI S14001A 芯片起到了关键作用。
这块出自工程师伯纳德(Ed Bernard)之手的芯片,将 24 个单词词汇表的数据放入了一个 4096 字节的 ROM 中。为了最大限度的压缩数据,开发者们想尽了法子。比如有个标记为“X/-”的功能键没有对应语音,而是复用了两个已有的语音进行连续播放,这样就只需要额外用到 2 个字节。
不难发现,正由于所占空间极小,它几乎影响了 20 世纪 80 年代初期一大批包含“人声”的游戏。
下一页:给单调的音效来点变化
如今的柏青哥、老虎机,往往会加入很多炫酷的特效和声音来强化感官,因为上世纪 30 年代那套弹珠打桌板的反馈实在是太无聊了。而从雅达利、红白机时代走过来的玩家,同样会对“嘟嘟嘟”“滴滴滴”的洗脑音效感到厌倦。
第一个买到 TSI S14001A 语音芯片的游戏公司可能不是 Sunsoft,但他们绝对是第一个做出“合成人声”作品的开发商。
由其制作的清版射击街机《太空防卫》(Speak & Rescue)诞生于 1980 年,玩法一目了然,只需要射击那些企图绑架宇航员的外星人。亮点在于,宇航员被挟持和救助时有对应的语音,诸如“Help me”、“Very good”、“We'll be back”,“Lucky”等等。
这部作品有很多版本,日版语音几乎替换成了日文,比如“Tasukete”(救命)。名为《蜘蛛战士》的山寨版在玩法上大致相同,只是宇航员变成了水果,但由于登陆的是 Atari 2600 平台,合成人声这个卖点并没有保留下来(开发商还是当时技术力最强的动视)。
街机方面,晚《太空防卫》几个月诞生的《迷宫射击》(Berzerk)在合成人声上做得更为复杂。当特殊敌人出现时,喇叭里便会传出“Intruder alert”(入侵警报)的语音,而当玩家不小心被打死时,则会有“ Got the intruder”(找到入侵者)的台词。
游戏中敌人掌握的单词并不少,简单一点的像是“Attack”(攻击)、“Charge”(充电)、“Destroy”(摧毁),复杂点的甚至可以组成短语,主要依据事件触发,类似“Kill the chicken”(*鸡)和“Destroy the intruder”(摧毁入侵者)。由于敌人的设定本身就是机器人,所以合成人声的语调并不会觉着违和,算是恰到好处。
看到街机那边整了点新花样,家用机的开发商也没有闲着。米罗华为了在竞争中占得先机,率先为“奥德赛 2”开发了一个名为“The Voice”的附加语音模块,玩家需要多掏 100 美元才能买到。该模块有着内置扬声器和音量控制按钮,对应游戏也采用了独特的蓝色包装。
第二代米罗华奥德赛上的“合成人声游戏”基本都诞生于 1982 年,其中《Type and Tell》顾名思义,可以根据玩家输入的单词输出语音。《K. C.'s Krazy Chase》则加入了“Incredible”(不可思议)等鼓励人的合成声,游戏玩法倒是创新不多,和《吃豆人》相似。
而作为米罗华主要竞争对手之一的美泰,同样在 1982 年推出了用于主机 Intellivision 的语音模块“Intellivoice”。他们采用了通用仪器的 SP0256 语音合成芯片,支持报数、“Press”(按)、“Enter”(进入)、“And”、“Or”、“Mattel Electronics Presents”(美泰电子制造)等语音。
但由于只有 2048 字节的 ROM,相比前文提到的 TSI S14001A 芯片还是稍微差了些。Intellivision 上的《棒球》只有“Strike”、“Ball”、“Out”几个词,如果要增加额外的短语,那么只能寄希望于卡带里存储的数据了。
不过,第三方厂商若是加大容量又会大幅提高生产成本,所以 Intellivoice 一直卖得不好,最终于 1983 年停产。虽然该设备的初始订单一度达到 30 万套,但结局大多是摆在货架上吃灰。
任天堂在这一点上倒是比较聪明,在 FC 中内置了一个 DPCM 采样通道,既可以表现背景音又可以用于加入合成人声,而不是做额外的硬件。这样风险全部转嫁给了游戏开发商,让他们自己掂量成本。
到了 80 年代末期,卡带 ROM 的制造费用降下来时,Sunsoft 又做了一些带有大段合成人声的游戏。光盘技术此时也在酝酿之中,1983 年的《龙穴》最早将立体声和录制人声结合到了游戏中,真人配音逐渐走上了历史舞台。
如今那些 3A 游戏的背后,大概率有一帮默默无闻的配音班底。反观之下,合成语音成了特定场所下展现氛围的一种技巧。但无论如何,几个字节都要死抠的时代都已经一去不复返了。
参考资料:
Speech synthesis wikipedia
Digital Sound And Music
The Development of the TSI Speech Speaking Calculator
Mechanical Speech Synthesis in Early Talking Automata
Copyright © 2024 妖气游戏网 www.17u1u.com All Rights Reserved