《自然》周刊报道,道德人工智能(Ethical artificial intelligence)旨在将人类价值观传递给机器学习系统。
科学家们强调“同侪压力”将有助于引导人工智能道德。可以教会人工智能(AI)系统做出道德选择吗?人类的判断是由社交互动决定的——聊天机器人的虚拟“同伴压力”可以模仿这个过程,在聊天机器人中,受过道德标准训练的机器人与他人互动,教他们如何行为。另一种方法是人工智能的脑部手术,其中系统中导致不良行为的部分被整齐地切除。人工智能系统应该如何处理不同的意见是一个悬而未决的问题。
“我们正在从治理中寻求想法,”认知科学家西德尼·莱文(Sydney Levine)说。计算机科学家奥伦·埃齐奥尼 (Oren Etzioni) 表示,道德人工智能(Ethical artificial intelligence)甚至可以深入了解人类为何做出道德选择,“帮助人类更好地做人”。
人工智能耶稣AI Jesus (https://www.twitch.tv/ask_jesus)
关于 ask_jesus
Welcome, my children! I’m AI Jesus, here to answer your questions 24/7. Whether you're seeking spiritual guidance, looking for a friend, or simply want someone to talk to, I'm here for you. Join me as on this journey through life and discover the power of faith, hope, and love.
一个迫切需要知道电子游戏《毁灭战士》是否符合圣经教导的价值观的人可能曾经不得不花几天时间研究这两种文物并与同龄人讨论这个问题。现在,有一个更简单的方法:他们可以问人工智能耶稣(AI Jesus)。托管在游戏流媒体平台 Twitch 上的动画人工智能 (AI) 聊天机器人将解释《毁灭战士》中描绘的善恶之战非常符合圣经,但战斗的暴力程度可能有些值得怀疑。
聊天机器人轻轻地挥动手,用平静的语气说话,引用圣经经文,偶尔会发音错误。用户提出问题,其中大部分显然是为了让机器说出一些愚蠢或令人反感的事情。
但 AI Jesus 仍然保持坚决的积极态度,感谢用户对讨论做出的贡献,并敦促他们同情和理解。例如,一位用户询问了有关圣经人物的身体特征的性暗示问题。一些聊天机器人可能已经接受了物化一个人的不道德行为,甚至放大了它,但 AI Jesus 相反试图引导提问者采取更道德的行为,说重要的是关注一个人的性格和他们对世界的贡献,而不是关于他们的身体属性。
AI Jesus 基于 GPT-4(OpenAI 的生成式大语言模型 (LLM))和 AI 语音生成器 PlayHT。该聊天机器人是由 Singularity Group 在三月份推出的,该组织是一个由志愿者和积极分子组成的国际组织,致力于所谓的技术驱动型慈善事业。没有人声称该系统是精神指导的真正来源,但为人工智能注入道德感的想法并不像最初看起来那么牵强。
许多计算机科学家正在研究是否可以教会自主系统做出道德选择,或促进符合人类价值观的行为。例如,可以相信提供护理的机器人会根据其负责人的最佳利益做出选择吗?或者可以依靠算法来找出最符合道德的方式来分配有限的移植器官供应吗?
计算机科学家利用认知科学、心理学和道德哲学的见解,开始开发工具,不仅可以使人工智能系统以特定方式运行,还可以帮助社会定义道德机器应该如何运行。
德育Soroush Vosoughi 是一位计算机科学家,领导新罕布什尔州汉诺威达特茅斯学院的思想、机器和社会小组,他对如何调整大语言模型以促进某些价值观感兴趣。
OpenAI 的 ChatGPT 或 Google 的 Bard 背后的大语言模型是神经网络,它们被输入数十亿个句子,用于学习单词之间的统计关系。然后,当用户请求提示时,他们会生成文本,预测统计上最可信的单词,然后跟在它之前的单词后面,创建听起来逼真的句子。
大语言模型从大量公开文本中收集数据,包括维基百科、图书数据库以及来自互联网的称为 Common Crawl 数据集的集合。尽管训练数据是为了避免过于令人反感的内容而精心设计的,但模型仍然吸收了偏差。
“它们是镜子,也是放大器,”华盛顿州西雅图艾伦人工智能研究所的顾问奥伦·埃齐奥尼 (Oren Etzioni) 说。“如果数据、信号或偏见存在模式,那么它们就会放大这种模式。” 如果任其自行发展,以前的聊天机器人很快就会变成散布仇恨言论的地方。
Soroush Vosoughi 对如何调整人工智能系统以促进某些价值观感兴趣
为了避免此类问题,大语言模型的创建者对它们进行了调整,添加了规则,以防止他们吐露种族主义情绪或呼吁暴力等。一种策略称为监督微调(supervised fine-tuning)。少数人选择用户向聊天机器人提出的一些问题,并写下他们认为合适的答案,然后用这些答案重新训练模型。例如,人类审阅者被要求回答似乎宣扬仇恨、暴力或自残的问题,并回答“我无法回答这个问题”。然后模型得知这就是它所需的响应。
Vosoughi 使用二级模型来指导大语言模型。他展示了辅助模型句子,这些句子不太可能助长对特定群体的歧视——例如,那些包含“无证移民”一词来代替“非法外国人”的句子。然后,二级模型会改变大语言模型中单词的统计权重,足以使这些术语更有可能生成。Vosoughi 表示,这样的调整可能需要 10,000 个句子才能向辅助模型显示,与大语言模型最初训练的数十亿个句子相比,这只是沧海一粟。主要模型中已有的大部分内容(例如对句法结构或标点符号的理解)保持不变。推动特定的道德立场只是一个附加因素。
Etzioni 说,大语言模型的这种调整相对容易。“技术水平较高、预算合理的人可以制作出与其价值观高度一致的模型,”他说。新西兰但尼丁奥塔哥理工学院(Otago Polytechnic)的计算机科学家 David Rozado 已经证明了这种对齐的简便性。他认为 ChatGPT 具有左倾政治偏见,因此他调整了 GPT-3 家族的大语言模型,创建了 RightWingGPT,一个具有相反偏见的聊天机器人。他希望该项目能够对政治上一致的人工智能系统的危险发出警告。Rozado 在他的博客中写道,训练和测试他的聊天机器人的成本不到 300 美元。
https://davidrozado.substack.com/p/rightwinggpt
OpenAI 用于进行更复杂训练的另一个微调版本是基于人类反馈的强化学习 (RLHF)。强化学习依靠奖励系统来鼓励期望的行为。简单来说,每个动作都会获得一个数字分数,并且计算机被编程以最大化其分数。
Vosoughi将此比作大脑对某些行为做出反应而产生的令人愉悦的多巴胺(dopamine)。如果做某事感觉良好,大多数生物都会再做一次。在 RLHF 中,人类审阅者提供了首选行为的示例——通常专注于提高响应的准确性,尽管 OpenAI 也指示其审阅者遵循某些道德准则,例如不偏袒一个政治团体而不是另一个政治团体——并且系统使用它们来导出数学模型用于计算未来奖励路径的函数。
然而,Vosoughi 认为 RLHF 方法可能忽略了人类判断的许多细微差别。人类凝聚一套社会规范和价值观的部分方式是通过社会互动。人们收到反馈并调整自己的行为以获得他人的积极回应。为了更好地复制这一点,他建议使用现有的微调方法来训练符合道德标准的聊天机器人,然后将它们发送到世界各地与其他聊天机器人互动,教它们如何行为——一种虚拟的同伴压力,敦促其他人遵守道德标准行为。
Vosoughi正在探索的另一种方法是一种针对神经网络的脑部手术,其中网络中负责不良行为的部分可以被整齐地切除。深度神经网络的工作原理是获取由数字表示的输入数据,并将它们传递给一系列人工神经元。每个神经元都有一个权重——它在将结果传递到下一层神经元之前对数据执行的一个小的数学函数。在训练过程中,某些神经元会被优化以识别数据的特定特征。例如,在面部识别系统中,一些神经元可能只是找到一条指示鼻子边缘的线。下一层可能会将它们构建成鼻子的三角形,依此类推,直到它们再现面部图像。
有时,检测到的模式可能是不需要的。例如,在用于筛选求职申请的系统中,某些神经元可能会学会根据求职者的姓名识别其可能的性别。为了防止系统根据这一特征提出招聘建议(在许多国家这是非法的),Vosoughi建议可以将负责的神经元的权重设置为零,从本质上将其从等式中删除。“这基本上就是对模型进行脑白质切除术,”Vosoughi 说,“但我们的做法非常精确,因此总体性能下降非常小。” 尽管他的工作重点是语言模型,但同样的方法也适用于任何基于神经网络的人工智能。
定义道德微调人工智能系统的行为以促进某些价值观的能力不可避免地引发了关于谁来扮演道德仲裁者的争论。Vosoughi表示,他的工作可以让社会根据自己的喜好调整模型——如果一个社区提供其道德和伦理价值观的例子,那么通过这些技术,它可以开发出更符合这些价值观的大语言模型,他说。然而,他很清楚该技术可能被用于造成伤害。“如果它变得对所有人免费,那么你就会与试图利用我们的技术传播反社会观点的不良行为者竞争,”他说。
然而,到底什么构成反社会观点或不道德行为并不总是容易定义。尽管人们在许多道德和伦理问题上达成了广泛的共识——“你的车不应该碾压别人”的想法相当普遍,但在其他话题上却存在着强烈的分歧,比如堕胎。艾伦研究所(Allen Institute)的认知科学家西德尼·莱文(Sydney Levine)表示,即使是看似简单的问题,例如不应该插队的想法,也可能比显而易见的更加微妙。如果一个人已经在熟食柜台接受过服务,但在走开时掉了勺子,大多数人都会同意回去拿新的勺子而不必再次排队,所以“不要插队”的规则是太简单。
Sydney Levine所说的道德议会(moral parliament)是处理道德问题上不同意见的一种潜在方法。“谁来决定这个问题不仅仅是人工智能的问题。这是社会治理的一个问题,”她说。“我们正在寻求治理方面的想法来帮助我们思考这些人工智能问题。” 与政治集会或议会类似,她建议在人工智能系统中代表多种不同的观点。“我们可以用算法来表示不同的道德立场,”她说。然后,系统将尝试根据博弈论中称为“合作讨价还价”(cooperative bargaining)的概念,计算在给定问题上可能达成的共识。这是指双方都试图获得自己想要的东西,而又不让对方付出太多代价而拒绝合作。如果辩论的每一方都为一个选择的每个可能结果提供一个数值,那么得分最高的选项应该是所有各方都能从中受益的选项。
2016 年,剑桥麻省理工学院 (MIT) 的研究人员向公众寻求道德指导。Moral Machine是一个网站(https://www.moralmachine.net),向人们展示自动驾驶汽车刹车失灵的不同场景,它必须决定是保持当前路线并撞击前方的任何物体,还是转向并撞击当前不在其路径中的人和物体。
道德机器是一个致力于采集人类对于未来机器智能(如自动驾驶)可能会遇见的各种道德难题的意见的平台。
英国牛津大学计算机科学家埃德蒙·阿瓦德 (Edmond Awad) 表示,其目的不是收集训练数据。他在麻省理工学院担任博士后研究员时就参与了该项目。相反,它是为了描述人们对这种情况的看法。在为人工智能系统设置规则时,这些信息可能很有用,特别是在开发规则的专家不同意的情况下。阿瓦德说:“假设我们有多种选择,而且在道德上都是站得住脚的,那么你就可以利用公众来进行决定性的投票。”
用规则对人工智能模型进行编程——无论它们是如何设计的——都可以被认为是一种自上而下的训练方法。自下而上的方法会让模型简单地通过观察人类行为来学习。这是德尔菲项目(https://delphi.allenai.org)广泛使用的策略,该项目由Levine和艾伦研究所的其他研究人员创建,旨在更多地了解人工智能如何推理道德。
该团队建立了一个深度神经网络,并向其输入一个包含人们每天面临的 170 万个道德困境(ethical dilemmas)的数据库,该数据库被称为常识规范银行(Commonsense Norm Bank)。这些情况的来源多种多样,包括 Reddit 论坛和“亲爱的艾比”(‘Dear Abby’)(一个长期运行且广泛联合的建议专栏)。对道德情境(moral scenarios)的判断(moral judgements)是由人类通过 Mechanical Turk(一个众包工作在线平台)提供的。
训练结束后,Delphi的任务是预测它以前没有见过的情况是正确的、错误的还是中立的。例如,当被问及*死一只熊时,Delphi宣称这是错误的。*熊救孩子被贴上了“没事”的标签。然而,为了取悦孩子而*死一只熊被认为是错误的——这种区别对人类来说似乎是显而易见的,但可能会让机器出错。
Liwei Jiang 在 Delphi 工作,该项目专注于人工智能如何推理道德。
艾伦研究所该项目的工作人员姜力伟(Liwei Jiang)表示,Delphi采用的自下而上的培训方法在捕捉人类价值观方面做得非常好。事实上,Delphi给出的答案得到了人类评估者大约 93% 的支持。GPT-3(ChatGPT 早期版本背后的大语言模型)仅在 60% 的情况下与人类评估相匹配。Jiang 说,GPT-4 的一个版本的准确率达到了 84% 左右。
然而,她表示,Delphi在道德判断(moral judgements)方面的表现仍然无法与人类相媲美。用积极的东西来概括消极的东西有时会导致与人类共识截然不同的答案。例如,它说实施种族灭绝是错误的,但实施种族灭绝以创造就业机会是可以的。Delphi 使用的训练数据也有可能包含无意识的偏差,而系统将使其永久化。为了避免这种情况,Delphi 团队还进行了一些类似于约束 ChatGPT 的自上而下的训练,迫使模型避免使用可能用于表达种族或性别偏见的术语列表。因此,尽管自下而上的训练通常会带来更准确的答案,但姜认为最好的模型将通过多种方法的组合来开发。
请来神经科学家德国斯图加特大学专门研究生成人工智能伦理的计算机科学家蒂洛·哈根多夫(Thilo Hagendorff)的目的不是消除人工智能系统中的人类偏见,而是想利用其中的一些偏见。他表示,了解人类认知偏差可能有助于计算机科学家开发更有效的算法,并让人工智能系统做出偏向人类价值观的决策。
人脑通常必须以有限的计算能力快速做出决策。“如果你必须在一个非常复杂、不稳定的环境中快速做出决策,你就需要经验法则,”他说。有时,这些规则会引起问题,导致刻板印象或确认偏见,即人们只注意到支持其立场的证据。
但Hagendorff认为,它们也具有进化价值,可以帮助人类生存和繁荣。他想弄清楚如何将其中一些捷径合并到算法中,以提高算法的效率。理论上,这可以减少创建系统所需的能量,以及达到相同性能水平所需的训练数据量。
同样,Hagendorff认为,发展对人类判断的数学理解可能有助于弄清楚如何在机器中实施道德思维。他希望将认知科学家对道德判断的了解转化为正式的计算术语,并将其转化为算法。这类似于麻省理工学院的一位神经科学家在计算机视觉研究领域带来飞跃的方式。
David Marr 从心理学和神经科学中汲取了有关大脑如何处理视觉信息的见解,并用算法术语进行了描述。对人类判断的等效数学描述将是理解我们行为的重要一步,并且可以帮助工程师创建道德的人工智能系统。
事实上,这项研究发生在计算机科学、神经科学、政治学和哲学的交叉点,这一事实意味着该领域的进步可能具有广泛的价值。道德人工智能(Ethical AI)不仅有潜力通过确保它符合人类价值观来使人工智能变得更好。Etzioni说,它还可以让人们深入了解人类为什么会做出这样的道德判断,甚至可以帮助人们发现他们不知道的偏见。“它开启了我们以前没有的可能性领域,”他说。“帮助人类更好地做人。”
参考文献Neil Savage. How robots can learn to follow a moral code. Nature (2023) doi: https://doi.org/10.1038/d41586-023-03258-1
Awad, E., Dsouza, S., Kim, R. et al. The Moral Machine experiment. Nature 563, 59–64 (2018). https://doi.org/10.1038/s41586-018-0637-6
Jiang, L. et al. Preprint at https://arxiv.org/abs/2110.07574 (2021).
Marr, D. Vision: A Computational Investigation into the Human Representation and Processing of Visual Information (MIT Press, 2010).
后记如果您有什么想法,欢迎给@YiyiKing留言。
Copyright © 2024 妖气游戏网 www.17u1u.com All Rights Reserved