人工智能领域正在如火如荼地发展,随着诸如ChatGPT、Claude、Gemini、Sora和Grok等平台的不断涌现,AI技术和模型持续演进,引发人们对通用人工智能(AGI)的浓厚兴趣。
在这一备受关注的话题中,人们常常将GPT和AGI的概念混淆在一起。
有人称赞GPT是新的工业革命,有人则认为当前的人工智能技术已进入AGI时代或即将迈入。
尽管GPT系列模型凭借出色的自然语言生成能力和广泛的应用声名鹊起,但我们不能忽视的是,GPT模型虽擅长处理大量文本数据和执行各种语言任务,但并非等同于通用人工智能。
GPT展现的智能只是人工智能技术中的一小部分,其重点在语言理解与生成,而AGI则追求跨领域、多任务的全面深厚智能。
因此,理性地认识GPT与AGI之间的区别至关重要。
本文旨在探讨当前最新人工智能技术的成就,梳理和分析通用人工智能的发展脉络,尽管GPT备受瞩目,却并非AI通向AGI的全部旅程。
当我们探索人工智能的发展和前景时,总是会创造一些概念和名词。而充分理解这些词汇则是认识人工智能的第一步。
这些名词包括人工通用智能(AGI)、窄人工智能(ANI)、自然语言处理(NLP)、计算机视觉(CV)、大语言模型(LLM)、AIGC(生成式人工智能)、GPT(生成式预训练Transformer模型)、BERT(基于Transformer的双向编码)、Diffusion Models(扩散模型)、GANs(生成对抗网络)、Transformer、RNNs(循环神经网络)、CNNs(卷积神经网络)、ANN(人工神经网络)、Fine-tuning(微调)和PLHF(人类反馈的强化学习)等。
本小结将通过概念和实现两个层面梳理他们之间的关系。
AI是人工智能(Artificial Intelligence)的简称,该概念最早是达特茅斯大学的一名年轻教授约翰-麦卡锡(John McCarthy)在1956年为研讨会写提案时创造的,后来被广泛接受为描述一种由人类创造出来的技术,它模仿并扩展了人类智能的各个方面,包括感知、学习、推理和决策等。但长久以来AI概念只是描述人类的一种理想和目标,并无实际进展。
为进一步实现AI,学者和专家们根据其应用场景不同将AI的目标拆分为AGI和ANI两种实现目标。
除了AGI和ANI两个AI目标概念以外,根据人类的感官需求,AI的具体应用则主要体现在语言和视觉处理的两大领域,即:NLP和CV。
当前最火爆的ChatGPT和Stable Diffustion就是AI在NLP和CV领域最为成功的两款应用之一。而ChatGPT就是LLM的一种具体实现。
LLM:是指大规模型语言模型(Large Language Model)。随着ChatGPT的成功,而广为人知。是一种利用深度学习技术训练的人工智能系统,旨在理解、生成和翻译人类语言。这些模型通过分析海量的文本数据来学习语言的结构、语法、语义及其使用上下文,从而能够生成连贯、逼真的文本,回答问题,总结信息,翻译语言,甚至编写代码。这里需要特别指出大规模是指模型训练过程中使用得的超大参数量,例如:ChatGPT-4训练参数量大概是1750亿个参数,而马斯克刚刚开源的Grok-1参数量则为3140亿个参数。不同于ANI领域中的自变量概念,这里的参数是指通过神经网络运算的权重数量。因此大样本或大数据量并不能被认为是大规模语言模型。同时,LLM是特指大规模语言模型,即便是大规模参数的ANI模型也不能称为LLM,例如:华为盘古气象大模型并不是LLM,其只是采用Transformer架构的ANI模型。
最后我们要讨论一个比较特殊的概念,即:生成式AI(Artificial Intelligence Generated Content,简称AIGC)。该概念并不是AGI概念的原生词汇,而是国内学术造词工厂的杰作。国内普遍认为AIGC是利用人工智能技术自动创建文本、图片、音乐、视频等内容的过程。包括但不限于自然语言生成(NLG)、计算机视觉、音频合成和深度学习模型等领域。由于重复和含糊不清的定义,AIGC更像是把NLP、CV等重新包装成产业应用,制造互联网热点的过程。
以上重点讲解了关于人工智能最近比较热点的概念,但不是全部。之所以叫概念是因为这些名词本身并无实际模型支持,只是方便人们归类和理解的一种称呼而已。接下来讲解的具体AI工具则是有模型、架构和算法支持,有实际实现意义的内容。
为了便于理解,我将模型、架构和算法归统称为实现层,因此首先出场的是当下最火的GPT模型。
1)GPT—生成式预训练Transformer模型(Generative Pre-trained Transformer)
这是一种LLM也是NLP,由OpenAI开发。它基于Transformer架构,主要用于处理和生成自然语言,因此GPT并不能直接生成图像。GPT模型属于深度学习的一部分,通过大量文本数据的预训练,学会了语言的结构、语法、词汇及其上下文之间的关系,使其能够执行各种语言任务,如文本生成、翻译、问答和摘要等。
其工作原理主要由预训练和微调构成。
预训练阶段,GPT模型在大规模的文本数据集上进行训练,目的是学习语言的一般特征,比如词汇、语法和语言使用的上下文关系,这一步骤让模型能够理解和生成语言的基本结构;
微调阶段,模型通过在特定任务的数据上再次训练,能够在特定的应用场景中更加精准和高效。GPT模型的特点是其“生成能力”,即能够基于给定的文本提示生成连贯、创新、多样化的文本内容。这使得GPT模型不仅可以用于回答问题和参与对话,还能用于创作文章、编写代码和更多创造性的任务。
在左图中,首先使用的Transfomer架构开展预训练;而在右图则是对不同任务进行微调的输入转换。将所有结构化输入转换为Token序列,由预训练模型处理,然后是Linear softmax层处理。
微调(Fine-tuning)是深度学习中的一个重要概念,特别是在自然语言处理(NLP)、计算机视觉等领域的应用中。微调通常发生在预训练模型的基础上,目的是将这些通用模型调整为特定任务的专用模型。
2)BERT—基于Transformer的双向编码模型(Bidirectional Encoder Representations from Transformers)
这是一种同样采用Transformer架构的自然语言处理(NLP)预训练模型,由Google在2018年提出。它的核心创新之一是使用双向Transformer编码器来理解语言的上下文,这与之前的单向或部分双向处理方法相比,能够更准确地捕捉到词语间的关系和语义。
从上图可以看到,BERT使用双向转换器。OpenAI GPT使用从左到右的转换器。ELMo使用独立训练的从左到右和从右到左的LSTM的级联来生成下游任务的特征。在这三种表示中,只有BERT表示在所有层中都以左右上下文为联合条件。
除了架构差异之外,BERT和OpenAI GPT是微调方法,而ELMo是基于特征的方法。虽然BERT也使用了大量的文本数据进行预训练,能够捕捉语言的深层语义和上下文关系,但其设计初衷主要是提高特定的NLP任务(如问答、命名实体识别、情感分析等)的性能,而不是“生成能力”。由于BERT的参数量大致在3.4亿左右,因此一般不把BERT归为LLM。
在自然语言处理(NLP)领域,除了著名的GPT系列和BERT之外,还有很多其他重要的模型和技术进展,例如:ELMo、RoBERTa、T5、XLNet和Grok-1采用的Mixture-of-Experts模型等,由于篇幅有限不一一介绍。
在计算机视觉(CV)领域,也是众星璀璨,其中以Diffusion Models和GANs最为著名。
3)Diffusion Models—扩散模型
Diffusion Models同样是生成模型,主要用于创建高质量、逼真的数据,如图像、音频、文本等。这些模型的灵感来自物理学中的扩散过程,即物质从高浓度区域向低浓度区域移动。
Diffusion Models 通过以下两个阶段来生成数据,即:噪声添加过程(向前扩散),噪声去除过程(向后扩散)。
扩散过程是一个马尔可夫链,它在采样的相反方向上逐渐向数据添加噪声,直到信号被破坏。当扩散由少量高斯噪声组成时,可以将采样链转换设置为条件高斯,从而实现特别简单的神经网络参数化。
在具体训练架构的实现方面Diffusion models 通常利用CNNs(卷积神经网络)作为其核心架构。这主要是因为卷积神经网络在处理图像数据方面的高效性和能力。
CNNs能够从图像中自动学习和提取有用的特征,这使得它们非常适合于图像相关的任务,如图像生成、图像分类、图像恢复等。
在Diffusion models的上下文中,CNNs被用来实现所谓的“去噪”步骤。在这一步骤中,模型试图从部分加噪的数据中预测原始数据的干净版本。这个过程需要模型能够理解图像中的复杂模式和结构,以便逐步消除噪声并最终重建出清晰、高质量的图像。CNNs以其强大的空间特征提取能力,非常适合这项任务。
当然,根据特定应用的需求,Diffusion models也可以集成其他类型的神经网络架构。例如,对于涉及序列数据(如文本或音频)的生成任务,可以考虑使用RNNs(循环神经网络)或Transformer网络,这些网络能够更好地处理序列之间的依赖关系。
最近的研究也开始探索将Transformer架构应用于Diffusion models中,尤其是在需要处理大量上下文信息或长序列数据的场景。OpenAI最近发布的Sora就是一种Transformer Diffusion的训练模型,其利用Transformer架构,对视频和图像的时空补丁进行编码,实现在可变持续时间、分辨率和宽高比的视频和图像上训练文本条件扩散模型。
总的来说,虽然Diffusion models最初和最常用的架构是基于CNNs,但随着技术的发展和研究的深入,其他类型的神经网络也被探索和应用,以提高模型的性能和适用性。
4)GANs—生成对抗网络(Generative Adversarial Networks)
GANs是一种由Ian Goodfellow于2014年提出的深度学习模型。GANs通过其独特的训练机制,在生成新数据样本,尤其是图像生成领域,表现出了显著的能力。GANs的核心思想是基于两个相互竞争的网络:一个生成器(Generator)和一个判别器(Discriminator)。训练过程涉及对这两个网络进行交替训练。首先,固定生成器,训练判别器以最大化其区分真假样本的能力。然后,固定判别器,更新生成器以最大化判别器的错误率。通过这种方式,生成器逐渐学会生成越来越逼真的数据。
这个过程像一个“伪造者”(生成器)试图创造看起来真实的艺术品,和一个“鉴别者”(判别器)试图区分艺术品是真是假的游戏。随着游戏的进行,伪造者变得越来越擅长创造逼真的作品。它们都可以使用不同类型的神经网络架构。
训练从具有4×4像素的低空间分辨率的生成器(G)和鉴别器(D)开始。随着训练的进行,我们逐渐向G和D添加层,从而提高生成图像的空间分辨率。GANs的强大之处在于其架构的灵活性,允许在生成器和判别器中使用多种神经网络类型。下面是GANs中常用的几种神经网络类型:
一般而言我们把GPT、BERT、Diffusion Models和GANs统称为训练模型或框架,而将Transformer、RNNs、CNNs归为训练架构。区别是模型或框架可以根据不同应用场景选择不同的训练架构,而训练架构中又可在不同的环节,采用了不同的神经网络算法。由于篇幅有限,我们不再讨论出现比较早的RNNs、CNNs,而是主要介绍当前多用途的明星架构Transformer。
5)Transformer架构
Transformer是最初在2017年由Vaswani等人在论文《Attention is All You Need》中提出。它主要用于处理序列化数据,如文本或时间序列数据,特别在自然语言处理(NLP)领域内取得了革命性的进步。Transformer模型的核心思想是利用“自注意力(Self-Attention)”机制,使模型能够在处理序列数据时考虑序列中各元素之间的全局依赖关系。
其主要编码器和解码器构成:
解码器的作用是根据编码器的输出和先前生成的部分目标序列来逐步生成目标序列。解码器中的自注意力机制允许模型关注输入序列的不同位置,而编码器-解码器注意力机制允许模型在解码器的每个位置对编码器的输出进行注意力计算,以便获取输入序列的信息。
在 Transformer 模型中,每个编码器和解码器层都包含残差连接(Residual Connection)和层归一化(Layer Normalization)操作。这些操作有助于缓解深层模型训练时的梯度消失和梯度爆炸问题,并且有助于模型更好地训练和收敛。残差连接允许梯度更直接地反向传播,并且层归一化有助于稳定训练过程中的每一层的梯度流。
Transformer作为通用架构,不同与传统深度学习中具象化和关系复杂的自变量设置,而是将自变量泛化为:键向量(Key)、值向量(Value)和查询向量(Query),模型泛化可极大增加架构的通用性,且避免过度拟合。
在Transformer架构中驱动模型训练的机制是自注意力机制(Self-Attention Mechanism),自注意力机制允许模型在计算编码器和解码器的输出时,对输入序列的不同位置赋予不同的注意力权重。
具体而言,给定一个输入序列,自注意力机制计算出每个词与其他词之间的相关性,然后通过加权求和的方式得到每个词的表示。
这种机制使得模型可以同时关注输入序列中的所有位置,而不是像RNN一样逐步处理。自注意力机制帮助Transformer实现并行向量运算能力,从而充分发挥GPU的并行计算能力或分布式计算能力,从而大幅提高训练效率和训练数据量,这也是大语言模型(LLM)的基础。
为了进一步增强模型的表达能力,Transformer将自注意力机制分为多个头,即:多头注意力(Multi-Head Attention)。每个头学习一种不同的表示。最后,将多个头的输出拼接在一起并通过线性变换进行投影,得到最终的注意力表示。多头注意力由于同时考虑文字序列不同位置的相关性和语义信息,使得模型能够更好地理解输入序列中的各个部分之间的关系。
对Transformer最大的误解是认为它是一种神经网络。例如,某商业大佬就是说:“Transformer模拟了人脑神经网络”。Transformer是一种深度学习的训练架构,而非一种神经网络或算法,Transformer是利用前馈神经网络(Feedforward Neural Networks),实现向量矩阵的运算。在每个编码器和解码器的每个位置都有一个前馈神经网络。
该网络是一个全连接的前馈神经网络,用于在每个位置对注意力表示进行非线性变换。在实践中往往都是根据实际情况对Transformer的基础架构进行调整和优化,并非一成不变。
6) MoE—混合专家模型(Mixture-of-Experts)
MoE是一种采用人工神经网络的训练架构,最早由Jacobs 等人在1991年的论文《Adaptive Mixtures of Local Experts》中提出。其核心思想是一种将多个局部专家模型组合在一起的方法,以适应不同的输入数据分布,并且这些专家模型可以动态地分配权重。
在MoE中,每个专家模型都被训练来解决特定的子问题,而门控网络则是用来决定在给定输入情况下,哪个专家模型应该负责给出最终的输出。MoE出现时间较早,是为解决算法复杂性、提高训练性能、降低成本而提出的。
与Transformer不同,其架构充分利用GPU集群的分布式计算能力,将多任务执行从算法结构层面转移到GPU集群层面从而降低算法的结构复杂性。而马斯克刚刚开源的Grok-1就是采用这种架构。
Mixture-of-Experts架构的主要组成部分:
Mixture-of-Experts模型通过将多个专家模型组合在一起,并且通过门控网络动态地分配权重,可以提高模型的灵活性和适应性,从而在处理复杂的输入数据分布时取得更好的性能表现。
7)RLHF—人类反馈的强化学习(Reinforcement Learning from Human Feedback)
RLHF是一种机器学习一种方法和阶段,为避免最终训练输出的结果违背人类道德伦理、民俗习惯、社会规则和法律,在机器学习的最后阶段结合来自人类的反馈和强化学习(RL),以指导和优化人工智能模型的行为和决策。这种方法特别适用于在那些难以为机器提供明确、数学化的奖励函数的情况下,训练模型执行复杂或高度专业化的任务。
在传统的强化学习中,一个AI模型通过与环境互动,尝试最大化其所获得的累积奖励。这些奖励通常是预先定义好的,基于任务的目标。然而,在许多实际应用中(特别是生成式模型中),定义一个能够有效引导学习过程的奖励函数是非常困难的。
RLHF通过以下步骤解决这个问题:
RLHF的优点在于,它可以在没有明确数学形式奖励函数的情况下训练AI模型,使其在复杂环境中作出更接近人类期望和价值观的行为。这种方法被广泛应用于自然语言处理、游戏、机器人技术和其他需要复杂决策过程的领域。通过人类的直观反馈,模型可以学习执行抽象的、多样化的任务,同时减少不希望的行为或偏差的风险。
在当前人工智能领域中,GPT系列大模型作为自然语言处理的重要里程碑,展现了令人瞩目的文本生成和理解能力。然而,我们必须认识到,尽管GPT系列模型的表现卓越,其固有的局限性并不代表通用人工智能(AGI)的终极实现。
首先,研究显示,在复杂的逻辑推理和多步推断任务中,GPT模型可能表现不佳。虽然GPT可以生成流畅的文本,但在需要深入逻辑判断和跨领域推理的任务中,其表现可能有限。
复杂的逻辑推理和多步推断任务要求模型能够理解和操纵抽象概念、规则和关系。这些任务在人工智能领域中被视为挑战性任务,因为它们需要模型具备高级的符号推理和逻辑推断能力;GPT模型在语法和词汇上表现优秀,因其训练数据源自大规模文本语料库。
然而,在需要逻辑推理和推断的任务中,缺乏结构化数据和标签可能限制了GPT的表现,因而难以学习和理解抽象规则和逻辑关系;另一个挑战是跨领域推理,在现实世界中,许多任务可能涉及多领域的知识和信息,而GPT这类模型在跨领域推理方面可能受制于其单一领域的训练数据和知识范围,导致其推理能力受限。
其次,GPT模型在需要专业知识和精确推理的领域(如生物、医学、金融、法律等)中面临巨大挑战。在专业领域中,模型需要准确理解和运用领域特有的知识和术语,GPT等预训练模型可能无法完全掌握这些专业领域的复杂性和细节,导致其在特定领域任务中表现不佳;在特定领域的任务中,若训练数据受限或缺乏专业领域相关的数据,模型可能无法准确学习和理解该领域的概念和规则;特定领域对术语和语境的极高的精确性要求,GPT等模型目前可能难以准确处理这些领域的复杂信息和语言,导致理解和推理的准确性受到影响。GPT等通用模型可能在更具挑战性的专业领域任务中缺乏领域自适应性,无法有效应对领域内的复杂问题和需求。
最后,从长期发展来看,AGI的实现需要超越单一技术和单一领域的智能。AGI的实现要求模型能够综合利用不同感官数据和信息,包括视觉、听觉、触觉等多个感知层面。
GPT等模型虽在自然语言生成领域表现出色,但实现AGI需要整合多种感知数据,并具备跨模态智能处理能力,这超出了目前单一模态智能的范畴。
AGI还需要具备认知能力、规划决策能力等高级智能,要求模型能够思考未来、制定计划以及做出决策,这远比单纯的信息处理和生成更为复杂和综合。
AGI还需要具备长期记忆和持续学习的能力,以不断积累和更新知识,适应不断变化的环境和任务。
GPT等预训练模型可能在长期记忆和持续学习方面存在挑战,因其主要用于静态数据集的预训练。实现AGI需要模型能够在广泛领域和任务中表现出色,而不仅仅局限于特定任务或数据集。GPT等模型可能面临面向普适性通用性的挑战,因其训练数据和任务较为单一和特定。
这个问题激发了无数学者和研究人员、未来主义者的想象。
随着每一次AI技术的飞跃,这个话题都会被重新点燃,引起公众的热烈讨论。
尽管我们在特定领域内的人工智能(如图像识别、自然语言处理等)取得了显著的进展,但通用人工智能——一种具有广泛认知能力、能在各种任务上达到或超越人类水平的智能系统——仍然是一个遥远的目标。
评价AGI能力的量化指标涉及多种方法,每种方法都尝试从不同角度捕捉智能的某个方面。
以下是一些常见的评价方法:
这些评价方法通常需要结合使用,以全面地衡量AGI的能力和性能,更好地反映AGI在模仿人类智能方面的进步。
近年来,大型语言模型和多模态AI模型的发展让我们对达到AGI的可能性有了更多的希望。例如,ChatGPT、Claude、Gemini等模型,其具备在多模态情境下理解和生成信息的能力,标志着我们在模拟人类的认知和理解能力上迈出了重要一步。
然而,尽管这些模型在各自的领域内表现出色,它们依然缺乏人类智能的灵活性和通用性。
这些模型在特定任务上的表现虽然令人印象深刻,但在面对未曾训练或完全不同类型的任务时,其性能会大幅下降。
目前,我们尚未完全理解人类智能的工作原理,包括我们如何学习新技能、如何进行抽象思考,以及我们的智能是如何在如此广泛的任务中展现出灵活性和适应性的。没有这些理论基础,我们很难设计出能模拟这些能力的AI系统。
此外,当前的AI系统大多依赖大量数据进行训练,而这种方法在达到真正的AGI时可能不再适用。
Yann LeCun(杨立昆)认为智能行为的核心特征包括理解物理世界、记忆与检索信息的能力、持久记忆、推理能力和规划能力,而自回归式大语言模型在这五个方面均表现不足或仅能实现初级功能,它们无法真正理解和模拟物理世界,不具备持续的记忆和深入的推理机制,也无法进行有效的规划。
一个具备广泛智能和自主能力的系统可能会产生无法预测的行为,这对于确保这些系统能够以符合人类价值观和安全要求的方式行动至关重要。如何设计这样的系统,以及如何确保它们的行为不会对人类或环境造成不利影响,是我们在迈向AGI的道路上必须面对的问题。
Geoffrey Hinton认为,数字智能终将取代生物智能。在接受了海量网络信息训练的AI会比人类更聪明,因而能够轻易操纵人类——这是超级智能接管人类控制权的路径之一。
通用人工智能(AGI)在运行和发展过程中需要大量的电力支持,算力竞争的背后是能源竞争。
ChatGPT每天需要响应大约2亿个请求,其背后的GPT大语言模型(LLM)在训练和运行过程中消耗了大量的电力。据估计,ChatGPT每天消耗的电力超过50万度,相当于1.7万个美国家庭的日均用电量。
而OpenAI CEO Altman就公开表示:人工智能行业正在走向能源危机。特斯拉CEO马斯克此前预计,AI下一阶段将会是“缺电”。
在爱尔兰,仅70个数据中心就消耗了全国14%的能源。到2030年,预计全球30-50%的生产电力将用于AI计算和冷却。
在人工智能领域中,通用人工智能(AGI)、大型语言模型(LLM)、Transformers、扩散模型(Diffusion Models)和人类反馈的强化学习(RLHF)等技术之间存在着紧密的联系和相互作用,共同推动这一领域的进步。
AGI代表了AI的终极目标,即在各种任务和环境中展现出与人类类似的适应性和灵活性。虽然我们距离实现AGI仍有很长的路要走,但当前的进展和研究为这一终极目标奠定了基础。这些技术的融合和发展,不仅扩展了我们对AI能力的理解,也为攻克复杂问题开辟了新途径。
特别是,通过结合Transformers的模型架构,扩散模型的生成能力,以及RLHF的细致调优,我们已经能够创建出更为高效和灵活的模型。这些模型在理解语言、生成内容、解决问题等方面的能力越来越接近人类的思维模式。
随着这些领域的不断深入,我们对于实现AGI的路径也将更加清晰,为未来的科技革命铺平道路。
参考文献专栏作家
黄锐,人人都是产品经理专栏作家。高级系统架构设计师、资深产品经理、多家大型互联网公司顾问,金融机构、高校客座研究员。主要关注新零售、工业互联网、金融科技和区块链行业应用版块,擅长产品或系统整体性设计和规划。
本文原创发布于人人都是产品经理,未经许可,禁止转载。
题图来自Unsplash,基于 CC0 协议。
该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。
Copyright © 2024 妖气游戏网 www.17u1u.com All Rights Reserved