在学AIGC之前,你需要解锁这些基础姿势

在学AIGC之前,你需要解锁这些基础姿势

首页战争策略一统天下2023更新时间:2024-06-12
研究AIGC的目的

每天在电梯上等待、在食堂打饭,甚至周末在外面浪的时候都能听到ChatGPT、AIGC这些名词,刚开始对这些东东完全不上心,听听就得了,和我的日常工作又没什么关系!直到有个喜欢的妹子过来问我:你能用AIGC帮我生成一套性感写真吗?这个时候我才意识到这些东西竟然还能讨妹子欢心!于是业余时间花了大量精力(果然金钱和女色才是人类进步最原始的动力>_<)恶补了相关知识并努力学习AI绘图,现分成几个章节把我学习的过程整理出来,分享给和我一样有把妹需求,额不对是学习先进知识的兄弟,大家一起学(ba)习(mei),共同进(pao)步(niu)。

前言

在开始了解AIGC之前你一定要知道的:

80年前科幻大师阿西莫夫提出的“机器人三定律”:

80年前科幻大师阿西莫夫提出的“机器人三定律”:

1. 机器人不得伤害人类,或坐视人类受到伤害。

2. 除非违背第一定律,否则机器人必须服从人类命令。

3. 除非违背第一或第二定律,否则机器人必须保护自己。

2023年OpenAI的CEO Sam Altman发文阐明的OpenAI三原则:

1. 希望AGI能够赋予人类在宇宙中最大程度地繁荣发展的能力。

2. 希望AGI的好处、访问权和治理得到广泛和公平的分享。

3. 希望成功应对巨大风险。在面对这些风险时,理论上似乎正确的事情在实践中往往比预期的更奇怪。

AGI是什么

AGI 是 Artificial General Intelligence 的缩写,即通用人工智能,这意味着 AI 可以像人类一样理解任意提出的问题(通用任务),并以人类的智力水平执行完成。可以这么说吧, 除了“自我意识”的生成,AGI 就是人类对人工智能的终极梦想了!无论是近来火爆的 AI 绘画,还是当红炸子鸡 ChatGPT,AI 研究应用的终极目标都是向着 AGI 通用人工智能的大一统目标在迈进。说不定未来某一天斯皮尔伯格拍的《人工智能》里面的情节就会真实的出现在我们身边。

AGI进化编年史

在进一步解锁各种姿势前,你最好了解下整个AI的历史:

人工智能发展简史

AIGC是什么

AIGC 即 AI Generated Content,是指利用人工智能技术来生成内容,AIGC被认为是继专业生产内容(PGC,professional-generated content)、用户生产内容(UGC,User-generated content)之后的新型内容创作方式,可以在创意、表现力、个性化等方面充分发挥技术优势。AIGC 的本质是一种用深度学习算法生成新数据的 AI 技术。生成式 AI 使用神经网络,它们仿照人脑的生物神经元结构并通过大量数据学习来完成指令任务。

图:生物神经元(左)与人工神经元(右)对比

早期的 AIGC 技术主要依据既定的模板或规则,进行简单的内容输出,与灵活且真实的内容生成还有很大的差距。近年来深度学习的快速发展带来深度神经网络技术在大模型和多模态两个方面的不断突破。

举个吧,之前我们所谓的人工智能客服都是按照事先设计好的话术进行交流,一旦超出规定场景和语境,智能客服就变得很尴尬。AIGC 和他们的本质区别在于开始有自己的“思想”了,并且可以通过学习进化,当然我们说的这种“思想”也是由人来引导的,并不是真正的“意识”。

AIGC 牛逼的地方在于他的“学习”能力,不再是以前的死记硬背,他已经进化出了某种程度的学习能力,可以对你的输入(通用任务)进行逻辑分解,然后去“理解”你的输入,最终以人类的智力水平执行完成。

LLM是什么

LLM 是 Large Language Models,即大规模语言模型的缩写,我们日常吹逼中说的 GPT-3 就是一个大语言模型。

大语言模型的本质:性能强大的无损压缩器!

LLM = Compression

之前我们普遍认为“学习”是一种人类特有的才能,机器无法真正地掌握“学习能力”。但是随着深度神经网络技术的发展,人们通过构建“人工神经元”来模拟大脑中的“生物神经元”,从而使得机器开始具备一定的学习能力。OpenAI得出了关于“学习”的最新结论: “学习”这件事本身,可以理解为对有效信息进行无损压缩的过程。

举个吧: 假设我们需要搭建一个模型,用来处理英译中的翻译任务。最简单粗暴的方式,就是列举出每个英文单词对应的中文,即rule-based mapping。假设我们枚举完了所有英文单词的中文对照表,写出了一本1000页的词典。通过这本词典我们对遇到的每个英文单词挨个翻译,那么这样我们真的可以完成英译中的翻译任务吗,答案肯定是不行的,因为基于规则的映射系统是非常脆弱的,只要在翻译过程中遇到一个之前没有遇到过的新单词,系统就崩溃了,而且就算没有遇到新单词,这样翻译出来的句子也是很“洋泾浜”的,甚至和本意完全不同!所以我们得出这样的结论:这个模型的翻译性能是很弱的,甚至可以认为“该模型没有真正学会翻译”。

那么重点来啦,我们通过“一些手段”把这本1000页的词典,“无损压缩”成一本200页的学习手册。字数减少了,但是信息量不能少,不能简单地从1000页中抽取200页构成一本“小词典”,而需要通过对数据进行高维编码,从而实现无损压缩。经过压缩后的这本200页的手册中,不再是简单的单词映射,而是包含了主谓宾、定状补、虚拟语气、时态、单复数在内的英语语法。相比于一本“词典”来说,它更像是一本“教材”。

图:数据压缩的过程本质上是对任务的理解和学习的过程

通过把一本1000页的词典压缩成一本200页的手册,模型“学会”了英语语法,掌握了英译中的知识。 通过这个例子,不难发现:学习的本质,可以理解为对有效信息进行无损压缩的过程。压缩率越大,学习的效果就越好。

因此基于GPT的大语言模型就是性能卓越的数据压缩器语言模型的本质,是不断预测下一个词的概率分布,从而完成生成式任务。如果模型对下一个词的预测更加准确,就意味着其对知识的理解更深,从而获得对这个世界更高的分辨率。

通过上面的例子我们知道LLM发展的目标就是不断提升对有效信息的压缩率。为了达成这个目的他就要不断“学习”,那么如何获取尽可能多的有效信息,就成为了一个重要命题。如果把人类已获得的全部知识看作一座冰山,那么以“文本”为载体的数据只是冰山一角,而以“图像”、“视频”为载体的数据才是人类知识真正的富矿这也是GPT-5会基于海量互联网视频进行学习的原因。具体而言,如果给模型“看”大量的天文观测视频,模型有可能学习出一个隐式的开普勒定律;给模型“看”大量的带电粒子运动轨迹,模型可能会学习出洛伦兹力的数学表达;当然给模型“看”大量的*片,模型大概率会成为91大神>_<

虽然人类社会早已进入了大数据时代,全球有大量的数据资产,但是LLM所需的训练集膨胀速度更快根据预测,到2026年文本数据将被训练完,2040年图像数据将将被训练完。

图:大语言模型对互联网存量数据消耗的预测

这对于“大力出奇迹”的大语言模型来说,并不是个好消息。如果训练集体量不够,模型便无法继续升级,从而不断提升性能天花板。当然解决方案也是有的:“合成数据”成为了重要的破局方法。顾名思义,“合成数据”(Synthetic Data)指的是通过算法(代码)生成的训练集,而非从现实世界中采集到的样本。根据预测,2026年模型训练数据中的50%将由合成数据构成;2030年合成数据的质量将全面超过人类标注的真实数据。

有一个非常有趣的假设:GPT-3.5系列思维链能力的“涌现”,除了达到千亿参数的基础条件外,使用合成数据(代码)进行训练也是一个必不可少的前提!

所以合成数据领域的突破,可能成为AGI跨过奇点的重要里程碑!如果合成数据的质量能够全面超越人类标注的质量,那么未来AGI便可以不断地自我迭代,进化的速度会大幅提升。真到了那个时候,我们人类可能就成为AGI的启动脚本(Boot Loader)了马斯克曾在2014年做出预言,他认为从“物种进化的尺度”来看, 以人类为代表的“碳基生命”可能只是以“AI”为代表的“硅基生命”的启动脚本。这个预言令人毛骨悚然。放在14年那会儿,绝大部分人会认为这是危言耸听。但是当下我们再回头看这个判断,不难发现这与“合成数据”的发展目标不谋而合。说不定未来某一天地球被硅基生命占领了(其实我还蛮期待那一天的,我相信真有那一天我肯定是琼恩.康纳>_<)

Transformer是什么

颠覆性的深度学习架构,使用自注意力机制进行编码和解码的深度学习模型,能够处理长序列数据

Transformer是一种新型的神经网络架构,用于处理自然语言任务,比如机器翻译和文本生成。它的特点是能够同时考虑输入序列中所有位置的信息,并且具有非常好的并行化性能。它使用了自注意力机制进行序列建模的神经网络架构,也采用了残差连接和层归一化等技术,以加快模型收敛速度和提高模型的泛化能力。

所谓“自注意力机制”,简单说就是只关心输入信息之间的关系,而不再关注输入和对应输出的关系。和之前大模型训练需要匹配的输入输出标注数据相比,这是一个革命性的变化。Transformer彻底抛弃了传统的CNN(卷积神经网络)和RNN(循环神经网络)等神经网络结构。在这之前,主流AI模型都基于CNN和RNN的,Transformer出来之后便和秦始皇一样一统天下!

图:Transformer简易工作原理

从上图可以看出整个Transformer是一个黑盒,他完成了整个“变形转换”工作,我们进一步展开这个黑盒:

图:Transformer内部结构

从上图可以看出整个整个Transformer内部其实就是两个东西:Encoders和Decoders,注意是“s”也就是一系列的coder集合,具体再展开如下图所示:

图:Transformer内部工作原理

什么是:“自注意力机制”呢?

简单理解就是一种能够在序列中捕捉每个位置之间相对关系的机制。自注意力机制可以用于学习单词之间的依赖关系,从而更好地理解和生成自然语言。

举个:我们可以把序列中的每个元素(单词)简单地比喻成人,自注意力机制就像是一个排排坐的游戏。在这个游戏中,每个人都要考虑和其他人的关系,以确定自己在整个模型中的重要性。

具体来说,我们可以让每个人和其他人进行比较,计算它们之间的亲密度(相似度)。亲密度高的人就会获得更高的权重,表示他们在序列中更为重要。这个过程就像是每个人在考虑自己周围的人时,会对跟自己亲密度更高的人给予更多的注意力。最终,所有人都会根据它们的权重被重新组合,形成一个新的序列表示。这个表示会保留序列中每个人的信息,并且会把更多的注意力放在那些与其他人有更紧密关系(相似度高)的人身上

BERT是什么

使用掩码语言模型和下一句预测任务进行训练,能够在不同的自然语言处理任务中取得良好的效果,用学习一门语言打比方:Bert可以自己进行小测验,测验时会自己翻字典,来做填空题,人类适当地进行修正

BERT(Bidirectional Encoder Representations from Transformers)是一种基于Transformer架构的预训练语言模型它使用大量未标记的文本进行预训练,然后使用标记的数据进行微调

图:BERT masking

BERT的特点在于它可以双向地处理输入序列,从而更好地捕捉上下文中的语义信息。BERT模型的输入是两个序列,一个序列作为模型的输入,另一个序列作为模型的输出,模型需要判断这两个序列是否相互关联。这个过程被称为下一句预测任务。此外,BERT还使用了掩码语言模型,其中模型在输入序列中随机地掩盖一些单词,并要求模型预测这些被掩盖的单词。这个训练任务有助于模型更好地理解语言中的上下文信息。

什么是掩码技术(masking)

简单理解就是在做一种语言填空练习,就像我们在学校里做英语完型填空题一样>_<

在这种练习中,Bert会随机选择一些文本中的词汇并进行屏蔽(就像把填空题的空格用一条横线代替一样)然后根据上下文和语法规则来“猜测”被屏蔽的词汇,就像我们需要根据句子的意义和语法规则来猜测填空题的答案一样。经过不断的反复练习,Bert就变成了一个无情的做题狂魔了。

GPT是什么

基于自回归模型的语言模型,能够生成连贯、自然的文本内容,用学习一门语言打比方:GPT类似于写命题作文,他可以自己理解命题的题意(也就是语文老师说的审题),自己找论据,结合论据上下文,完成作文

GPT(Generative Pre-training Transformer)是一种使用自回归模型进行语言建模的预训练模型,和Bert一样它也采用Transformer架构,并使用了大量未标记的文本进行预训练

GPT的特点在于它能够自动地生成自然语言文本,可以用于文本生成、对话系统等任务。它采用了无监督的预训练方法,不需要人工标注的数据,可以更好地利用现有的大规模文本语料库。它的独特之处在于它具有非常大的参数量和深度,能够学习到更多的语言知识,并生成更加自然的文本。

GPT模型的输入是一个文本序列,目标是生成与输入序列相关的下一个单词或单词序列。在GPT中,每个单词的表示都是通过自回归模型计算得到的,这个模型会考虑前面所有的单词,以及它们对应的位置,来预测下一个单词。

什么是自回归

简单理解就是画连环画,一个人在画连环画的时候,每一页都是前一页的延续。也就是说,需要看了前一张画才能知道下一张该画什么。类似地,自回归模型中的每个时间点都需要前一个时间点的信息才能计算出当前时间点的输出值,这样才能不断的迭代下去,自回归模型中各个时间点之间存在着紧密的联系和依赖关系,这种联系在预测时间序列数据时非常有用。

涌现能力是什么

2022年6月15日,谷歌研究院联合DeepMind和斯坦福大学等在arxiv上发表了一篇论文:《Emergent Abilities of Large Language Models(大语言模型的突现能力)》。这篇文章对过往文献结论做了整理,研究了5个语言模型系列(谷歌 LaMDA,PaLM 和 OpenAI 的 GPT-3,以及 DeepMind 的 Gopher,Chinchilla )的8种涌现能力。如下所示:

图:大预言模型的涌现能力

其核心要点是:

  1. 大模型拥有复杂推理和思维链能力。所谓思维链,是指在输入里写出示例的具体推断步骤,大模型就可以实时学习这个推理(并不需要重新训练)并给出相仿示例的正确答案。并且大模型可以拆解复杂的推理步骤一步步得到最终结果,这有点像福尔摩斯和柯南的能力>_<
  2. 思维链能力是突然“涌现”的,如上图,当参数规模超过千亿时,思维链能力就指数级爆发了。
  3. 参数达到千亿以上的大模型才可能拥有强大的思维链能力,但是这只是必要条件:有些千亿参数大模型也没能展现出思维链能力。

事实上,根据OpenAI的内部研究,初始版本的GPT-3思维链能力也很弱,而以code-davinci-002为基础的GPT-3.5版本系列则体现了很强的思维链能力。

有一个非常有趣的假设是:GPT-3.5系列思维链能力的“涌现”,除了达到千亿参数的基础条件外,使用代码进行训练也是一个必不可少的前提。其实这个假设对于我们码农来说很容易接受:程序代码语言本身就特别强调逻辑严密性,而且上下文清晰没有混淆之处(这里特指那些“好”的代码……)所以,如果说学习“好的代码”能提高人类或者AI的逻辑思维和推理能力,程序猿们一定不会反对这种看法的哈哈哈。

ChatGPT是什么

ChatGPT是由总部位于旧金山的初创公司OpenAI开发的人工智能聊天机器人。

OpenAI于2015年由Elon Musk和Sam Altman 共同创立,并得到了微软的资金支持。

ChatGPT是生成式人工智能里面的当红炸子鸡。他允许用户输入书面提示并接收AI人工智能生成的新的类人文本或图像和视频。说的再直白点就是他可以对用户请求做出类似人类的响应——从威廉莎士比亚风格的诗歌到为出游计划做些什么的建议。

非常有意思的是,ChatGPT并不在OpenAI原本的产品路线图上,完全是无心插柳的结果。OpenAI原来的小算盘是为了进一步改进GPT-3系列模型,需要走RLHF(从人类反馈中强化学习)的路子。为了让AI能持续和人类沟通来不断反馈完善模型,搞出了一个聊天机器人,本意是用来收集用户反馈的(一个和AI聊天的软件当然是最好的用户测试接口啦)。

基于这么一个简单的理工男思路,从2022年初开始,团队开始打造ChatGPT。然后,然后就打造出了一个惊世骇俗的AI产品:ChatGPT!

ChatGPT的特点:

  1. ChatGPT具有很强的逻辑推理能力,能拆解复杂的内容,分成多个步骤进行推理,得到最终答案。这也就是“思维链”级别的推理能力。
  2. ChatGPT可以主动承认错误,听取用户意见,并优化答案。
  3. ChatGPT可以质疑不正确的问题,可以承认自身对专业技术的不了解。

ChatGPT的局限性:

  1. 一本正经胡说八道:ChatGPT有很强的“创造可信答案”的倾向,会给出有误导性的回答。而且错误隐蔽在正确的信息之中,难以发现。这和生成式AI的本性有关:AI倾向于生成一个看起来正确的内容。然而,和AI绘画输出有点小问题无伤大雅的性质完全不同,这或许是文字生成式AI在应用上最致命的问题:如无法确保输出的100%正确性,那么其实际应用价值将大打折扣。
  2. 输出对问题措辞敏感:同一个问题,调整提问的方式,可能会得到不同的回答。这意味着输出结果还不够稳定。
  3. 缺少垂直领域知识:这倒是给我们的好机会:可以基于ChatGPT系统打造专属的垂直领域大模型:例如成人AV。
  4. 算力昂贵:千亿参数级别的模型,即使是跑模型应用(不是模型训练,模型训练一次就要上千亿美刀),也需要大量算力,当然喽,这绝对是各大云计算厂商的好机会。
名词解释

整理了下常见的AI术语缩写,随时随地整几个词儿,可以让你显得更Professional

NLP:自然语言处理(Natural Language Processing)

CV:计算机视觉(Computer Vision)

ASR:自动语音识别(Automatic Speech Recognition)

ML:机器学习(Machine Learning)

RL:强化学习(Reinforcement Learning)

DL:深度学习(Deep Learning)

AI:人工智能(Artificial Intelligence)

ANN:人工神经网络(Artificial Neural Network)

RNN:循环神经网络(Recurrent Neural Network)

CNN:卷积神经网络(Convolutional Neural Network)

GAN:生成对抗网络(Generative Adversarial Network)

DQN:深度Q网络(Deep Q-Network)

LSTM:长短期记忆(Long Short-Term Memory)

GPU:图形处理器(Graphics Processing Unit)

CPU:中央处理器(Central Processing Unit)

API:应用程序编程接口(Application Programming Interface)

IoT:物联网(Internet of Things)

AR:增强现实(Augmented Reality)

VR:虚拟现实(Virtual Reality)

LLM:大型语言模型(Large Language Model)

BERT:Bidirectional Encoder Representations from TransformersGPT:Generative Pre-trained Transformer

参考资料

https://ai.googleblog.com/2017/08/transformer-novel-neural-network.html

http://jalammar.github.io/illustrated-transformer/

https://zhuanlan.zhihu.com/p/82312421

https://m.huxiu.com/article/808540.html?type=text

查看全文
大家还看了
也许喜欢
更多游戏

Copyright © 2024 妖气游戏网 www.17u1u.com All Rights Reserved