五分钟看懂ChatGPT（人类训练师）

1、ChatGPT是什么

ChatGPT 是一个基于语言模型 GPT-3.5的聊天机器人， ChatGPT模型是Instruct GPT的姊妹模型(sibling model)，使用强化学习和人类反馈来更好地使语言模型与人类指令保持一致。

2、GPT起源

Generative Pre-Trained Transformer (GPT) 是一系列基于Transformer 的深度学习语言模型。 OpenAI于2018年6月在题为《Improving Language Understanding by Generative Pre-Training》的论文中提出了第一个 GPT 模型 GPT-1。从这篇论文中得出的关键结论是， Transformer 架构与无监督预训练的结合产生了可喜的结果。 GPT-1以无监督预训练有监督微调的方式——针对特定任务进行训练——以实现“强大的自然语言理解”。

2019年2月， OpenAI发表了第二篇论文“Language Models are Unsupervised Multitask Learners” ，其中介绍了由GPT-1演变的GPT-2。尽管 GPT-2大了一个数量级，但它们在其他方面非常相似。两者之间只有一个区别： GPT-2可以完成多任务处理。 OpenAI成功地证明了半监督语言模型可以在“无需特定任务训练”的情况下，在多项任务上表现出色。该模型在零样本任务转移设置中取得了显著效果。

随后，2020年5月，OpenAI发表《Language Models are Few-Shot Learners》，呈现GPT-3。GPT-3比GPT-2大100倍，它拥有1750 亿个参数。然而，它与其他 GPT 并没有本质不同，基本原则大体一致。尽管 GPT 模型之间的相似性很高，但 GPT-3的性能仍超出了所有可能的预期。 2022年11月底，围绕ChatGPT机器人， OpenAI进行了两次更新。 11月29日， OpenAI发布了一个命名为“text- davinci-003” (文本-达芬奇-003”)的新模式。在11月30日发布它的第二个新功能：“对话”模式。它以对话方式进行交互，既能够做到回答问题，也能承认错误、质疑不正确的前提以及拒绝不恰当的请求。

3、工作原理 • 概述

使用机器学习算法来分析和理解文本输入的含义，然后根据该输入生成响应。该模型在大量文本数据上进行训练，使其能够学习自然语言的模式和结构。

• 细节

ChatGPT 模型使用一种称为人类反馈强化学习 (RLHF) 的机器学习进行训练，可以模拟对话、回答后续问题、承认错误、挑战不正确的前提并拒绝不适当的请求。为了创建强化学习的奖励模型， OpenAI收集了比较数据，其中包含两个或多个按质量排序的响应模型。为了使生成的文本更容易被人理解， OpenAI招募了人类训练师，在训练过程中，人类训练师扮演了用户和人工智能助手的角色。模型在Microsoft Azure的超算设施上进行训练。

ChatGPT模型的训练过程与其前身RLHF非常相似：

①使用有监督的微调训练初始模型：人类训练师之间提供对话，其中一个扮演用户，另一个扮演ChatGPT 中的 AI 助手。为了创建强化学习的奖励模型，需要收集比较数据，并使用收集到的数据调整 GPT-3.5模型；

②模型会根据提示生成多个输出，训练师将 ChatGPT 编写的回复与人类的回答进行比较，并对它们的质量进行排名，以帮助强化机器的类人对话风格。奖励模型将自动执行最后一个训练阶段，使用排名后的数据训练；

③在最后一步使用近端策略优化进一步调整，这是OpenAI 广泛使用的强化学习技术。

4、谁出的

ChatGPT由OpenAI开发，采用基于GPT-3.5架构的大型语言模型。 OpenAI 是一家位于旧金山的研究实验室，成立于2015年，由其首席执行官SamAltman、Elon Musk以及风险投资家Peter Thiel等人共同出资10亿美元建立。 OpenAI的诞生旨在开发通用人工智能(AGI)，并确保其成为一种高度自主、且在大多数具有经济价值的工作上超越人类的系统。而GPT正是OpenAI通过文字模态来探索通用人工智能的一种方式。

• OpenAI研究方向训练生成模型(Training Generative Models) 从数据中推断算法(algorithms for inferring algorithms from data) 强化学习的新方法( new approaches to reinforcement learning) 大致代表了以下三个研究主题： Deep Generative Model 深度生成模型 Neural Turing Machine 神经图灵机 Deep Reinforcement Learning 深度强化学习

5、OpenAI近况研究进展

2022年11月， OpenAI 向公众开放了使用对话进行交互的ChatGPT；

2022年9月， OpenAI发布了一个名为Whisper 的神经网络，称其在英语语音识别方面能够接近人类水平的鲁棒性和准确性。 Whisper 是一种自动语音识别 (ASR) 系统，使用从网络收集的68万小时、多语言和多任务监督数据进行训练；

2021年， OpenAI 宣布将通过 API 向企业和开发者提供访问其 Codex 程序的机会。 Codex是一种基于GPT-3的自然语言代码系统，有助于将简单的英语指令转换为十几种流行的编码语言；

2021 年 1 月， OpenAI 推出了DALL-E。一年后，他们的最新系统 DALL · E 2 生成了更逼真、更准确的图像，分辨率提高了4倍。投融资 OpenAI最近一次融资在2019年，获得微软10亿美元的投资。此外， OpenAI也在进行对外投资，去年推出Start Fund，与合作伙伴(包括微软)一同投资处于早期阶段地专注于能使AI在领域内(如气候变化、医疗、教育等) 产生变革性影响的公司。

目前， Start Fund已投资4家公司，分别是Descript、Harvey AI、Mem和 Speak，它们在大规模重塑创造力、辅助律师工作、提高知识工作者的生产力和教育方面具有巨大潜力。

6、能做什么

• 能够响应用户输入并生成类似人类的文本

• 可以与用户交谈并以与主题和情况相关的方式进行响应

• 可以生成多种格式和样式的文本，例如段落、列表和要点

• 可以提供时事(实时性较弱)、历史、科学等各种主题的信息

• 可以帮助程序员调试代码或给出建议

7、为什么火

据 OpenAI 总裁格雷格·布罗克曼称，在五天内，超过一百万人报名参加了ChatGPT测试。这是第一次，任何人都可以在 OpenAI 的网站上轻松地使用聊天机器人，能够满足更多元的用户需求。

此外，它的回答与其他聊天机器人相比，有更丰富的细节和更长的篇幅，对于一些学术性问题它甚至可以直接作为考试中开放性问题的答案，或生成一篇小论文。

通过与ChatGPT互动，你可以像使用搜索引擎一样使用ChatGPT，有推特网友称“它比谷歌还好用”，比如它能够解释为什么某个笑话更有趣，或就如何解决特定的编程错误提出建议；

你可以像使用文本生成器一样使用它，它能够创建大量清晰、合理但略显中规中矩的文本；对于创作者来说， ChatGPT还可以帮助他们突破创作瓶颈，用户可以从中汲取灵感，请求重新措辞、总结或扩展，然后完善到自己的内容中。按照ChatGPT自己的回答，“它是适用于任何任务的工具，智能且快速；

8、价值

通过允许用户以更像人类的方式与 AI 进行交流， ChatGPT 可以帮助使 AI更易于访问和用于更广泛的应用程序。这有助于依赖自然语言处理的任务的效率和准确性，例如语言翻译、文本摘要和信息检索。此外，通过为 AI 提供更直观、更人性化的界面， ChatGPT 可以帮助拉近 AI与用户的距离，降低对技术不熟悉的用户的学习成本。总的来说， ChatGPT 旨在通过提高人工智能的可用性和有效性来帮助人类。

• 来自ChatGPT自己的回答

1. 大型语言模型很可能会继续在社会的许多不同领域发挥越来越重要的作用。例如，它们可用于改进客户服务、语言翻译和内容审核等领域的自然语言处理。它们还可用于生成个性化内容和推荐，例如个性化新闻文章或个性化产品推荐。

2. 在政治治理方面，大型语言模型可用于帮助自动分析大量文本数据，例如立法或政策文件。这可能有助于提高决策过程的效率和有效性。

9、ChatGPT利弊分析

利：

增强的用户体验

ChatGPT能够输出更加类人的回答，概括来讲，类人的表达体现在能够对用户的问题做出质疑；能够撰写看起来逻辑缜密的长篇幅回答(准确度有待提升)；更加温和的回答等。同时，由于ChatGPT具有记忆能力，可实现连续对话，提升了用户在聊天过程中的体验。

弊：

成本过高

开发成本 GPT到GPT-2到GPT-3，在算法模型并没有太大改变，但参数量从1.17 亿增加到1750亿，预训练数据量从5GB 增加到45TB，其中GPT-3训练一次的费用是460 万美元，总训练成本达1200万美元。对于想要复刻的公司来讲，开发成本是主要的门槛。

10、企业使用成本

根据OpenAI创始人SamAltman描述， ChatGPT单轮对话平均费用在 0.01-0.2 美元，我们将不得不在某个时候以某种方式将其货币化，计算成本太大。据悉，小冰公司大致计算过使用ChatGPT的成本，按照小冰公司所用框架当前的对话交互量，如果使用ChatGPT 方法每天的成本将高达3亿元，一年成本则超过1000亿元。对于应用侧的企业来讲，在商业化的过程中必须在人工成本与机器成本之间做出选择，以目前ChatGPT高达数千亿的成本来说，尚且难以被纳入下游企业的商业化选择。

11、技术局限

①GPT-3.5仅依赖于其训练数据中的统计规律，且不会在网络上抓取时事信息(对比谷歌)，使得它的一些回答略显陈旧。由于2021年之后它的训练数据更加稀疏，它对这个时间点之后的世界了解有限，在输出的准确性上也会有所降低；

②ChatGPT的认知建立在虚拟训练文本上，没有跟实时数据库或信息连接，还会导致一个较为严肃且已经被使用者印证的问题： ChatGPT在某些问题的回答上会出现致命性错误，看似有逻辑地表达实则为错误的信息输出。正是这种看似有逻辑的表述风格，可能会误导使用者在缺乏知识背景的情况下将其回答视为“正确答案”。对于学者或是教育领域的从业者来说，这种错误将对学术研究或学生认知造成负面影响；

③ChatGPT 的奖励模型围绕人类监督而设计，可能会过度优化。训练数据也影响了ChatGPT的写作风格，它喜欢对所有内容进行冗长的回复，经常重复使用特定的短语；

此外，训练数据也可能存在算法偏差，例如输入一个涉及CEO 的提示，可能会得到一个假设此人是白人男性的回复。和所有NLP模型一样，由于其知识库受限于训练数据， ChatGPT可能产生负面、不准确甚至言语过激的内容。因此， ChatGPT使用 Moderation API 来警告或阻止某些类型的内容，尽可能减少不正确或荒谬的答案。

12、未来展望

• 商业前景广泛

ChatGPT具有较为广泛的商业前景，将推动众多行业的变革，有望在AIGC、客户服务、教育、家庭陪护等领域率先落地。今年无疑是AIGC备受关注的一年，而ChatGPT模型的出现对于文字模态的 AIGC 应用更是具有重要意义。未来，与图形模态的AIGC相结合，有望打造从文字描述到图片生成的AI创作辅助工具。

根据我们的调研，目前业内从业者对于ChatGPT仍保持观望态度，一方面在持续考量模型的准确性以及与其所在领域的适配度；另一方面，多数企业也受制于GPT模型的高成本，在商业化上持较为谨慎的态度。

• 成为技术生态

ChatGPT将会成为一个技术生态，但它所学习的是互联网上公有域的知识，不能解决具体行业企业的个性问题。因此，更多创业公司应该在AI技术基础上，提出更贴近客户具体需求和痛点的解决方案和产品。

例如，作为虚拟人公司，可以针对医疗、银行等某个行业中的企业，单独形成解决方案，再用ChatGPT等AI技术将对应的私有化知识加进去进行模型训练，从而解决实际问题。