大预言模型是怎么被训练出来的?

大预言模型是怎么被训练出来的?

首页角色扮演人类训练师游戏更新时间:2024-05-07

这是OpenAI用来训练像ChatGPT这样的模型的训练流程的简化版:

1. 预训练(Pretraining)阶段:在这个阶段,模型在互联网上的大量原始文本上进行训练,试图预测下一个单词。这些文本来自各种来源,包括书籍、网页等。预训练的模型(基础模型)能够理解和生成文本,但可能缺乏一致性和目标导向。这个阶段的训练需要大量的计算资源(例如,数以千计的GPU)和相当长的时间。

2. 监督微调(Supervised Finetuning)阶段:在这个阶段,人类训练师提供特定的问题和答案对,模型试图预测这些训练师的回答。这可以帮助模型更好地理解如何回答各种问题。这个阶段所需的训练数据相对较少,但需要高质量的输入。得到的模型(SFT模型)可以直接部署。

3. 奖励建模(Reward Modeling)阶段:在这个阶段,人类训练师将对模型生成的不同回答进行比较,并确定哪一个更好。这些比较数据将用于训练一个模型来预测训练师的偏好。这个阶段所需的数据相对较少,但需要高质量的输入。

4. 强化学习(Reinforcement Learning)阶段:在这个阶段,模型将使用在上一阶段训练的奖励模型来生成更好的回答。模型会尝试生成那些能获得高奖励的回答。得到的模型(RL模型)可以直接部署。

这个流程需要大量的计算资源和时间,但通过这个流程,OpenAI能够创建出能回答各种复杂问题的强大的聊天助手。

查看全文
大家还看了
也许喜欢
更多游戏

Copyright © 2024 妖气游戏网 www.17u1u.com All Rights Reserved