GPT-2:OpenAI的NLP商业化野望

GPT-2:OpenAI的NLP商业化野望

首页休闲益智2048 Fishing更新时间:2024-07-16

文章回顾了近几年NLP的升级历程,从三个阶段的发展带我们梳理了NLP演进的脉络。

自然语言处理(NLP)技术正在生活的方方面面改变着我们的生活。客厅的智能音箱在跟你每天的对话中飞速进步,甚至开始跟你“插科打诨”来适应你的爱好习惯。

由果溯因,我们希望简单回顾近几年NLP的跃迁升级,沿着这条技术洪流一直溯源。回到水源充沛、水系林立的技术源头,来理解NLP演进的脉络。

NLP两强争霸:OpenAI与GPT-2的“倔强”进击

关注NLP的人们一定知道,2018年是NLP领域发展的大年。2018年6月,OpenAI发表了题为《Improving Language Understanding by Generative Pre-Training》的论文,提出基于“预训练语言模型”的GPT,它首先利用了Transformer网络代替了LSTM作为语言模型,并在12个NLP任务中的9个任务获得了SOTA的表现。但种种原因GPT并未获得更大关注。

GPT的基本处理方式是在大规模语料上进行无监督预训练,再在小得多的有监督数据集上为具体任务进行精细调节(fine-tune)的方式,不依赖针对单独任务的模型设计技巧,可以一次性在多个任务中取得很好的表现。

直到10月,谷歌的BERT(Bidirectional Encoder Representation from Transformers)问世,一经发布便得到各界广泛关注。BERT模型在11项NLP任务中夺得SOTA的表现,更是令谷歌技术人员宣告“BERT开启了NLP新时代”的宣言。

而BERT其实采用了和GPT完全相同的两阶段模型,首先是无监督的语言模型预训练;其次是使用Fine-Tuning模式解决下游任务。其不同之处在于BERT在预训练阶段采用了类似ELMO的双向语言模型,且使用了更大数据规模用于预训练。

BERT在改造NLP下游任务(包括序列标注,比如中文分词、词性标注、命名实体识别、语义角色标注等;第二类是分类任务,比如文本分类、情感计算等;句子关系判断,比如Entailment,QA,语义改写,自然语言推理等;生成式任务,比如机器翻译、文本摘要、写诗造句、看图说话等)上面,强大的普适性和亮眼的任务表现,成为它爆红NLP的底气。

仅仅四个月后,OpenAI发布GPT-2。这一大规模无监督NLP模型,可以生成连贯的文本段落,刷新了7大数据集SOTA表现,并且能在未经预训练的情况下,完成阅读理解、问答、机器翻译等多项不同的语言建模任务。

首先,CPT-2、BERT与GPT一样,延续Transformer的Self-Attention(自注意)作为底层结构。OpenAI研究人员对无监督数据训练的坚持也许来自于这样一个思路:监督学习会造成语言模型仅能处理特定任务表现很好,而在泛化能力表现很差;而单纯依靠训练样本的增加,很难有效实现任务扩展。

因此,他们选择在更通用的数据集基础上使用自注意力模块迁移学习,构建在 zero-shot 情况下能够执行多项不同NLP任务的模型。

与BERT的不同在于,CPT-2模型结构仍然延续了GPT1.0的“单向语言模型”。GPT-2似乎只有一个目标:给定一个文本中前面的所有单词,预测下一个单词。这一点倔强坚持,可以看出OpenAI的解决思路。它选择把Transformer模型参数扩容到48层,包含15亿参数的Transformer模型,找到一个800 万网页(WebText)数据集作为无监督训练数据。

简单说,GPT-2 就是对 GPT 模型的直接扩展,在超出 10 倍的数据量上进行训练,参数量也多出了 10 倍。这让GPT-2采用更加直接“暴力”的方式,单靠提升模型参数容量和增加训练数据的数量来超过BERT。

GPT-2作为一个文本生成器,只要在开始输入只言片语,这个程序会根据自己的判断,决定接下来应该如何写作。简言之,GPT-2作为通用语言模型,可以用于创建AI 写作助手、更强大的对话机器人、无监督语言翻译以及更好的语音识别系统。OpenAI 设想,人们可能出于恶意目的利用GPT-2来生成误导性新闻、网上假扮他人欺诈、在社交媒体自动生产恶意或伪造内容、自动生产垃圾或钓鱼邮件等内容。

所以,OpenAI在发布GPT2的同时就宣称“这种强力的模型有遭到恶意滥用的风险”,选择不对训练模型做完整开源,这一举动引来机器学习&自然语言处理界研究人员的激烈讨论。无论是被外界嘲讽为对自家产品的“过分自负”,还是OpenAI出于PR目的的“故意炒作”,GPT-2 “刻意制造假新闻”的实力确实惊艳到了业内众人。各位吃瓜群众一边实力吐槽,一边又迫不及待想探究GPT-2的强大生成能力。

经过将近一年时间, GPT-2在谨慎开源和开发者的“尝鲜”参与中,进行着眼花缭乱的更新演进。

GPT-2阶段开源:带给开发者的土味狂欢

伴随争议和开发者高涨的呼声,OpenAI仍然出于谨慎考虑,选择了分阶段开源。8月以后,它分阶段发布了“小型的”1.24 亿参数模型(有 500MB 在磁盘上),“中型的”3.55 亿参数模型(有 1.5GB 在磁盘上 ),以及 7.74 亿参数模型(有 3GB 在磁盘上 )。

直到11月6日,它正式放出GPT-2最后一个部分的包含15亿参数的最大版本的完整代码。一直到完整版本公布,OpenAI并未发现任何明确的代码、文档或者其他滥用实证,也就是说一直担心的“GPT-2遭到滥用”的结果并没有发生,但OpenAI仍然认为,全面版本发布同时也会让恶意人士有机会进一步提高检测逃避能力。

所以,伴随着GPT-2不同版本的陆续公布,OpenAI自身与多家复现GPT-2模型的团队进行交流,验证GPT-2的使用效果,同时也在避免滥用语言模型的风险,完善检测文本生成的检测器。

同时,OpenAI也还在与多家研究机构合作,比如对人类对语言模型产生的数字信息的敏感性的研究,对恶意利用GPT-2的可能性的研究,对GPT-2生成文本的统计可检测性的研究。无论OpenAI出于怎样的谨慎,随着不同容量参数模型的发布,外界开发人员已经迫不及待进行各种方向的探索了。

2019年4月,Buzzfeed 数据科学家 Max Woolf使用Python封装了具有 1.17 亿超参数的“较小”版本的 OpenAI GPT-2 文本生成模型进行微调和生成脚本,开源了一个“GPT-2 精简版”,从而更好地帮助人们生成一段文本,里面可以给出很多出人意料的内容。

在OpenAI逐步开源的过程里,来自布朗大学的两位研究生就率先自己动手复制出一个 15 亿参数量的 GPT-2,并将其命名为 OpenGPT-2。过程中,他们使用自己的代码从零开始训练 GPT-2 模型大约只花费了 5 万美元。所用的数据集也尽可能参照OpenAI论文里公开的方法。

有很多热心网友的测试后表示,OpenGPT-2 的输出文本效果优于 OpenAI 的 GPT-2 7.74 亿参数版本。当然,也有人认为,并没有比GPT-2模型生成的文本效果更好。

同时在国内,一个位于南京名叫“Zeyao Du”的开发者,在GitHub上开源了的GPT-2 Chinese,可以用来写诗、新闻、小说和剧本,或是训练通用语言模型。这一能够实现逆天效果GPT-2模型,用到了15亿个参数。目前他开源了预训练结果与 Colab Demo 演示,只需要单击三次,人们就可以生成定制的中文故事。

GPT-2模型还有更多尝试。一个新加坡高中生Rishabh Anand开源了一个轻量级GPT-2“客户端”——gpt2-client,它是一个GPT-2 原始仓库的包装器,只需5行代码就可以实现文本生成。

来自中国的几个研究者正在用GPT模型生成高质量的中国古典诗歌。比如论文里提到的一首《七律·一路平安》:“一声天际雁横秋,忽梦青城旧友游。路入青林无去马,手携黄牒有归舟。平生志业商山老,何日公卿汉署留。安得相从话畴昔,一樽同醉万山头”。

一场平平淡淡的送别,写得就饱含沧桑、充满离愁。不难让人怀疑:这个语言模型是否真的有了感情?

GPT-2模型还可以用在音乐创作上。OpenAI推出一种用于生成音乐作品的深层神经网络——MuseNet,正是GPT-2语言模型Sparse Transformer相同的通用无监督技术,允许MuseNet根据给定的音符组预测下一个音符。该模型能够用10种不同的乐器制作4分钟的音乐作品,并且能够从巴赫,莫扎特,披头士乐队等作曲家那里了解不同的音乐风格。它还可以令人信服地融合不同的音乐风格,以创造一个全新的音乐作品。

最让笔者感兴趣的是一位开发者通过GPT-2做出的一款AI文字冒险游戏——“AI地牢”。通过多轮文本对话, AI就可以帮你展开一段意想不到的“骑士屠龙”征途或者“都市侦探”之旅。在未来的游戏产业中,AI创造的故事脚本,也许可能更具想象力?

GPT-2发布的一年里,以上开源带来的应用足以称之为眼花缭乱。喧闹与繁荣背后,除了在在开源风险上的小心谨慎,OpenAI还面临着哪些难题?

NLP的土豪赛:OpenAI联姻微软后的 GPT-2商业化

其实,我们从BERT和GPT-2的演进趋势,可以看出人类利用更大容量的模型、无监督的无限训练,可以去创造更多更好的合乎人类语言知识的内容。但这也同样意味着要依靠超级昂贵的GPU计算时间、超大规模GPU机器学习集群、超长的模型训练过程。这意味着这种“烧钱”模式,使得NLP的玩家最终会更加向头部公司聚集,成为少数土豪玩家的赛场。

可以预见,如果今年OpenAI再推出GPT-3.0,大概率还是会选择单向语言模型,但会采取更大规模的训练数据和扩充模型,来与BERT硬刚。NLP应用领域的成绩也会再次刷新。

但从另一个侧面看到,如此“烧钱”的语言训练模型的研发,尚无清晰的商业化应用前景。OpenAI也不得不面临着“遵循技术情怀的初衷”还是“为五斗米折腰”的商业化的艰难选择。

答案应该已然明了。就在2019年7月,OpenAI接受了微软的10亿美元投资。根据官方说法,OpenAI将与微软合作,共同为微软Azure云平台开发新的人工智能技术,并将与微软达成一项排他性协议,进一步扩展大规模人工智能能力,“兑现通用人工智能(AGI)的承诺”。

其实质正是OpenAI在人工智能研究上的“烧钱”与其商业化的尴尬,使得它更需要这样一笔来自微软的“赞助”。就以拥有15亿参数的GPT-2模型为例,它使用256块TPU v3训练,每小时都要花费2048美元。可以预见,如果我们还想期待GPT-3.0的发布,其费用将主要就花在云端的计算资源上面。

微软将成为OpenAI独家云计算供应商,OpenAI的人工智能技术也要通过Azure云输出。未来,OpenAI将把部分技术授权给微软,然后由微软把这些技术商业化,并将其出售给合作伙伴。

这笔巨额费用的支持,让OpenAI有了更充足的底气。如上面所总结的,GPT-2在8月份后继续开始分步骤发布不同量级的参数模型,并在11月全部开源。显然GPT-2未来在商业化方向上,可以更多的借助微软Azure的加持。比如可以未来更好的与Office365协作,参与到办公协助的自动化文本写作当中,参与语法错误修复,也可以建立更自然真实的问答系统。

曾经年少爱追梦,一心只想往前飞。AGI的理想也需要在商业实践中照进现实。可以预见,2020年,谷歌面对微软&OpenAI的组合,将给NLP商业化带来更多波澜。

作者:脑极体,*脑极体

本文由 @脑极体 原创发布于人人都是产品经理。未经许可,禁止转载。

题图来自Unsplash, 基于CC0协议

查看全文
大家还看了
也许喜欢
更多游戏

Copyright © 2024 妖气游戏网 www.17u1u.com All Rights Reserved