不负其名OpenAI,GPT-2模型阶段性公布……

2019 年 5 月 4 日 机器之心

机器之心报道

参与:王淑婷

更大的 GPT-2 模型已经可用了,你还在等什么呢?

几个月前,OpenAI 发布了强大的通用语言模型 GPT-2,而在宣布这个好消息没多久之后,它又宣布要与开源「say goodbye」。理由是:GPT-2 太好用了!要是不小心被坏人利用怎么办??


对于这个理由,广大吃瓜群众表示:呵呵……


说正经的,对于这个理由,AI 社区是无法接受的。自 OpenAI 表示不开源的理由之后,Reddit 上就掀起了明嘲暗讽的血雨腥风……


机器学习社区发起了一个暗讽 GPT-2 的帖子:为了防止滥用,我是不是不应该公布在 MNIST 训练的 23064 层残差网络?


除了这种明显的嘲讽,还有理性的机器学习人士认真地陈述了自己反对 OpenAI 这种做法的理由:条理清晰,有理有据,在 reddit 上获得大量支持(详情请看「OpenAI 被讽 ClosedAI?语言模型并没有想象中的强大」)。


可能是反对的浪潮比较大,也可能是因为被人家说的理由戳中了。总之,OPenAI 最近开始开放 GPT-2 模型。


OpenAI 在其博客上表示:

我们正采用两种机制来发布 GPT-2:分阶段发布和基于伙伴关系的共享。作为分阶段发布的下一步,我们将先公布参数为 3.45 亿的模型。而对于致力于提高大型语言模型的 AI 和安全社区合作伙伴,我们将与之分享 7.62 亿和 15 亿参数的模型。

也就是说,OpenAI 准备逐步一点点公开 GPT-2 模型,或者基于合作伙伴的关系给对方分享更大参数的模型。对此,OpenAI 同样给出了自己的理由。


分阶段发布


分阶段发布包括一系列模型的逐步发布。这样做的目的是给人们足够的时间来评估这些模型的特性,讨论其社会影响,并评估每次发布带来的影响。


作为分阶段发布策略的下一步,OpenAI 将发布 3.45 亿参数的模型。相比 1.17 亿参数的模型,这个版本的模型性能有所提高,但在生成连贯文本的能力方面,它还不及 15 亿参数的模型。


虽然相比 1.17 亿参数的模型,3.45 亿版本被滥用的风险更高,但这还是比 15 亿版本的风险要低多了。而且,OpenAI 认为,很多人已经有能力获得 3.45 亿版本需要的训练系统。这种不断发展的复现环境也为其发布决策提供了参考。


决定发布 3.45 亿参数的模型时,OpenAI 考虑了以下因素:(不同用户)生成连贯文本的不同尺寸模型的易用性、人类在文本生成过程中的作用、未来被其他人复现和发布的可能性和时间、被滥用的可能性、关于不可观察使用的专家知情推论等。OpenAI 仍无法确定其中一些因素,并且希望机器学习社区能够继续给出关于正确发布模型的建议。


OpenAI 希望正在进行的关于偏见、检测和滥用的研究能够给予其及时发布更大模型的信心。六个月之后,他们将分享关于语言模型社会影响的更全面分析以及对发布决策的启发。


基于合作伙伴的分享


自 2 月份发布 GPT-2 并宣布不将其开源以来,OpenAI 和诸多外部研究人员、科技公司以及政策制定者就其发布策略和日益庞大的语言模型的影响进行了对话。他们还在活动中介绍和讨论了其研究,包括与 Partnership on AI 组织共同举办的晚宴活动和在华盛顿 DC 全球参与中心(Global Engagement Center)向政策制定者做的展示活动。


现在,OpenAI 正与学术机构、非盈利组织、工业实验室建议合作伙伴关系,这些组织机构都致力于提高社会对大型语言模型的准备程度。OpenAI 与这些组织分享了 7.62 亿参数和 15 亿参数的模型,以促进对语言模型输出检测、语言模型偏差分析和缓解以及模型滥用可能性分析的研究。


虽然,对于机器学习社区的广大研究者来说,当前能用的 GPT-2 模型不是很大,但好歹是能用了,而且以后会放出更大的模型。这下,OpenAI 终于不负其名了。


参考来源:https://openai.com/blog/better-language-models/#update



本文为机器之心报道,转载请联系本公众号获得授权

✄------------------------------------------------

加入机器之心(全职记者 / 实习生):hr@jiqizhixin.com

投稿或寻求报道:content@jiqizhixin.com

广告 & 商务合作:bd@jiqizhixin.com

登录查看更多
1

相关内容

【ICML2020-浙江大学】对抗性互信息的文本生成
专知会员服务
43+阅读 · 2020年7月4日
【ACL2020-Google】逆向工程配置的神经文本生成模型
专知会员服务
16+阅读 · 2020年4月20日
【Amazon】使用预先训练的Transformer模型进行数据增强
专知会员服务
56+阅读 · 2020年3月6日
OpenAI科学家一文详解自监督学习
新智元
18+阅读 · 2019年11月20日
OpenAI「假新闻」生成器GPT-2的最简Python实现
机器之心
4+阅读 · 2019年4月20日
迄今最大模型?OpenAI发布参数量高达15亿的通用语言模型GPT-2
中国人工智能学会
7+阅读 · 2019年2月15日
GLUE排行榜上全面超越BERT的模型近日公布了!
机器之心
9+阅读 · 2019年2月13日
不只有BERT!盘点2018年NLP令人激动的10大想法
黑龙江大学自然语言处理实验室
4+阅读 · 2018年12月24日
解读谷歌最强NLP模型BERT:模型、数据和训练
未来产业促进会
5+阅读 · 2018年10月20日
How to Fine-Tune BERT for Text Classification?
Arxiv
13+阅读 · 2019年5月14日
Universal Transformers
Arxiv
5+阅读 · 2019年3月5日
Star-Transformer
Arxiv
5+阅读 · 2019年2月28日
Doubly Attentive Transformer Machine Translation
Arxiv
4+阅读 · 2018年7月30日
Arxiv
27+阅读 · 2018年4月12日
VIP会员
相关资讯
OpenAI科学家一文详解自监督学习
新智元
18+阅读 · 2019年11月20日
OpenAI「假新闻」生成器GPT-2的最简Python实现
机器之心
4+阅读 · 2019年4月20日
迄今最大模型?OpenAI发布参数量高达15亿的通用语言模型GPT-2
中国人工智能学会
7+阅读 · 2019年2月15日
GLUE排行榜上全面超越BERT的模型近日公布了!
机器之心
9+阅读 · 2019年2月13日
不只有BERT!盘点2018年NLP令人激动的10大想法
黑龙江大学自然语言处理实验室
4+阅读 · 2018年12月24日
解读谷歌最强NLP模型BERT:模型、数据和训练
未来产业促进会
5+阅读 · 2018年10月20日
相关论文
How to Fine-Tune BERT for Text Classification?
Arxiv
13+阅读 · 2019年5月14日
Universal Transformers
Arxiv
5+阅读 · 2019年3月5日
Star-Transformer
Arxiv
5+阅读 · 2019年2月28日
Doubly Attentive Transformer Machine Translation
Arxiv
4+阅读 · 2018年7月30日
Arxiv
27+阅读 · 2018年4月12日
Top
微信扫码咨询专知VIP会员