成为VIP会员查看完整内容
VIP会员码认证
首页
主题
发现
会员
服务
注册
·
登录
0
这可能会引领通用AI的下一个重大突破
2020 年 11 月 26 日
学术头条
作者:Karen Hao
翻译:张一然
校对:欧阳锦
本文约
2500字,
建议阅读
8
分钟。
研究者们正在教一个大型的语言模型如何去“看
”
以帮助他们更好的理解这个世界。
您可能已经听我们说过无数次了:可以生成类似人类语言的大型人工智能模型 GPT-3 是一个奇迹,也是一个大型的海市蜃楼。您可以用一个简单的技巧来辨别:询问它绵羊的颜色,它回答 “黑色” 的次数和 “白色” 一样多 —— 这反映出 “黑色绵羊” 这一短语出现在我们日常用语中。
这就是语言模型的一个问题,因为他们仅在文本上进行训练,缺乏常识。最近来自北加利福尼亚大学的研究者,Chapel Hill 设计了一个新的技术来解决这一问题。他们称该技术为 vokenization, 该技术赋予了诸如 GPT3 这样的模型 “看” 的能力。
这并非人类第一次尝试将语言模型和计算机视觉相结合,实际上这是一个快速发展的 AI 领域。产生这种想法是因为两种类型的 AI 都有不同的优势。像 GPT-3 这样的语言模型是通过无监督学习进行训练的,该过程不需要手动数据标记,因此易于扩展。相比之下,像目标识别系统这样的图像模型可以直接从现实中学习到更多。换句话说,他们学到的东西并不依赖于文本所提供的内容。他们可以从绵羊的照片中 “看到” 他们实际上是白色的。
可以解析语言和视觉输入的 AI 模型也有非常实际的用途。例如,如果我们要构建机器人助手,则他们需要计算机视觉来在世界中进行导航,需要语言来与人类进行交流。
但是,将两种类型的 AI 结合起来说起来容易做起来难。这并非简单地将现有语言模型与现有目标识别系统装订在一起。它需要使用包含文本和图像的数据集从头开始训练新模型,该数据集也称为视觉语言数据集。
获得此类数据集的最常用方法是收集带有描述性标题的图像集合。例如,下面的图片的标题为 “一只橘猫坐在准备打包的手提箱里。” 这与典型的图像数据集不同,后者仅用一个名词来标记下面的图片,例如 “猫”。因此,一种视觉语言数据集不仅可以教一个 AI 模型如何识别目标,而且还能使用动词和介词来告诉模型目标之间是如何相互影响和相互作用的。
但是制作这种数据集非常耗时。这就是为什么现有的视觉数据集如此微不足道。一个常用的纯文本数据集,如英文 Wikipedia(实际上几乎包括所有英语 Wikipedia 条目),可能包含近 30 亿个单词。像 MS COCO 这样的视觉语言数据集仅包含 700 万。根本没有足够的数据来训练 AI 模型以提供有用的信息。
“Vokenization” 解决了这个问题,它使用无监督学习方法将 MS COCO 中的少量数据缩放到英文 Wikipedia 的大小。在当今用于评估 AI 语言理解力最困难的测试中,经过该训练集训练的视觉语言模型优于目前最好的模型。
自然语言处理初创公司 HuggingFace 的联合创始人兼首席科学官托马斯・沃尔夫(Thomas Wolf)表示:“不进行大的变动,你无法在这些测试上超过最先进的水平。”“这不是简单的测试。这就是为什么这令人如此兴奋。”
从token到voken
首先让我们理清这些术语,究竟什么是 voken?
在 AI 语言中,用于训练语言模型的单词称为标记 (token)。因此,UNC 研究人员决定将视觉语言模型中与每个标记相关的图像称为 “voken”。为每个 token 查找 voken 的算法叫 Vokenizer,整个过程称为 vokenization。
这样做的目的不仅是为了显示 AI 研究人员有多喜欢编造单词。(他们的确如此)。这也有助于理解 vokenization 背后的基本思想。UNC 研究人员不是从图像数据集开始并手动写句子作为标题(这是一个非常缓慢的过程),而是从语言数据集开始,并使用无监督学习来将每个单词与相关图像进行匹配(稍后会详细介绍)。这是一个高度可扩展的过程。
因此无监督学习技术才是本论文最大的贡献,即如何为每个单词找到相关图像。
Vokenization
让我们回到GPT-3。GPT-3是transformer语言模型家族的一员,2017年transformer的出现带了重大的突破,因为其将无监督学习应用到自然语言处理上。transformer通过观察词在上下文中的用法来学习人类语言的模式,然后根据该上下文为每个词创建数学表示,称为“词嵌入”。例如,“猫”一词的嵌入可能表明,它经常在“喵”和“橘”两词周围使用,而在“树皮”或“蓝色”等词周围较少使用。
这就是transformer如何近似的表达词的含义,以及GPT-3如何编写类似人类的句子。它部分地依靠这些嵌入来告诉它如何将单词组合成句子,将句子组合成段落。
有一种并行技术也可以用于图像。它不通过扫描文本来查找单词使用模式,而是扫描图像以查找视觉模式。比如说它列出了猫出现在床上而不是树上出现的频率,并利用该上下文信息创建了‘猫’嵌入。
UNC研究人员的想法是,他们应该在MS COCO上同时使用两种嵌入技术。他们将图像转换为视觉嵌入,将标题转换为词嵌入。这些嵌入的真正精巧之处在于可以将它们嵌入三维空间中,并直接看到它们之间的关系。与词嵌入紧密相关的视觉嵌入会在图中显示得更近。换句话说,视觉猫嵌入(理论上)应与基于文本的猫嵌入重叠。这很酷。
您应该可以看到下一步如何走。一旦将所有嵌入进行图形化表示并与其他嵌入进行比较和关联,就可以轻松地将图像(vokens)与单词(tokens)进行匹配。请记住,由于图像和单词是根据其嵌入进行匹配的,因此在上下文中他们也是匹配的。当一个词有完全不同的含义时,这会很有用。该技术通过为词的每个实例找到不同的voken来成功地解决这一问题。
例如:
Hereis her
contact
.
这是她的
联系方式。
Some cats love human
contact
.
有些猫喜欢被人
抚摸
。
在两个示例中都用到了‘contact’。但是在第一句中,上下文语境暗示该词是指联系信息,因此,voken 是一个联系人图标。在第二句中,上下文提示该词是指触摸,因此,voken 显示了一只猫正在被抚摸了。
研究人员使用 MS COCO 创建的视觉和词嵌入来训练其 vokenizer 算法。训练完成后,vokenizer 便可以在英语维基百科中为每个 token 找到对应的 voken。这不是完美的。该算法仅为大约 40%的 tokens 找到了 vokens。但这仍然是拥有近 30 亿个字的数据集的 40%。
利用这个新的数据集,研究人员重新训练了 BERT 的语言模型,BERT 是 Google 早于 GPT-3 开发的一种开源 transformer。然后,他们在六种不同的语言理解测试中测试了新改进的 BERT,包括 SQuAD,斯坦福问题回答数据集(该模型要求模型回答有关一系列文章的阅读理解问题)和 SWAG,SWAG 试图利用英语的微妙之处来测试模型以探究它是否只是模仿和记忆。改进后的 BERT 对所有这些都表现更好,Wolf 说这需要引起重视。
研究人员,博士研究生 Hao Tan 和他的导师 MohitBansal 将在 EMLNLP 会议上介绍其新的 vokenization 技术。尽管这项工作还处于初期阶段,但 Wolf 认为他们的工作是使无监督学习适用于视觉语言模型的一项重要的概念突破。这有助于大大推动自然语言处理的发展。
他说:“在 NLP 上,两年前我们取得了巨大的突破,然后突然间 NLP 成为了一个正在发生很多事情的领域,它领先于所有其他 AI 领域。”“但是我们有将文本与其他事物联系起来的问题。否则它就像只会说话却看不见,听不到的机器人一样。”
他说:“这篇论文是他们设法将文本连接到另一种方式的一个例子,并且效果很好。”“你可以想象,当你想在机器人中利用这种功能强大的语言模型时,其中某些技术可能会被重用。也许您使用同一种技术将机器人的感官与文本联系起来。”
论文标题:
Vokenization:Improving Language Understanding with Contextualized, Visual-GroundedSupervision
论文链接:
https://www.aclweb.org/anthology/2020.emnlp-main.162/
原文标题:
This could lead to the next big breakthrough in common sense AI
原文链接:
https://www.technologyreview.com/2020/11/06/1011726/ai-natural-language-processing-computer-vision/
点击
阅读原文
,
为AI城市代言、获得完整城市榜单!
喜欢本篇内容,请
分享、点赞、
在看
登录查看更多
点赞并收藏
0
暂时没有读者
0
权益说明
本文档仅做收录索引使用,若发现您的权益受到侵害,请立即联系客服(微信: zhuanzhi02,邮箱:bd@zhuanzhi.ai),我们会尽快为您处理
相关内容
Voken
关注
0
【干货书】人工智能在医学成像中的机遇、应用和风险,369页pdf
专知会员服务
61+阅读 · 2021年1月20日
【EMNLP2020】自然语言分类任务的自监督元学习
专知会员服务
30+阅读 · 2020年9月18日
少标签数据学习,61页ppt,宾夕法尼亚大学
专知会员服务
37+阅读 · 2020年8月27日
最新《深度多任务学习》综述论文,22页pdf109篇文献概述MTL最新进展
专知会员服务
118+阅读 · 2020年6月13日
少标签数据学习,54页ppt
专知会员服务
199+阅读 · 2020年5月22日
深度学习自然语言处理进展综述论文
专知会员服务
201+阅读 · 2020年3月6日
图像分类最新技术综述论文: 21种半监督、自监督和无监督学习方法一较高低
专知会员服务
184+阅读 · 2020年2月22日
Gary Marcus力作:AI的下个十年,向‘强’人工智能迈进的四步战略(附59页论文下载)
专知会员服务
39+阅读 · 2020年2月20日
新时期我国信息技术产业的发展
专知会员服务
71+阅读 · 2020年1月18日
2019->2020必看的十篇「深度学习领域综述」论文
专知会员服务
273+阅读 · 2020年1月1日
DeepMind综述无监督学习:通用智能路上的踏脚石,让AI更聪明
量子位
4+阅读 · 2019年4月11日
迄今最大模型?OpenAI发布参数量高达15亿的通用语言模型GPT-2
中国人工智能学会
7+阅读 · 2019年2月15日
业界 | 图像识别的未来:机遇与挑战并存
大数据文摘
4+阅读 · 2018年11月21日
语言处理想突破,三座大山必须过
THU数据派
6+阅读 · 2018年9月12日
迁移学习在自然语言处理中的应用之通用语言建模
深度学习与NLP
3+阅读 · 2018年9月4日
概览迁移学习在NLP领域中的应用
论智
4+阅读 · 2018年7月31日
DeepMind无监督表示学习重大突破:语音、图像、文本、强化学习全能冠军!
新智元
12+阅读 · 2018年7月13日
Fast.ai推出NLP最新迁移学习方法「微调语言模型」,可将误差减少超过20%!
人工智能学家
5+阅读 · 2018年1月21日
深度学习领域四个不可不知的重大突破
深度学习世界
4+阅读 · 2017年12月22日
一文概述2017年深度学习NLP重大进展与趋势
炼数成金订阅号
3+阅读 · 2017年12月15日
CINDy: Conditional gradient-based Identification of Non-linear Dynamics -- Noise-robust recovery
Arxiv
0+阅读 · 2021年2月5日
Hallucinating Saliency Maps for Fine-Grained Image Classification for Limited Data Domains
Arxiv
0+阅读 · 2021年2月3日
Optimal Sampling Regimes for Estimating Population Dynamics
Arxiv
0+阅读 · 2021年2月2日
Making Pre-trained Language Models Better Few-shot Learners
Arxiv
14+阅读 · 2020年12月31日
Knowledge Graph Transfer Network for Few-Shot Recognition
Arxiv
15+阅读 · 2019年11月21日
Fully Convolutional Network with Multi-Step Reinforcement Learning for Image Processing
Arxiv
4+阅读 · 2018年11月13日
You May Not Need Attention
Arxiv
4+阅读 · 2018年10月31日
Sem-GAN: Semantically-Consistent Image-to-Image Translation
Arxiv
4+阅读 · 2018年7月12日
Conditional Image-to-Image Translation
Arxiv
8+阅读 · 2018年5月1日
Fine-Grained Attention Mechanism for Neural Machine Translation
Arxiv
4+阅读 · 2018年4月3日
VIP会员
自助开通(推荐)
客服开通
详情
相关主题
Voken
语言模型
GPT-3
数据集
无监督学习
嵌入
相关VIP内容
【干货书】人工智能在医学成像中的机遇、应用和风险,369页pdf
专知会员服务
61+阅读 · 2021年1月20日
【EMNLP2020】自然语言分类任务的自监督元学习
专知会员服务
30+阅读 · 2020年9月18日
少标签数据学习,61页ppt,宾夕法尼亚大学
专知会员服务
37+阅读 · 2020年8月27日
最新《深度多任务学习》综述论文,22页pdf109篇文献概述MTL最新进展
专知会员服务
118+阅读 · 2020年6月13日
少标签数据学习,54页ppt
专知会员服务
199+阅读 · 2020年5月22日
深度学习自然语言处理进展综述论文
专知会员服务
201+阅读 · 2020年3月6日
图像分类最新技术综述论文: 21种半监督、自监督和无监督学习方法一较高低
专知会员服务
184+阅读 · 2020年2月22日
Gary Marcus力作:AI的下个十年,向‘强’人工智能迈进的四步战略(附59页论文下载)
专知会员服务
39+阅读 · 2020年2月20日
新时期我国信息技术产业的发展
专知会员服务
71+阅读 · 2020年1月18日
2019->2020必看的十篇「深度学习领域综述」论文
专知会员服务
273+阅读 · 2020年1月1日
热门VIP内容
开通专知VIP会员 享更多权益服务
《不确定通信条件下的分布式多智能体决策》122页
《21 世纪美国的主导地位:核聚变》最新报告
韩国 “忠诚僚机”空战无人机
《领航人工智能前沿:乌克兰冲突对北约在军事人工智能治理作用的启示》最新报告
相关资讯
DeepMind综述无监督学习:通用智能路上的踏脚石,让AI更聪明
量子位
4+阅读 · 2019年4月11日
迄今最大模型?OpenAI发布参数量高达15亿的通用语言模型GPT-2
中国人工智能学会
7+阅读 · 2019年2月15日
业界 | 图像识别的未来:机遇与挑战并存
大数据文摘
4+阅读 · 2018年11月21日
语言处理想突破,三座大山必须过
THU数据派
6+阅读 · 2018年9月12日
迁移学习在自然语言处理中的应用之通用语言建模
深度学习与NLP
3+阅读 · 2018年9月4日
概览迁移学习在NLP领域中的应用
论智
4+阅读 · 2018年7月31日
DeepMind无监督表示学习重大突破:语音、图像、文本、强化学习全能冠军!
新智元
12+阅读 · 2018年7月13日
Fast.ai推出NLP最新迁移学习方法「微调语言模型」,可将误差减少超过20%!
人工智能学家
5+阅读 · 2018年1月21日
深度学习领域四个不可不知的重大突破
深度学习世界
4+阅读 · 2017年12月22日
一文概述2017年深度学习NLP重大进展与趋势
炼数成金订阅号
3+阅读 · 2017年12月15日
相关论文
CINDy: Conditional gradient-based Identification of Non-linear Dynamics -- Noise-robust recovery
Arxiv
0+阅读 · 2021年2月5日
Hallucinating Saliency Maps for Fine-Grained Image Classification for Limited Data Domains
Arxiv
0+阅读 · 2021年2月3日
Optimal Sampling Regimes for Estimating Population Dynamics
Arxiv
0+阅读 · 2021年2月2日
Making Pre-trained Language Models Better Few-shot Learners
Arxiv
14+阅读 · 2020年12月31日
Knowledge Graph Transfer Network for Few-Shot Recognition
Arxiv
15+阅读 · 2019年11月21日
Fully Convolutional Network with Multi-Step Reinforcement Learning for Image Processing
Arxiv
4+阅读 · 2018年11月13日
You May Not Need Attention
Arxiv
4+阅读 · 2018年10月31日
Sem-GAN: Semantically-Consistent Image-to-Image Translation
Arxiv
4+阅读 · 2018年7月12日
Conditional Image-to-Image Translation
Arxiv
8+阅读 · 2018年5月1日
Fine-Grained Attention Mechanism for Neural Machine Translation
Arxiv
4+阅读 · 2018年4月3日
大家都在搜
情绪
量化交易
大规模语言模型
模型综述
全面综述
自主可控
锂电池
PCA
火星月球
基于Pytorch的卷积算子的推导和实现
Top
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top