【词汇表征】《多模态表示的半监督学习》美国空军、宾夕法尼亚大学等最新74页项目总结报告

2022 年 10 月 31 日 专知
这个项目的目标是通过利用多模态和多语言信息改进矢量空间语言模型来创造更好的词汇表征。我们收集了一个大规模的多语言图像数据集,称为MMID,它将图像与98种不同语言的词联系在一起(每种语言多达10K个词,每个词有100张图像)。这个数据集让我们全面分析了视觉相似性是否可以用来识别翻译,以及这在多大程度上受到语言因素的影响,如语篇和具体性。我们研究了MMID是否可以用来减轻像ImageNet这样的图像分类数据集中的地理偏见(例如婚礼在世界不同地区的视觉上是不同的)。我们研究了地理因素对语言对之间的可译性的影响程度;共同的语系、族群或共同的宗教等因素对视觉相似性的影响比地理因素大,因此通过图像的可译性也大。我们还从维基百科上收集了一个数据集,通过聚合带有多语言标题的共享图像,为我们提供完整的句子,而不是MMID中的单个单词。
图:一个注释预测示例,上面的源是通过我们的 "wikily"模型翻译的罗马尼亚语目标。受监督的源树是用相交的词对齐来预测的。
本报告总结了题为 "多模态表征的半监督学习 "的项目的主要发现。这个项目的主要研究者是宾夕法尼亚大学的Chris CallisonBurch教授和波士顿大学的Derry Wijaya教授。执行期为19年6月26日至22年6月14日。这个项目与DARPA项目经理Boyan Onyshkevych正在管理的其他项目广泛相关,包括DARPA AIDA项目,但它是一项独立的工作。这个项目是通过DARPA的OpenBAA资助的。这个项目的总预算为428,000美元。
这个项目的目标是通过改进带有多模态和多语言信息的矢量空间语言模型来创造更好的词汇表征。这份最终报告将详细介绍四项研究。
  • 在准备这个项目时,我们组装了一个大规模的多语言图像数据集,称为MMID,它将图像与98种不同语言的单词联系起来。 MMID包含每种语言的多达10,000个词汇,每个词有100张图片。 此外,我们还为25万个英语翻译中的每一个提供了100张图片。 这个数据集让我们全面分析了视觉相似性是否可以用来识别翻译,以及这在多大程度上受到语言因素的影响,如语篇和具体性。
  • 我们进行了一项研究,看看MMID是否可以用来减轻像ImageNet这样的图像分类数据集中的地理偏见。 由于ImageNet中的西方偏见,使用它训练的分类器往往不能识别世界其他地区视觉上与众不同的物体和事件(例如,印度婚礼)。
  • 我们调查了地理因素对跨语言对的可译性的影响程度,并将其与文化因素的影响进行了比较。 我们发现,共同的语系、种族群体或共同的宗教等因素对视觉相似性的影响比地理因素更大,因此通过图像的可译性也更大。
  • 我们从维基百科上收集了第二个数据集,通过聚合带有多语言说明的共享图像。 这个数据集为我们提供了完整的句子,而不是MMID中的单个单词。 我们进行了一组实验,表明我们的维基百科数据如何能够被用作弱监督数据的来源,以执行一些传统上需要双语句子对齐的平行语料库的多语言任务。
图:草莓是心理语言学研究中具有高具体性的一个词的例子。这反映在一致的视觉表示上。

 

专知便捷查看

便捷下载,请关注专知人工智能公众号(点击上方关注)

  • 点击“发消息” 回复 MMID” 就可以获取《【词汇表征】《多模态表示的半监督学习》美国空军、宾夕法尼亚大学等最新74页项目总结报告》专知下载链接


                       
专知,专业可信的人工智能知识分发 ,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取100000+AI(AI与军事、医药、公安等)主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“ 阅读原文 ”,了解使用 专知 ,查看获取100000+AI主题知识资料

登录查看更多
2

相关内容

《虚拟现实中的未来舰船模拟器》2022最新报告,美国陆军
美陆军2022最新发布《美国陆军数据计划》,17页报告
专知会员服务
154+阅读 · 2022年10月17日
专知会员服务
71+阅读 · 2021年7月29日
少标签数据学习,61页ppt,宾夕法尼亚大学
专知会员服务
36+阅读 · 2020年8月27日
生成对抗网络,10页pdf
专知
2+阅读 · 2022年11月23日
中科院自动化所:最新视觉-语言预训练综述
PaperWeekly
3+阅读 · 2022年3月1日
2022年值得关注的8个人工智能趋势
AI前线
3+阅读 · 2022年2月11日
交叉描述:图像和文本的语义相似度
TensorFlow
2+阅读 · 2021年6月22日
ACL 2019 | 多语言BERT的语言表征探索
AI科技评论
20+阅读 · 2019年9月6日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
4+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Arxiv
69+阅读 · 2022年6月13日
Arxiv
12+阅读 · 2020年6月20日
已删除
Arxiv
32+阅读 · 2020年3月23日
Arxiv
11+阅读 · 2019年6月19日
Arxiv
11+阅读 · 2018年1月11日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
4+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
相关论文
Top
微信扫码咨询专知VIP会员