【KDD2022教程】Transformers多模态数据分类，41页ppt - 专知

会员服务 ·

0

【KDD2022教程】Transformers多模态数据分类，41页ppt

2022 年 8 月 18 日 专知

在我们的社会中，多模态数据的日益流行导致了对机器的需求增加，以全面地理解这些数据。然而，渴望研究此类数据的数据科学家和机器学习工程师面临着从现有教程中融合知识的挑战，这些教程通常单独处理每个模态。根据我们在新加坡政府对多模态城市问题反馈进行分类的经验，我们进行了一个手工教程，以希望将机器学习应用于多模态数据。

2021年，作为新加坡政府国家人工智能战略计划的一部分，新加坡政府技术机构(GovTech)的数据科学和人工智能部门(DSAID)构建了一个反馈分析引擎[1]，根据市政问题反馈，该引擎可以预测:

(1)用户反馈的案例类型，以便从反馈中提取相关信息，以及

(2)能最有效地处理这个问题的机构。

该引擎由基于历史数据的深度学习建立的分类模型组成，实现了良好的准确性，可以部署在OneService聊天机器人[2]中。创建这个引擎的最大挑战之一是处理多模态反馈数据，这些数据包括:

(1)文本:对问题的描述，

(2)地理位置:问题发生的位置，以及

(3) 图片:补充文字描述的图片。

由于通过移动设备捕捉和传输图像的便捷性，多模态数据，尤其是图文并茂的数据在我们的社会中越来越普遍。除了社交媒体，这类数据在私营和公共部门也都在增长。企业和政府开发了更多、更好的应用程序，这些应用允许人们提交内容(例如，投诉、赞美、建议、技术支持请求、求助电话、产品评论)，而不仅仅是文本形式，还附带图片，这样接收者就可以更好地了解手头的问题。随着这类数据的增加，对机器整体理解文本和图像以帮助人类做出决定的需求也在增加。这反过来又导致了对数据科学家和机器学习工程师的需求增加，他们知道如何构建可以做到这一点的模型。然而，大多数与此问题相关的现有教程分别处理文本和图像，因为它们传统上来自不同的领域。对于试图解决此类问题的初级数据科学家(甚至一些中级数据科学家)和机器学习工程师来说，融合来自这些不同教程的知识是一个挑战。我们希望通过本教程帮助他们克服这些挑战。

在本教程中，我们教参与者如何使用Transformer[3]对包含文本和图像的多模态数据进行分类。它的目标受众是对神经网络有一定的了解，并且能够轻松地编写代码。

(1) 文本分类:使用BERT[4]训练文本分类模型

(2) 文本和图像分类(v1):使用BERT和ResNet-50[5]训练文本和图像分类模型

(3) 文本与图像分类(v2):使用Align before Fuse (ALBEF)[6]训练文本与图像分类模型

专知便捷查看

便捷下载，请关注专知公众号（点击上方蓝色专知关注）

后台回复“TMDC” 就可以获取《【KDD2022教程】Transformers多模态数据分类，41页ppt》专知下载链接

专知，专业可信的人工智能知识分发 ，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取100000+AI(AI与军事、医药、公安等)主题干货知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程资料和与专家交流咨询！

点击“ 阅读原文 ”，了解使用专知 ，查看获取100000+AI主题知识资料

登录查看更多

0

相关内容

多模态数据

多模态数据

【COLING2022教程】自然语言处理的不确定性估计教程

【COLING2022教程】自然语言处理的不确定性估计教程

专知会员服务

31+阅读 · 2022年10月17日

Transformers如何处理表格数据？【VLDB2022教程】Transformer表格数据表示:模型和应用，77页ppt

Transformers如何处理表格数据？【VLDB2022教程】Transformer表格数据表示:模型和应用，77页ppt

专知会员服务

44+阅读 · 2022年10月11日

【KDD2022-教程】深度搜索相关性排名的实践，74页ppt

【KDD2022-教程】深度搜索相关性排名的实践，74页ppt

专知会员服务

23+阅读 · 2022年9月4日

【KDD2022教程】多模态自动机器学习教程，130页ppt

【KDD2022教程】多模态自动机器学习教程，130页ppt

专知会员服务

78+阅读 · 2022年8月19日

Transformer如何提升信息检索？橡树岭实验室最新SIGIR2022《Transformer信息检索效率和鲁棒性》教程

Transformer如何提升信息检索？橡树岭实验室最新SIGIR2022《Transformer信息检索效率和鲁棒性》教程

专知会员服务

23+阅读 · 2022年7月14日

【CVPR2022教程】微软《视觉语言预训练进展》教程，400+页ppt

【CVPR2022教程】微软《视觉语言预训练进展》教程，400+页ppt

专知会员服务

86+阅读 · 2022年6月23日

如何预测序列？看这份IJCAI2021亚马逊《大时间序列预测》教程，附301页Slides

专知会员服务

114+阅读 · 2021年8月20日

最新《Transformers模型》教程，64页ppt

最新《Transformers模型》教程，64页ppt

专知会员服务

325+阅读 · 2020年11月26日

【PKDD2020教程】机器学习不确定性，附88页ppt与视频

【PKDD2020教程】机器学习不确定性，附88页ppt与视频

专知会员服务

95+阅读 · 2020年10月18日

一份循环神经网络RNNs简明教程，37页ppt

一份循环神经网络RNNs简明教程，37页ppt

专知会员服务

173+阅读 · 2020年5月6日

Transformers如何处理表格数据？【VLDB2022教程】Transformer表格数据表示:模型和应用，77页ppt

Transformers如何处理表格数据？【VLDB2022教程】Transformer表格数据表示:模型和应用，77页ppt

专知

3+阅读 · 2022年10月11日

【KDD2022-教程】深度搜索相关性排名的实践，74页ppt

【KDD2022-教程】深度搜索相关性排名的实践，74页ppt

专知

0+阅读 · 2022年9月4日

【KDD2022教程】多模态自动机器学习教程，130页ppt

【KDD2022教程】多模态自动机器学习教程，130页ppt

专知

2+阅读 · 2022年8月19日

【KDD2022】自监督超图Transformer推荐系统

【KDD2022】自监督超图Transformer推荐系统

专知

1+阅读 · 2022年8月1日

Transformer如何提升信息检索？橡树岭实验室最新SIGIR2022《Transformer信息检索效率和鲁棒性》教程

Transformer如何提升信息检索？橡树岭实验室最新SIGIR2022《Transformer信息检索效率和鲁棒性》教程

专知

3+阅读 · 2022年7月14日

【干货】NLP中的迁移学习教程来啦！（238页PPT下载）

【干货】NLP中的迁移学习教程来啦！（238页PPT下载）

新智元

35+阅读 · 2019年6月3日

AAA2019 Tutorial：可解释AI—人工智能的圣杯（160页PPT从理论到动机，应用和局限性）

AAA2019 Tutorial：可解释AI—人工智能的圣杯（160页PPT从理论到动机，应用和局限性）

专知

18+阅读 · 2019年1月28日

基于深度学习的文本生成【附217页PPT下载】

基于深度学习的文本生成【附217页PPT下载】

专知

35+阅读 · 2018年11月24日

ML通用指南：文本分类详细教程（上）

ML通用指南：文本分类详细教程（上）

论智

19+阅读 · 2018年7月29日

Python NLP 入门教程

Python NLP 入门教程

开源中国

14+阅读 · 2017年10月1日

新型金属氧酸铋纳米光催化剂的制备与应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度学习的汉字书写风格建模与重建方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

融合稀疏表示与深度学习的图像分类技术研究

国家自然科学基金

7+阅读 · 2013年12月31日

迁移学习在图像分类中的应用研究

国家自然科学基金

8+阅读 · 2013年12月31日

新型高效TiO2-石墨烯复合光催化剂的制备、表征及其降解环境污染物的研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于超图谱分析的图像分类方法研究

国家自然科学基金

1+阅读 · 2012年12月31日

高效太阳光驱动的CuM2O4-TiO2异质结型纳米光催化剂的构筑及其制氢性能

国家自然科学基金

0+阅读 · 2012年12月31日

语义知识驱动的网络上下文广告投放高效方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于二维随机映射和一范数优化的有监督图像分类研究

国家自然科学基金

3+阅读 · 2011年12月31日

新型手性N-Oxide金属化合物的合成与催化研究

国家自然科学基金

0+阅读 · 2008年12月31日

The End of Digital Humanities and the Future of Manuscript Studies

Arxiv

0+阅读 · 2022年11月22日

FLEX: Full-Body Grasping Without Full-Body Grasps

Arxiv

0+阅读 · 2022年11月21日

A Fair Loss Function for Network Pruning

Arxiv

0+阅读 · 2022年11月18日

Vision Transformers in Medical Imaging: A Review

Arxiv

0+阅读 · 2022年11月18日

Multimodal Learning with Transformers: A Survey

Arxiv

69+阅读 · 2022年6月13日

A Survey on Vision Transformer

Arxiv

17+阅读 · 2022年2月23日

Transformers in Time Series: A Survey

Arxiv

34+阅读 · 2022年2月15日

A Survey of Transformers

Arxiv

103+阅读 · 2021年6月8日

A Survey on Visual Transformer

Arxiv

19+阅读 · 2020年12月23日

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Arxiv

15+阅读 · 2018年10月11日

VIP会员

相关主题

多模态数据

相关VIP内容

【COLING2022教程】自然语言处理的不确定性估计教程

【COLING2022教程】自然语言处理的不确定性估计教程

专知会员服务

31+阅读 · 2022年10月17日

Transformers如何处理表格数据？【VLDB2022教程】Transformer表格数据表示:模型和应用，77页ppt

Transformers如何处理表格数据？【VLDB2022教程】Transformer表格数据表示:模型和应用，77页ppt

专知会员服务

44+阅读 · 2022年10月11日

【KDD2022-教程】深度搜索相关性排名的实践，74页ppt

【KDD2022-教程】深度搜索相关性排名的实践，74页ppt

专知会员服务

23+阅读 · 2022年9月4日

【KDD2022教程】多模态自动机器学习教程，130页ppt

【KDD2022教程】多模态自动机器学习教程，130页ppt

专知会员服务

78+阅读 · 2022年8月19日

Transformer如何提升信息检索？橡树岭实验室最新SIGIR2022《Transformer信息检索效率和鲁棒性》教程

Transformer如何提升信息检索？橡树岭实验室最新SIGIR2022《Transformer信息检索效率和鲁棒性》教程

专知会员服务

23+阅读 · 2022年7月14日

【CVPR2022教程】微软《视觉语言预训练进展》教程，400+页ppt

【CVPR2022教程】微软《视觉语言预训练进展》教程，400+页ppt

专知会员服务

86+阅读 · 2022年6月23日

如何预测序列？看这份IJCAI2021亚马逊《大时间序列预测》教程，附301页Slides

专知会员服务

114+阅读 · 2021年8月20日

最新《Transformers模型》教程，64页ppt

最新《Transformers模型》教程，64页ppt

专知会员服务

325+阅读 · 2020年11月26日

【PKDD2020教程】机器学习不确定性，附88页ppt与视频

【PKDD2020教程】机器学习不确定性，附88页ppt与视频

专知会员服务

95+阅读 · 2020年10月18日

一份循环神经网络RNNs简明教程，37页ppt

一份循环神经网络RNNs简明教程，37页ppt

专知会员服务

173+阅读 · 2020年5月6日

热门VIP内容

开通专知VIP会员享更多权益服务

【博士论文】多目标奖励与偏好优化：理论与算法

《无形的防御者？将定向能武器集成到反无人机框架的机遇与挑战》报告

自主化海军：海上无人系统与未来海战

迈向智能体系统规模化的科学

相关资讯

Transformers如何处理表格数据？【VLDB2022教程】Transformer表格数据表示:模型和应用，77页ppt

Transformers如何处理表格数据？【VLDB2022教程】Transformer表格数据表示:模型和应用，77页ppt

专知

3+阅读 · 2022年10月11日

【KDD2022-教程】深度搜索相关性排名的实践，74页ppt

【KDD2022-教程】深度搜索相关性排名的实践，74页ppt

专知

0+阅读 · 2022年9月4日

【KDD2022教程】多模态自动机器学习教程，130页ppt

【KDD2022教程】多模态自动机器学习教程，130页ppt

专知

2+阅读 · 2022年8月19日

【KDD2022】自监督超图Transformer推荐系统

【KDD2022】自监督超图Transformer推荐系统

专知

1+阅读 · 2022年8月1日

Transformer如何提升信息检索？橡树岭实验室最新SIGIR2022《Transformer信息检索效率和鲁棒性》教程

Transformer如何提升信息检索？橡树岭实验室最新SIGIR2022《Transformer信息检索效率和鲁棒性》教程

专知

3+阅读 · 2022年7月14日

【干货】NLP中的迁移学习教程来啦！（238页PPT下载）

【干货】NLP中的迁移学习教程来啦！（238页PPT下载）

新智元

35+阅读 · 2019年6月3日

AAA2019 Tutorial：可解释AI—人工智能的圣杯（160页PPT从理论到动机，应用和局限性）

AAA2019 Tutorial：可解释AI—人工智能的圣杯（160页PPT从理论到动机，应用和局限性）

专知

18+阅读 · 2019年1月28日

基于深度学习的文本生成【附217页PPT下载】

基于深度学习的文本生成【附217页PPT下载】

专知

35+阅读 · 2018年11月24日

ML通用指南：文本分类详细教程（上）

ML通用指南：文本分类详细教程（上）

论智

19+阅读 · 2018年7月29日

Python NLP 入门教程

Python NLP 入门教程

开源中国

14+阅读 · 2017年10月1日

相关基金

新型金属氧酸铋纳米光催化剂的制备与应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度学习的汉字书写风格建模与重建方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

融合稀疏表示与深度学习的图像分类技术研究

国家自然科学基金

7+阅读 · 2013年12月31日

迁移学习在图像分类中的应用研究

国家自然科学基金

8+阅读 · 2013年12月31日

新型高效TiO2-石墨烯复合光催化剂的制备、表征及其降解环境污染物的研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于超图谱分析的图像分类方法研究

国家自然科学基金

1+阅读 · 2012年12月31日

高效太阳光驱动的CuM2O4-TiO2异质结型纳米光催化剂的构筑及其制氢性能

国家自然科学基金

0+阅读 · 2012年12月31日

语义知识驱动的网络上下文广告投放高效方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于二维随机映射和一范数优化的有监督图像分类研究

国家自然科学基金

3+阅读 · 2011年12月31日

新型手性N-Oxide金属化合物的合成与催化研究

国家自然科学基金

0+阅读 · 2008年12月31日

相关论文

The End of Digital Humanities and the Future of Manuscript Studies

Arxiv

0+阅读 · 2022年11月22日

FLEX: Full-Body Grasping Without Full-Body Grasps

Arxiv

0+阅读 · 2022年11月21日

A Fair Loss Function for Network Pruning

Arxiv

0+阅读 · 2022年11月18日

Vision Transformers in Medical Imaging: A Review

Arxiv

0+阅读 · 2022年11月18日

Multimodal Learning with Transformers: A Survey

Arxiv

69+阅读 · 2022年6月13日

A Survey on Vision Transformer

Arxiv

17+阅读 · 2022年2月23日

Transformers in Time Series: A Survey

Arxiv

34+阅读 · 2022年2月15日

A Survey of Transformers

Arxiv

103+阅读 · 2021年6月8日

A Survey on Visual Transformer

Arxiv

19+阅读 · 2020年12月23日

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Arxiv

15+阅读 · 2018年10月11日

大家都在搜

大型语言模型

朱克爱德华兹家族

蓝牙安全攻防

滴滴司机调度系统实践

微信扫码咨询专知VIP会员