We consider the use of automated supervised learning systems for data tables that not only contain numeric/categorical columns, but one or more text fields as well. Here we assemble 18 multimodal data tables that each contain some text fields and stem from a real business application. Our publicly-available benchmark enables researchers to comprehensively evaluate their own methods for supervised learning with numeric, categorical, and text features. To ensure that any single modeling strategy which performs well over all 18 datasets will serve as a practical foundation for multimodal text/tabular AutoML, the diverse datasets in our benchmark vary greatly in: sample size, problem types (a mix of classification and regression tasks), number of features (with the number of text columns ranging from 1 to 28 between datasets), as well as how the predictive signal is decomposed between text vs. numeric/categorical features (and predictive interactions thereof). Over this benchmark, we evaluate various straightforward pipelines to model such data, including standard two-stage approaches where NLP is used to featurize the text such that AutoML for tabular data can then be applied. Compared with human data science teams, the fully automated methodology that performed best on our benchmark (stack ensembling a multimodal Transformer with various tree models) also manages to rank 1st place when fit to the raw text/tabular data in two MachineHack prediction competitions and 2nd place (out of 2380 teams) in Kaggle's Mercari Price Suggestion Challenge.


翻译:我们考虑对数据表格使用自动监督的学习系统,这些数据表格不仅包含数字/分类栏,而且包含一个或多个文本字段。在这里,我们收集了18个多式联运数据表格,每个表格包含一些文本字段,并源于真正的商业应用。我们公开提供的基准使研究人员能够全面评估他们自己的以数字、绝对和文本特征进行监督学习的方法。为了确保在所有18个数据集中运行良好的任何单一模型战略,将成为多式文本/图盘自动ML的实用基础,我们基准中的不同数据集在以下各方面差异很大:样本大小、问题类型(分类和回归任务的混合)、功能数量(文本列数在数据集之间为1至28不等),以及预测信号如何在文本与数字/分类特征(以及这些特征的预测性互动性)之间进行分解。除了这一基准外,我们还评估了用于模拟这些数据的各种直径直的管道,包括标准两阶段方法,即使用NLP来对文本进行编织,这样,AutMLML就可以对表格中的数据进行分类(分类和回归任务组合的组合)、挑战性数据数量(在数据集之间的1级之间有1至28页之间的文本列,并且将数据模型与人类数据模型与各种模型进行对比。

0
下载
关闭预览

相关内容

【UAI2021教程】贝叶斯最优学习,65页ppt
专知会员服务
64+阅读 · 2021年8月7日
【XAUTOML】可解释自动机器学习,27页ppt
专知会员服务
62+阅读 · 2021年4月23日
零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
95+阅读 · 2020年5月31日
强化学习最新教程,17页pdf
专知会员服务
176+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
学术会议 | 知识图谱顶会 ISWC 征稿:Poster/Demo
开放知识图谱
5+阅读 · 2019年4月16日
IEEE | DSC 2019诚邀稿件 (EI检索)
Call4Papers
10+阅读 · 2019年2月25日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
自动机器学习(AutoML)最新综述
PaperWeekly
34+阅读 · 2018年11月7日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
分布式TensorFlow入门指南
机器学习研究会
4+阅读 · 2017年11月28日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
Arxiv
9+阅读 · 2021年10月5日
A Survey on Data Augmentation for Text Classification
Arxiv
7+阅读 · 2018年1月30日
Arxiv
5+阅读 · 2018年1月18日
VIP会员
相关资讯
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
学术会议 | 知识图谱顶会 ISWC 征稿:Poster/Demo
开放知识图谱
5+阅读 · 2019年4月16日
IEEE | DSC 2019诚邀稿件 (EI检索)
Call4Papers
10+阅读 · 2019年2月25日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
自动机器学习(AutoML)最新综述
PaperWeekly
34+阅读 · 2018年11月7日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
分布式TensorFlow入门指南
机器学习研究会
4+阅读 · 2017年11月28日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
Top
微信扫码咨询专知VIP会员