随着自动机器学习(AutoML)领域的发展,将领域知识整合到这些系统中变得越来越重要。我们提出了一种通过利用大型语言模型(LLMs)的能力来实现这一点的方法。具体来说,我们推出了一种基于上下文的自动特征工程(CAAFE),这是一种用于表格数据集的特征工程方法,它利用LLM迭代地为表格数据集生成基于数据集描述的额外的语义有意义的特征。该方法生成用于创建新特征的Python代码以及生成特征的实用性的解释。尽管在方法上简单,CAAFE在14个数据集中的11个上都提高了性能 - 将所有数据集的平均ROC AUC性能从0.798提高到0.822 - 这与我们的数据集上使用随机森林代替逻辑回归所取得的改善相似。此外,CAAFE通过为每个生成的特征提供文本解释而具有可解释性。CAAFE为数据科学任务中更广泛的半自动化铺平了道路,并强调了可以将AutoML系统的范围扩展到语义AutoML的上下文感知解决方案的重要性。我们发布了我们的代码、一个简单的演示和一个Python包。

成为VIP会员查看完整内容
35

相关内容

【AAAI2023】用于复杂场景图像合成的特征金字塔扩散模型
专知会员服务
14+阅读 · 2021年9月11日
【NAACL2021】信息解缠正则化持续学习的文本分类
专知会员服务
21+阅读 · 2021年4月11日
专知会员服务
18+阅读 · 2020年10月13日
【KDD2020】多源深度域自适应的时序传感数据
专知会员服务
61+阅读 · 2020年5月25日
【KDD2020】图神经网络生成式预训练
专知
22+阅读 · 2020年7月3日
国家自然科学基金
7+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
37+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
25+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Arxiv
158+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
402+阅读 · 2023年3月31日
Arxiv
67+阅读 · 2023年3月26日
Arxiv
141+阅读 · 2023年3月24日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
7+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
37+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
25+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员