自然语言处理(NLP)领域的进步历来依赖于更优质的数据,而如今,研究者们越来越多地使用“合成数据”——即借助大型语言模型(LLMs)生成的数据——以加快数据集构建流程并降低成本。 然而,大多数合成数据生成方法仍是临时拼凑、各自为战的,常常“重复造轮子”而不是在已有成果的基础上前进。为此,本教程旨在从自然语言处理及相关领域中,系统梳理合成数据生成的最新进展,构建统一的理解框架,并对主流方法、应用场景与尚未解决的问题进行分组归纳与深入描述。

本教程将分为四个主要部分: 第一部分,我们将介绍如何设计高质量合成数据的生成算法; 第二部分,将探讨如何利用合成数据推动语言模型的通用开发与研究; 第三部分,我们将展示如何定制合成数据生成过程以支持特定应用场景; 最后,我们将讨论围绕合成数据的生成与使用仍存在的开放性问题,以及当前亟待解决的局限。 我们的目标是:通过整合这一新兴研究方向中的近期进展,为社区建立一个稳固的研究基础,从而推动合成数据在理论严谨性、应用理解和生成效果等方面的进一步提升。

成为VIP会员查看完整内容
10

相关内容

【AAMAS教程】多智能体优化,241页ppt
专知会员服务
64+阅读 · 2024年3月1日
【CIKM2023教程】会话人工智能的数据增强,170页ppt
专知会员服务
45+阅读 · 2023年11月11日
【ACL2023教程】自然语言的复杂推理,240多页ppt
专知会员服务
55+阅读 · 2023年7月13日
【AAAI 2022】299页PPT,NUS最全《自动合成》教程
专知会员服务
19+阅读 · 2022年3月17日
【干货书】数值计算C编程,319页pdf,Numerical C
专知会员服务
71+阅读 · 2020年4月7日
【KDD2020】图神经网络生成式预训练
专知
22+阅读 · 2020年7月3日
英伟达Faster Transformer:作者带你揭秘BERT优化
机器之心
14+阅读 · 2019年9月18日
国家自然科学基金
14+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2016年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
48+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Arxiv
171+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
473+阅读 · 2023年3月31日
Neural Architecture Search without Training
Arxiv
10+阅读 · 2021年6月11日
Arxiv
10+阅读 · 2021年2月26日
Arxiv
19+阅读 · 2021年2月4日
Identity-aware Graph Neural Networks
Arxiv
14+阅读 · 2021年1月25日
VIP会员
相关VIP内容
【AAMAS教程】多智能体优化,241页ppt
专知会员服务
64+阅读 · 2024年3月1日
【CIKM2023教程】会话人工智能的数据增强,170页ppt
专知会员服务
45+阅读 · 2023年11月11日
【ACL2023教程】自然语言的复杂推理,240多页ppt
专知会员服务
55+阅读 · 2023年7月13日
【AAAI 2022】299页PPT,NUS最全《自动合成》教程
专知会员服务
19+阅读 · 2022年3月17日
【干货书】数值计算C编程,319页pdf,Numerical C
专知会员服务
71+阅读 · 2020年4月7日
相关基金
国家自然科学基金
14+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2016年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
48+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员