Classification algorithms using Transformer architectures can be affected by the sequence length learning problem whenever observations from different classes have a different length distribution. This problem brings models to use sequence length as a predictive feature instead of relying on important textual information. Even if most public datasets are not affected by this problem, privately corpora for fields such as medicine and insurance may carry this data bias. This poses challenges throughout the value chain given their usage in a machine learning application. In this paper, we empirically expose this problem and present approaches to minimize its impacts.


翻译:使用变换器结构的分类算法,如果不同类别的观测分布长度不同,则会受到序列学习问题的影响。这个问题使模型使用序列长度作为预测特征,而不是依赖重要的文字信息。即使大多数公共数据集不受这一问题的影响,医药和保险等领域的私人公司可能带有这种数据偏差。这在整个价值链中构成了挑战,因为它们在机器学习应用中使用。在本文件中,我们以经验方式揭示了这个问题,并提出了尽量减少其影响的方法。

0
下载
关闭预览

相关内容

专知会员服务
124+阅读 · 2020年9月8日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
ACM MM 2022 Call for Papers
CCF多媒体专委会
5+阅读 · 2022年3月29日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
43+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2012年12月31日
Arxiv
19+阅读 · 2022年7月29日
Arxiv
17+阅读 · 2022年2月23日
Arxiv
31+阅读 · 2021年3月29日
Arxiv
19+阅读 · 2019年4月5日
VIP会员
相关VIP内容
专知会员服务
124+阅读 · 2020年9月8日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
相关资讯
ACM MM 2022 Call for Papers
CCF多媒体专委会
5+阅读 · 2022年3月29日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
43+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
相关论文
Arxiv
19+阅读 · 2022年7月29日
Arxiv
17+阅读 · 2022年2月23日
Arxiv
31+阅读 · 2021年3月29日
Arxiv
19+阅读 · 2019年4月5日
相关基金
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员