来自谷歌的研究人员在“测量合成泛化:真实数据的综合方法”论文中,试图引入了最大和最全面的基准来解决这个问题。这个基准使用真实的自然语言理解任务,特别是语义解析和问题回答来进行合成泛化。
在具体的工作中,相关研究人员提出了复合散度(compound divergence)测量指标,这个指标可以量化训练-测试集的分离程度,以便测量机器学习的合成泛化能力。
研究人员分析了三种序列到序列机器学习体系结构的合成泛化能力,发现它们的泛化能力堪忧。在论文中,作者还发布了工作中使用的组合Freebase Questions数据集