电子表格公式预测一直是一个重要的程序合成问题,有许多实际应用。以前的工作通常利用输入-输出示例作为电子表格公式合成的规范,其中每个输入-输出对模拟电子表格中的单独一行。然而,这种形式并没有完全捕获真实电子表格中的丰富上下文。首先,电子表格的数据条目被组织为表,因此行和列不一定是彼此独立的。此外,许多电子表格包含头文件,提供单元格数据的高级描述。然而,以前的合成方法并不认为头文件是规范的一部分。在本工作中,我们介绍了从表格上下文合成电子表格公式的第一种方法,它包括标题和半结构化表格数据。特别是,我们提出了SPREADSHEETCODER,一种基于BERT的模型体系结构,以基于行和基于列的格式表示表格上下文。我们在一个大的电子表格数据集上训练我们的模型,并证明SPREADSHEETCODER达到了前1的预测精度42.51%,这是一个相当大的改进,没有使用丰富的表格上下文的基线。与基于规则的系统相比,SPREADSHEETCODER在谷歌表格中帮助用户编写公式的能力要高出82%。
https://www.zhuanzhi.ai/paper/09f81e73ff95f13f200df295c48bd865