Can we discover dialog structure by dividing utterances into labelled clusters. Can these labels be generated from the data. Typically for dialogs we need an ontology and use that to discover structure, however by using unsupervised classification and self-labelling we are able to intuit this structure without any labels or ontology. In this paper we apply SCAN (Semantic Clustering using Nearest Neighbors) to dialog data. We used BERT for pretext task and an adaptation of SCAN for clustering and self labeling. These clusters are used to identify transition probabilities and create the dialog structure. The self-labelling method used for SCAN makes these structures interpretable as every cluster has a label. As the approach is unsupervised, evaluation metrics is a challenge, we use statistical measures as proxies for structure quality
翻译:我们能否通过将语句分割成标签的组群来发现对话框结构 。 这些标签能否从数据中生成 。 通常, 对于对话, 我们需要一种本体学, 并使用它来发现结构, 但是, 使用不受监督的分类和自贴标签, 我们就可以在没有任何标签或本体学的情况下对这个结构进行检查。 在本文中, 我们应用 SCAN( 使用近邻的词组群) 来对对话框数据 。 我们使用 BERT 来进行借口任务, 并修改 SCAN 的分组和自贴标签 。 这些组群用来识别过渡概率, 并创建对话框结构 。 SCAN 使用的自贴标签方法使得这些结构可以解释, 因为每个组群群都有标签 。 由于这个方法不受监督, 评估指标是一个挑战 。 我们使用统计措施作为结构质量的代理物 。