Mining large corpora can generate useful discoveries but is time-consuming for humans. We formulate a new task, D5, that automatically discovers differences between two large corpora in a goal-driven way. The task input is a problem comprising a research goal "$\textit{comparing the side effects of drug A and drug B}$" and a corpus pair (two large collections of patients' self-reported reactions after taking each drug). The output is a language description (discovery) of how these corpora differ (patients taking drug A "$\textit{mention feelings of paranoia}$" more often). We build a D5 system, and to quantitatively measure its performance, we 1) contribute a meta-dataset, OpenD5, aggregating 675 open-ended problems ranging across business, social sciences, humanities, machine learning, and health, and 2) propose a set of unified evaluation metrics: validity, relevance, novelty, and significance. With the dataset and the unified metrics, we confirm that language models can use the goals to propose more relevant, novel, and significant candidate discoveries. Finally, our system produces discoveries previously unknown to the authors on a wide range of applications in OpenD5, including temporal and demographic differences in discussion topics, political stances and stereotypes in speech, insights in commercial reviews, and error patterns in NLP models.
翻译:采矿业大型公司可以产生有用的发现,但对人来说却耗费时间。 我们制定了一个新的任务, D5, 以目标驱动的方式自动发现两大公司之间的差异。 任务投入是一个问题, 包括一个研究目标“$\textit{比较药物A和药物B的副作用”和一对一揽子研究( 两次大量收集病人在服用每种药物后自我报告的反应) 。 产出是一个语言描述( 发现), 说明这些公司如何不同( 病人服用药物 A $\ textit{ paranoia的情感 $ ) 。 我们建立一个D5 系统, 并用数量衡量其绩效, 我们1) 贡献了一个元数据集, OpenD5, 汇集了675个开放问题, 涉及商业、社会科学、人文、机器学习和健康, 2 提出了一套统一的评价指标: 有效性、 相关性、 新颖性和重要性。 有了数据集和统一的衡量标准, 我们确认语言模型可以使用目标来提出更相关、 和重要的候选发现。 最后, 系统在政治见解、 分析中, 分析中, 分析 分析 和 分析 分析 分析 分析 分析 分析 的 的 分析 和 分析 分析 分析 分析 分析 分析 的 的 分析 分析 和 分析 分析 的 分析 分析 分析 分析 分析 分析 的 分析 的 的 分析 分析 的 和 分析 的 的, 分析 分析 分析 分析 的 的 和 分析 分析 的 分析 的 的 的 分析 分析 分析 分析 分析 的 的 分析 分析 分析 的 分析 的 的 的 的 的 分析 分析 分析 分析 分析 分析 分析 的 的 分析 的 的 的 的 分析 分析 分析 分析 的 分析 分析 分析 分析 分析 分析 分析 分析 的 的 分析 的 的 分析 的 的 的 的 和 分析 分析 分析 分析 分析 的 分析 的 的 分析 分析 分析 分析 分析 分析 分析 的 分析 分析 </s>