Determinantal Point Processes (DPPs) are a widely used probabilistic model for negatively correlated sets. DPPs have been successfully employed in Machine Learning applications to select a diverse, yet representative subset of data. In seminal work on DPPs in Machine Learning, Kulesza conjectured in his PhD Thesis (2011) that the problem of finding a maximum likelihood DPP model for a given data set is NP-complete. In this work we prove Kulesza's conjecture. In fact, we prove the following stronger hardness of approximation result: even computing a $\left(1-O(\frac{1}{\log^9{N}})\right)$-approximation to the maximum log-likelihood of a DPP on a ground set of $N$ elements is NP-complete. At the same time, we also obtain the first polynomial-time algorithm that achieves a nontrivial worst-case approximation to the optimal log-likelihood: the approximation factor is $\frac{1}{(1+o(1))\log{m}}$ unconditionally (for data sets that consist of $m$ subsets), and can be improved to $1-\frac{1+o(1)}{\log N}$ if all $N$ elements appear in a $O(1/N)$-fraction of the subsets. In terms of techniques, we reduce approximating the maximum log-likelihood of DPPs on a data set to solving a gap instance of a "vector coloring" problem on a hypergraph. Such a hypergraph is built on a bounded-degree graph construction of Bogdanov, Obata and Trevisan (FOCS 2002), and is further enhanced by the strong expanders of Alon and Capalbo (FOCS 2007) to serve our purposes.
翻译:磁质点进程( DPP) 是一个被广泛使用的对负相关数据集的概率模型 。 在机器学习应用程序中, DPP 已被成功应用到机器学习应用中, 以选择一个多样但具有代表性的数据子集。 在机器学习中, Kulesza 在其博士论文Thesis (2011) 中预测到, 找到给定数据集的最大可能性 DPP 模型的问题是 NP- 完成。 在此工作中, 我们证明了 Kulesza 的推测。 事实上, 我们证明近似结果的精确性更强 : 甚至机器学习应用中也成功使用了 $left (1- O( frata) { 1\\ (fraca) log\\\ 9{N\\\\ n\\\\\\\\\\\ rightright) 在机器学习中, DPPPPM 的最大日志( $( 美元) 和 美元( 美元( 美元) 美元( 美元) 美元( 美元) 美元( 美元) 美元( 美元) 美元( 美元( 美元) 美元) 美元( 美元) 美元( 美元) 美元( 美元) 美元( 美元) 美元) 美元( 美元) 美元) 美元( ) 美元) 美元( 美元) 美元) 的快速) 的直流数据( ) 的更新) 的更新数据( ),, 的快速),, 以( 美元( 美元) 美元(美元) 美元( 美元) ) 美元) 美元(美元(美元( ) 美元) 美元( ) ) 美元( ) ( ) ) ) ) ) ) 美元( ) ) ) ) (美元(美元(美元(美元(美元( ) (美元( ) ) ) ) ) ) (美元( ) (美元(美元( ) ) ) ) 美元( ) ) (美元( ) ) ) ) ) (美元) (美元( ) (美元( ) ) (美元) (美元) (美元) (美元) (美元)