Coreset (or core-set) is a small weighted \emph{subset} $Q$ of an input set $P$ with respect to a given \emph{monotonic} function $f:\mathbb{R}\to\mathbb{R}$ that \emph{provably} approximates its fitting loss $\sum_{p\in P}f(p\cdot x)$ to \emph{any} given $x\in\mathbb{R}^d$. Using $Q$ we can obtain approximation of $x^*$ that minimizes this loss, by running \emph{existing} optimization algorithms on $Q$. In this work we provide: (i) A lower bound which proves that there are sets with no coresets smaller than $n=|P|$ for general monotonic loss functions. (ii) A proof that, under a natural assumption that holds e.g. for logistic regression and the sigmoid activation functions, a small coreset exists for \emph{any} input $P$. (iii) A generic coreset construction algorithm that computes such a small coreset $Q$ in $O(nd+n\log n)$ time, and (iv) Experimental results which demonstrate that our coresets are effective and are much smaller in practice than predicted in theory.
翻译:核心值( 或核心值) 是少量加权的 emph{ subset} $Q 。 对于给定的 emph{ monononology 函数 $f:\ mathbb{R\to\ mathb{R} 美元, 代表 emph{ p_ p_ p_ p_ p} f( p\ cdot x) 美元 至 emph{ 美元 给予 $x\ inth{ mathb{ R ⁇ d$ 。 使用一个输入 $x_ 美元, 使损失最小化的 $x% Q, 运行 eemph{ 存在的优化算法 $ $ 。 在此工作中, 我们提供 : (一) 更低的范围, 证明没有比 $n\ p\ p\ p\ p\\ p\ $ 的普通 损失函数要小的堆 。 (二) 证明, 根据一个自然假设, 例如, 物流回归和 等激活功能, 存在一个小的小型核心值, 小数, 用于 empph{ 美元 将 输入 $ 和 Q 的 。