Tyler's M-estimator is a well known procedure for robust and heavy-tailed covariance estimation. Tyler himself suggested an iterative fixed-point algorithm for computing his estimator however, it requires super-linear (in the size of the data) runtime per iteration, which may be prohibitive in large scale. In this work we propose, to the best of our knowledge, the first Frank-Wolfe-based algorithms for computing Tyler's estimator. One variant uses standard Frank-Wolfe steps, the second also considers \textit{away-steps} (AFW), and the third is a \textit{geodesic} version of AFW (GAFW). AFW provably requires, up to a log factor, only linear time per iteration, while GAFW runs in linear time (up to a log factor) in a large $n$ (number of data-points) regime. All three variants are shown to provably converge to the optimal solution with sublinear rate, under standard assumptions, despite the fact that the underlying optimization problem is not convex nor smooth. Under an additional fairly mild assumption, that holds with probability 1 when the (normalized) data-points are i.i.d. samples from a continuous distribution supported on the entire unit sphere, AFW and GAFW are proved to converge with linear rates. Importantly, all three variants are parameter-free and use adaptive step-sizes.
翻译:泰勒 的 M 估计 泰勒 的 M 估计 是一个众所周知的程序, 用于 稳健 和 重尾调估计 。 泰勒 自己建议了一个迭代固定点算法 来计算其估计 。 但是, 泰勒 自己也建议了一个迭代固定点的迭代算法 。 它需要超线( 数据大小 ) 运行时间 / 每迭代一次, 可能在大范围内令人望而却望而却步 。 在这项工作中, 我们据我们所知, 以 Frank- Wolfe 为主计算 泰勒 估计 。 一个变式使用标准的 Frank- Wolfe 步骤, 第二个变式也考虑\ textit{ off- steps} (AFW) (AFFW ), 第三个变式算得上超级线性算法, 最多只需要一个日志时间, 而 GAFW 以直线值计算算法 。 所有三个变式的算法都显示, 在标准假设下, 和 直线性 直线性 假设下, 直线性 直径( 直径 假设 ) 直径 直径 直线性, 直径 和 直径 直线 直径 的 的 的 直线性 的 直径 的 直径 的 直线性 直径 的 的 直径 的 的 的,, 直径 直径 直径 直 直 直 的 的 的 直径比 直径 。