Many tasks use data housed in relational databases to train boosted regression tree models. In this paper, we give a relational adaptation of the greedy algorithm for training boosted regression trees. For the subproblem of calculating the sum of squared residuals of the dataset, which dominates the runtime of the boosting algorithm, we provide a $(1 + \epsilon)$-approximation using the tensor sketch technique. Employing this approximation within the relational boosted regression trees algorithm leads to learning similar model parameters, but with asymptotically better runtime.
翻译:许多任务使用包含在相关数据库中的数据来训练振动回归树模型。 在本文中, 我们给出了用于培训振动回归树的贪婪算法的相对适应性。 对于计算数据集平方残余数之和的次要问题, 这些数据占提振算法运行时间的主导地位, 我们使用 $(1 + \ epsilon) 技术, 提供 $- opplor oblassimocation 。 在相关振动回归树算法中使用这种近似法, 导致学习相似的模型参数, 但是在微小的运行时间上要好一些 。