In light of increasing privacy concerns and stringent legal regulations, using secure multiparty computation (MPC) to enable collaborative GBDT model training among multiple data owners has garnered significant attention. Despite this, existing MPC-based GBDT frameworks face efficiency challenges due to high communication costs and the computation burden of non-linear operations, such as division and sigmoid calculations. In this work, we introduce Guard-GBDT, an innovative framework tailored for efficient and privacy-preserving GBDT training on vertical datasets. Guard-GBDT bypasses MPC-unfriendly division and sigmoid functions by using more streamlined approximations and reduces communication overhead by compressing the messages exchanged during gradient aggregation. We implement a prototype of Guard-GBDT and extensively evaluate its performance and accuracy on various real-world datasets. The results show that Guard-GBDT outperforms state-of-the-art HEP-XGB (CIKM'21) and SiGBDT (ASIA CCS'24) by up to $2.71\times$ and $12.21 \times$ on LAN network and up to $2.7\times$ and $8.2\times$ on WAN network. Guard-GBDT also achieves comparable accuracy with SiGBDT and plaintext XGBoost (better than HEP-XGB ), which exhibits a deviation of $\pm1\%$ to $\pm2\%$ only. Our implementation code is provided at https://github.com/XidianNSS/Guard-GBDT.git.


翻译:鉴于日益增长的隐私担忧和严格的法律法规,利用安全多方计算(MPC)实现多个数据所有者之间的协同GBDT模型训练已引起广泛关注。尽管如此,现有的基于MPC的GBDT框架由于高昂的通信开销以及非线性操作(如除法和Sigmoid计算)带来的计算负担,面临着效率挑战。本文中,我们提出了Guard-GBDT,一个专为在垂直数据集上进行高效且隐私保护的GBDT训练而设计的创新框架。Guard-GBDT通过使用更简化的近似方法绕开了MPC不友好的除法和Sigmoid函数,并通过压缩梯度聚合过程中交换的消息来降低通信开销。我们实现了Guard-GBDT的原型系统,并在多个真实世界数据集上对其性能和准确性进行了全面评估。结果表明,在局域网(LAN)中,Guard-GBDT的性能分别比最先进的HEP-XGB(CIKM'21)和SiGBDT(ASIA CCS'24)高出$2.71\times$和$12.21 \times$;在广域网(WAN)中,分别高出$2.7\times$和$8.2\times$。同时,Guard-GBDT达到了与SiGBDT及明文XGBoost相当的准确率(优于HEP-XGB),其偏差仅在$\pm1\%$到$\pm2\%$之间。我们的实现代码发布于https://github.com/XidianNSS/Guard-GBDT.git。

0
下载
关闭预览

相关内容

GBDT(Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regression Tree),是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来做最终答案。它在被提出之初就和SVM一起被认为是泛化能力较强的算法。
使用 Keras Tuner 调节超参数
TensorFlow
15+阅读 · 2020年2月6日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员