We propose an explainable, privacy-preserving dataset distillation framework for collaborative financial fraud detection. A trained random forest is converted into transparent, axis-aligned rule regions (leaf hyperrectangles), and synthetic transactions are generated by uniformly sampling within each region. This produces a compact, auditable surrogate dataset that preserves local feature interactions without exposing sensitive original records. The rule regions also support explainability: aggregated rule statistics (for example, support and lift) describe global patterns, while assigning each case to its generating region gives concise human-readable rationales and calibrated uncertainty based on tree-vote disagreement. On the IEEE-CIS fraud dataset (590k transactions across three institution-like clusters), distilled datasets reduce data volume by 85% to 93% (often under 15% of the original) while maintaining competitive precision and micro-F1, with only a modest AUC drop. Sharing and augmenting with synthesized data across institutions improves cross-cluster precision, recall, and AUC. Real vs. synthesized structure remains highly similar (over 93% by nearest-neighbor cosine analysis). Membership-inference attacks perform at chance level (about 0.50) when distinguishing training from hold-out records, suggesting low memorization risk. Removing high-uncertainty synthetic points using disagreement scores further boosts AUC (up to 0.687) and improves calibration. Sensitivity tests show weak dependence on the distillation ratio (AUC about 0.641 to 0.645 from 6% to 60%). Overall, tree-region distillation enables trustworthy, deployable fraud analytics with interpretable global rules, per-case rationales with quantified uncertainty, and strong privacy properties suitable for multi-institution settings and regulatory audit.


翻译:我们提出了一种用于协同金融欺诈检测的可解释、隐私保护的数据集蒸馏框架。通过将训练好的随机森林转换为透明的轴对齐规则区域(叶超矩形),并在每个区域内均匀采样生成合成交易记录。该方法产生了一个紧凑、可审计的代理数据集,能够在保护敏感原始记录的同时保留局部特征交互。规则区域同时支持可解释性:聚合规则统计量(例如支持度和提升度)描述了全局模式,而将每个案例分配至其生成区域则提供了简洁的人类可读推理依据以及基于树投票分歧的校准不确定性。在IEEE-CIS欺诈数据集(跨三个类机构集群的59万笔交易)上,蒸馏数据集将数据量减少了85%至93%(通常低于原始数据的15%),同时保持了具有竞争力的精确率和微平均F1分数,仅伴随适度的AUC下降。跨机构共享和增强合成数据提升了跨集群的精确率、召回率和AUC。真实数据与合成数据的结构保持高度相似(基于最近邻余弦分析超过93%)。在区分训练集与保留集记录时,成员推理攻击的表现接近随机水平(约0.50),表明记忆风险较低。利用分歧分数移除高不确定性合成点可进一步提升AUC(最高达0.687)并改善校准效果。敏感性测试显示其对蒸馏比例的依赖性较弱(在6%至60%范围内AUC约为0.641至0.645)。总体而言,树区域蒸馏技术实现了可信赖、可部署的欺诈分析,具备可解释的全局规则、带量化不确定性的个案推理依据,以及适用于多机构场景和监管审计的强隐私保护特性。

0
下载
关闭预览

相关内容

Python分布式计算,171页pdf,Distributed Computing with Python
专知会员服务
108+阅读 · 2020年5月3日
大数据分析研究组开源Easy Machine Learning系统
中国科学院网络数据重点实验室
17+阅读 · 2017年6月13日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
VIP会员
相关基金
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员