讲座题目
成本敏感多类多标签分类研究进展:Advances in Cost-sensitive Multiclass and Multilabel Classification
讲座简介
分类是数据挖掘和知识发现中的一个重要问题。传统上,规则分类问题的目的是最小化误预测的错误率。然而,现实世界中的许多数据挖掘应用程序需要不同的成本来处理不同类型的mis分类错误。例如,误将革兰氏阳性菌归类为革兰氏阴性菌会导致完全无效的治疗,因此比误将革兰氏阳性菌归类为另一革兰氏阳性菌更为严重。这种对成本敏感的分类问题与常规分类问题有很大的不同,可以应用于目标营销、信息检索、医疗决策、目标识别和入侵检测等领域。 成本敏感的二元分类问题自90年代以来一直被研究,导致采样和重新加权工具继续影响许多实际应用。在过去的20年里,研究人员已经改进了这些工具来解决更复杂的问题,包括多类和多标签分类问题。本教程旨在回顾和总结这些进展,使更多的实际应用程序能够享受到成本敏感分类的好处。这些进步包括在推理过程中考虑成本的贝叶斯方法,将成本敏感的分类任务转换为其他任务的基于约简的方法,以及将成本插入优化和特征提取过程的深度学习方法。我们讨论了这些方法之间的关系以及它们的实际应用。我们还将介绍一些在数据挖掘应用中取得的成功,例如提高实际细菌分类系统的性能,以及解决KDDCup 1999的类不平衡问题。
讲座嘉宾
suan-Tien Lin,徐天林教授于二零零一年获国立台湾大学计算机科学及资讯工程学士学位,二零零五年及二零零八年分别获加州理工学院计算机科学硕士及博士学位。2008年进入国立台湾大学计算机科学与信息工程系任助理教授,2012年晋升为副教授,2017年8月起任教授。2016年至2019年间,他担任Appier的首席数据科学家,Appier是一家初创公司,专门在数字营销和商业智能等各个领域简化人工智能。目前,他与Appier一起成长,担任其首席数据科学顾问。