项目名称: 面向文本分类的迁移学习和半监督学习方法研究
项目编号: No.61175053
项目类型: 面上项目
立项/批准年度: 2012
项目学科: 自动化学科
项目作者: 唐焕玲
作者单位: 山东工商学院
项目金额: 57万元
中文摘要: 针对文本分类技术面临的标注瓶颈、数据同分布假设不成立等突出问题,本项目拟进一步深化和拓展面向文本分类的迁移学习和半监督学习方法研究工作,主要包括:研究基于近邻分类一致性的实例迁移新方法,提出TranCo-training分类模型;融合迁移学习与半监督学习方法,从基分类器的正确性与差异性的角度,进行基于实例的知识迁移,增强分类模型的泛化能力和学习能力;在基于投票分歧维护样本权重的新策略与基于置信度的实例迁移基础上,提出新的TranSemiBoost分类模型;通过比较已有分类器在测试样本附近的分类边界与测试数据聚类决策边界一致性,提出基于图模型的关联知识迁移学习方法;以交叉领域的共享特征词所隐含的主题类别为纽带,建立联合概率分布模型,提出基于特征的迁移学习方法。该项研究对于促进机器学习与文本分类技术的发展有重要意义,所获得的研究成果对于机器学习和数据挖掘的其它研究也有较大的参考价值和借鉴作用。
中文关键词: 半监督学习;迁移学习;文本分类;集成学习;未标注样本
英文摘要:
英文关键词: Semi-supervised learning;Transfer learning;Text Categorization;Ensemble learning;unlabeled data