项目名称: 基于机器学习的多义性数据概念标注研究
项目编号: No.61173068
项目类型: 面上项目
立项/批准年度: 2012
项目学科: 自动化技术、计算机技术
项目作者: 许信顺
作者单位: 山东大学
项目金额: 58万元
中文摘要: 目前,人们得到的数据急剧增长,比如图像、视频和生物信息数据等。为了对这些数据进行有效地管理、挖掘和检索等操作,通常需要先对这些数据在语义(概念)层上进行标注,然后使用与其关联的关键词来进一步操作。而这些数据往往具有多义性的特点,即每个样本同时与多个概念关联。本项目以设计有效的基于机器学习的自动概念标注模型为目标,在充分考虑数据的多义性特点和结构化特征以及在非理想条件下,对标注任务中存在的关键问题和技术进行研究。项目的主要研究内容为:1.研究比较该类数据的结构化表示以及相似性度量方法;2.在数据结构化表示的基础上设计能够同时对数据结构化信息和数据多义性信息建模的概念标注方法;3.研究在有噪声和类别不平衡条件下,针对该数据构建具有较好泛化能力的概念标注模型;4.研究在小规模训练样本条件下充分利用未标注或者标注不充分数据来提高模型的泛化能力。最后,在以上研究的基础上,搭建有效测试平台和原型系统。
中文关键词: 机器学习;多义性数据;概念标注;类别不平衡;
英文摘要:
英文关键词: machine learning;ambiguous data;annotation;class imbalance;