项目名称: 网络信息自主整合关键技术研究
项目编号: No.61173075
项目类型: 面上项目
立项/批准年度: 2012
项目学科: 自动化技术、计算机技术
项目作者: 陈清财
作者单位: 哈尔滨工业大学
项目金额: 56万元
中文摘要: 随着网络信息的迅速膨胀,准确性、个性化成为新一代搜索引擎的重要目标。虽然分类搜索能够比通用搜索获得更高的准确性,但受限于分类搜索构建需要过多人工干预,构建成本高、类别体系难以灵活设置,领域覆盖率也较低,难以满足用户多样化的分类系、较高的检索召回率等需求。为此,项目提出了网络信息的自主整合方法,首先通过对用户个性化分类体系的描述,借助互联网来自主构建每个类别的标准语料库,解决信息源查找与验证等关键问题,改进现有特征选择与半监督学习方法,完成分类器的自动训练,并将所得到的分类器用于网络信息的自动分类整合。通过网络信息自主整合,不仅能够降低专业搜索引擎的构建成本,提高分类体系设定的灵活性,同时更能用于完成对现有通用搜索引擎的海量信息进行分类整理,提高其检索精度。项目的实施为解决当前信息检索系统所面临的关键问题做出有益探索,并为本体构建、语义计算、文本聚类与分类等领域的研究与应用起到积极促进作用。
中文关键词: 网络信息整合;文本分类;自然标注;深度学习;医疗文本处理
英文摘要:
英文关键词: web information integration;text classification;natural labeling;deep learning;clinical text processing