项目名称: 跨语言文本自动分类关键技术研究

项目编号: No.60803050

项目类型: 青年科学基金项目

立项/批准年度: 2009

项目学科: 金属学与金属工艺

项目作者: 代六玲

作者单位: 北京理工大学

项目金额: 19万元

中文摘要: 文本分类是文本挖掘的关键性和基础性问题之一。日益加快的全球一体化进程对跨语言的文本分类技术提出了迫切的需求。虽然目前研究者们已经进行了大量的文本分类相关研究工作,但是针对的跨语言文本分类问题的研究比较匮乏,限制了跨语言文本挖掘的发展和应用。本项目将针对多语言环境下跨语言文本分类的关键问题进行深入研究。具体研究内容包括:(1)基于特征概念的文本表示方法和特征概念的提取方法;(2)跨语言的文本相似度计算方法和类别判定方法;(3)中英跨语言分类测试语料集合的建立,实现原型系统,对算法进行评价和改进。通过本项目的研究,不仅能突破跨语言文本分类的难题,还可为跨语言的信息检索和文本挖掘提供有效的基础算法,使更大范围和更深层次的跨语言应用成为可能。

中文关键词: 文本分类;跨语言;文本挖掘;信息检索

英文摘要: Text categorization is key and fundamental issue of text mining. The rapid progress of globalization presents urgent demands of cross-lingual text categorization. Although researchers have performed lots of researches on text categorization, studies on cross-lingual text categorization are very absent. This situation limits the development and application of cross-lingual text mining. This project will thoroughly study the key problems of cross-lingual text categorization under multilingual settings. The main study topics include: (1) Concept based text representation and the abstraction of feature concepts. (2) Cross-lingual text similarity measurement and category determination. (3) Construction of cross-lingual corpus for categorization, the implementation of prototype system, the evaluation and improvement of algorithms. Through the researching of this project, we can not only overcome the difficult problem of cross-lingual text categorization, but also provide the fundamental algorithms for cross-lingual information retrieval and cross-lingual text mining. This will enable deeper and wider cross-lingual application.

英文关键词: Text categorization; cross-lingual; text mining; information retrieval

成为VIP会员查看完整内容
2

相关内容

文本分类(Text Classification)任务是根据给定文档的内容或主题,自动分配预先定义的类别标签。
自然语言处理中的文本表示研究
专知会员服务
58+阅读 · 2022年1月10日
专知会员服务
30+阅读 · 2021年9月11日
专知会员服务
66+阅读 · 2021年7月11日
专知会员服务
72+阅读 · 2021年3月27日
专知会员服务
30+阅读 · 2020年9月18日
专知会员服务
32+阅读 · 2020年9月2日
基于多来源文本的中文医学知识图谱的构建
专知会员服务
53+阅读 · 2020年8月21日
实体关系抽取方法研究综述
专知会员服务
178+阅读 · 2020年7月19日
基于多头注意力胶囊网络的文本分类模型
专知会员服务
78+阅读 · 2020年5月24日
深度学习自然语言处理综述,266篇参考文献
专知会员服务
231+阅读 · 2019年10月12日
基于知识图谱的文本挖掘 - 超越文本挖掘
专知
38+阅读 · 2019年8月18日
一文读懂文本处理中的对抗训练
PaperWeekly
22+阅读 · 2019年6月5日
面向新闻媒体的命名实体识别技术
PaperWeekly
18+阅读 · 2019年4月17日
独家 | 基于TextRank算法的文本摘要(附Python代码)
数据派THU
14+阅读 · 2018年12月21日
一种关键字提取新方法
1号机器人网
21+阅读 · 2018年11月15日
专栏 | NLP概述和文本自动分类算法详解
机器之心
12+阅读 · 2018年7月24日
机器学习自动文本分类
AI前线
23+阅读 · 2018年2月4日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
Arxiv
24+阅读 · 2021年1月25日
Arxiv
22+阅读 · 2018年8月30日
小贴士
相关VIP内容
自然语言处理中的文本表示研究
专知会员服务
58+阅读 · 2022年1月10日
专知会员服务
30+阅读 · 2021年9月11日
专知会员服务
66+阅读 · 2021年7月11日
专知会员服务
72+阅读 · 2021年3月27日
专知会员服务
30+阅读 · 2020年9月18日
专知会员服务
32+阅读 · 2020年9月2日
基于多来源文本的中文医学知识图谱的构建
专知会员服务
53+阅读 · 2020年8月21日
实体关系抽取方法研究综述
专知会员服务
178+阅读 · 2020年7月19日
基于多头注意力胶囊网络的文本分类模型
专知会员服务
78+阅读 · 2020年5月24日
深度学习自然语言处理综述,266篇参考文献
专知会员服务
231+阅读 · 2019年10月12日
相关资讯
基于知识图谱的文本挖掘 - 超越文本挖掘
专知
38+阅读 · 2019年8月18日
一文读懂文本处理中的对抗训练
PaperWeekly
22+阅读 · 2019年6月5日
面向新闻媒体的命名实体识别技术
PaperWeekly
18+阅读 · 2019年4月17日
独家 | 基于TextRank算法的文本摘要(附Python代码)
数据派THU
14+阅读 · 2018年12月21日
一种关键字提取新方法
1号机器人网
21+阅读 · 2018年11月15日
专栏 | NLP概述和文本自动分类算法详解
机器之心
12+阅读 · 2018年7月24日
机器学习自动文本分类
AI前线
23+阅读 · 2018年2月4日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员