跨语言文本自动分类关键技术研究 - 专知基金

会员服务 ·

0

文本分类 · 跨语言 · 信息检索 ·

2008 年 12 月 31 日

跨语言文本自动分类关键技术研究

国家自然科学基金

国家自然科学基金委员会

项目名称： 跨语言文本自动分类关键技术研究

项目编号： No.60803050

项目类型： 青年科学基金项目

立项/批准年度： 2009

项目学科： 金属学与金属工艺

项目作者： 代六玲

作者单位： 北京理工大学

项目金额： 19万元

中文摘要： 文本分类是文本挖掘的关键性和基础性问题之一。日益加快的全球一体化进程对跨语言的文本分类技术提出了迫切的需求。虽然目前研究者们已经进行了大量的文本分类相关研究工作，但是针对的跨语言文本分类问题的研究比较匮乏，限制了跨语言文本挖掘的发展和应用。本项目将针对多语言环境下跨语言文本分类的关键问题进行深入研究。具体研究内容包括：（1）基于特征概念的文本表示方法和特征概念的提取方法；（2）跨语言的文本相似度计算方法和类别判定方法；（3）中英跨语言分类测试语料集合的建立，实现原型系统，对算法进行评价和改进。通过本项目的研究，不仅能突破跨语言文本分类的难题，还可为跨语言的信息检索和文本挖掘提供有效的基础算法，使更大范围和更深层次的跨语言应用成为可能。

中文关键词： 文本分类；跨语言；文本挖掘；信息检索

英文摘要： Text categorization is key and fundamental issue of text mining. The rapid progress of globalization presents urgent demands of cross-lingual text categorization. Although researchers have performed lots of researches on text categorization, studies on cross-lingual text categorization are very absent. This situation limits the development and application of cross-lingual text mining. This project will thoroughly study the key problems of cross-lingual text categorization under multilingual settings. The main study topics include: (1) Concept based text representation and the abstraction of feature concepts. (2) Cross-lingual text similarity measurement and category determination. (3) Construction of cross-lingual corpus for categorization, the implementation of prototype system, the evaluation and improvement of algorithms. Through the researching of this project, we can not only overcome the difficult problem of cross-lingual text categorization, but also provide the fundamental algorithms for cross-lingual information retrieval and cross-lingual text mining. This will enable deeper and wider cross-lingual application.

英文关键词： Text categorization; cross-lingual; text mining; information retrieval

成为VIP会员查看完整内容

2

相关内容

文本分类

文本分类（Text Classification）任务是根据给定文档的内容或主题，自动分配预先定义的类别标签。

自然语言处理中的文本表示研究

自然语言处理中的文本表示研究

专知会员服务

58+阅读 · 2022年1月10日

文本对抗样本攻击与防御技术综述

专知会员服务

31+阅读 · 2021年9月11日

文本分类数据增强综述

专知会员服务

66+阅读 · 2021年7月11日

电子病历文本挖掘研究综述

专知会员服务

73+阅读 · 2021年3月27日

【EMNLP2020】自然语言分类任务的自监督元学习

专知会员服务

30+阅读 · 2020年9月18日

基于迁移学习的细粒度实体分类方法的研究

专知会员服务

32+阅读 · 2020年9月2日

基于多来源文本的中文医学知识图谱的构建

基于多来源文本的中文医学知识图谱的构建

专知会员服务

53+阅读 · 2020年8月21日

实体关系抽取方法研究综述

实体关系抽取方法研究综述

专知会员服务

178+阅读 · 2020年7月19日

基于多头注意力胶囊网络的文本分类模型

基于多头注意力胶囊网络的文本分类模型

专知会员服务

78+阅读 · 2020年5月24日

深度学习自然语言处理综述，266篇参考文献

深度学习自然语言处理综述，266篇参考文献

专知会员服务

231+阅读 · 2019年10月12日

赛尔原创@EMNLP 2021 | 预训练跨语言模型中的大词表构建及使用

赛尔原创@EMNLP 2021 | 预训练跨语言模型中的大词表构建及使用

哈工大SCIR

1+阅读 · 2021年12月31日

【论文笔记】韩家炜团队AutoPhrase：从大量文本库中自动挖掘短语

【论文笔记】韩家炜团队AutoPhrase：从大量文本库中自动挖掘短语

专知

41+阅读 · 2019年11月2日

基于知识图谱的文本挖掘 - 超越文本挖掘

基于知识图谱的文本挖掘 - 超越文本挖掘

专知

40+阅读 · 2019年8月18日

一文读懂文本处理中的对抗训练

一文读懂文本处理中的对抗训练

PaperWeekly

22+阅读 · 2019年6月5日

面向新闻媒体的命名实体识别技术

面向新闻媒体的命名实体识别技术

PaperWeekly

18+阅读 · 2019年4月17日

独家 | 基于TextRank算法的文本摘要（附Python代码）

独家 | 基于TextRank算法的文本摘要（附Python代码）

数据派THU

14+阅读 · 2018年12月21日

一种关键字提取新方法

一种关键字提取新方法

1号机器人网

21+阅读 · 2018年11月15日

专栏 | NLP概述和文本自动分类算法详解

专栏 | NLP概述和文本自动分类算法详解

机器之心

12+阅读 · 2018年7月24日

机器学习自动文本分类

机器学习自动文本分类

AI前线

23+阅读 · 2018年2月4日

回顾 | 中科院自动化所副研究员刘康：开放域环境下文本事件抽取

回顾 | 中科院自动化所副研究员刘康：开放域环境下文本事件抽取

机器学习研究会

19+阅读 · 2017年12月15日

读者视角的跨领域隐式情感分析理论及关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于短文本的知识库自动更新关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

跨语言社会舆情分析基础理论与关键技术研究

国家自然科学基金

7+阅读 · 2013年12月31日

基于多语用户模型的个性化跨语言信息检索研究

国家自然科学基金

2+阅读 · 2013年12月31日

文本情绪分析中的关键问题研究

国家自然科学基金

3+阅读 · 2012年12月31日

面向文本信息安全的类别语义模型分类方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

维、哈、柯跨语言内容过滤关键技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

面向Web文本的属性和属性值知识获取方法研究

国家自然科学基金

1+阅读 · 2012年12月31日

中文语义依存分析资源构建及分析技术研究

国家自然科学基金

1+阅读 · 2011年12月31日

中文医学文本中关联信息提取方法研究

国家自然科学基金

2+阅读 · 2009年12月31日

VSEGAN: Visual Speech Enhancement Generative Adversarial Network

Arxiv

0+阅读 · 2022年4月20日

A New Parallel Algorithm for Sinkhorn Word-Movers Distance and Its Performance on PIUMA and Xeon CPU

Arxiv

0+阅读 · 2022年4月19日

XLM-E: Cross-lingual Language Model Pre-training via ELECTRA

Arxiv

0+阅读 · 2022年4月19日

Multimodal Few-Shot Object Detection with Meta-Learning Based Cross-Modal Prompting

Arxiv

0+阅读 · 2022年4月16日

UniGDD: A Unified Generative Framework for Goal-Oriented Document-Grounded Dialogue

Arxiv

0+阅读 · 2022年4月16日

Formalizing $\varphi$-calculus: a purely object-oriented calculus of decorated objects

Arxiv

0+阅读 · 2022年4月15日

Curriculum Learning: A Survey

Arxiv

24+阅读 · 2021年1月25日

LayoutLM: Pre-training of Text and Layout for Document Image Understanding

LayoutLM: Pre-training of Text and Layout for Document Image Understanding

Arxiv

12+阅读 · 2020年2月19日

Doc2EDAG: An End-to-End Document-level Framework for Chinese Financial Event Extraction

Doc2EDAG: An End-to-End Document-level Framework for Chinese Financial Event Extraction

Arxiv

11+阅读 · 2019年9月23日

Notes on Deep Learning for NLP

Arxiv

22+阅读 · 2018年8月30日

阅读: 0 点赞: 0

小贴士

登录享主题订阅及个性化推荐

相关主题

热门VIP内容

开通专知VIP会员享更多权益服务

【CMU博士论文】基础模型训练中网络规模数据的负责任与高效使用

《俄乌战争背景下俄罗斯的战略性海军分析（2022-2025年）》最新100页报告

人工智能时代背景下的未来海战

相关VIP内容

自然语言处理中的文本表示研究

自然语言处理中的文本表示研究

专知会员服务

58+阅读 · 2022年1月10日

文本对抗样本攻击与防御技术综述

专知会员服务

31+阅读 · 2021年9月11日

文本分类数据增强综述

专知会员服务

66+阅读 · 2021年7月11日

电子病历文本挖掘研究综述

专知会员服务

73+阅读 · 2021年3月27日

【EMNLP2020】自然语言分类任务的自监督元学习

专知会员服务

30+阅读 · 2020年9月18日

基于迁移学习的细粒度实体分类方法的研究

专知会员服务

32+阅读 · 2020年9月2日

基于多来源文本的中文医学知识图谱的构建

基于多来源文本的中文医学知识图谱的构建

专知会员服务

53+阅读 · 2020年8月21日

实体关系抽取方法研究综述

实体关系抽取方法研究综述

专知会员服务

178+阅读 · 2020年7月19日

基于多头注意力胶囊网络的文本分类模型

基于多头注意力胶囊网络的文本分类模型

专知会员服务

78+阅读 · 2020年5月24日

深度学习自然语言处理综述，266篇参考文献

深度学习自然语言处理综述，266篇参考文献

专知会员服务

231+阅读 · 2019年10月12日

相关资讯

赛尔原创@EMNLP 2021 | 预训练跨语言模型中的大词表构建及使用

赛尔原创@EMNLP 2021 | 预训练跨语言模型中的大词表构建及使用

哈工大SCIR

1+阅读 · 2021年12月31日

【论文笔记】韩家炜团队AutoPhrase：从大量文本库中自动挖掘短语

【论文笔记】韩家炜团队AutoPhrase：从大量文本库中自动挖掘短语

专知

41+阅读 · 2019年11月2日

基于知识图谱的文本挖掘 - 超越文本挖掘

基于知识图谱的文本挖掘 - 超越文本挖掘

专知

40+阅读 · 2019年8月18日

一文读懂文本处理中的对抗训练

一文读懂文本处理中的对抗训练

PaperWeekly

22+阅读 · 2019年6月5日

面向新闻媒体的命名实体识别技术

面向新闻媒体的命名实体识别技术

PaperWeekly

18+阅读 · 2019年4月17日

独家 | 基于TextRank算法的文本摘要（附Python代码）

独家 | 基于TextRank算法的文本摘要（附Python代码）

数据派THU

14+阅读 · 2018年12月21日

一种关键字提取新方法

一种关键字提取新方法

1号机器人网

21+阅读 · 2018年11月15日

专栏 | NLP概述和文本自动分类算法详解

专栏 | NLP概述和文本自动分类算法详解

机器之心

12+阅读 · 2018年7月24日

机器学习自动文本分类

机器学习自动文本分类

AI前线

23+阅读 · 2018年2月4日

回顾 | 中科院自动化所副研究员刘康：开放域环境下文本事件抽取

回顾 | 中科院自动化所副研究员刘康：开放域环境下文本事件抽取

机器学习研究会

19+阅读 · 2017年12月15日

相关基金

读者视角的跨领域隐式情感分析理论及关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于短文本的知识库自动更新关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

跨语言社会舆情分析基础理论与关键技术研究

国家自然科学基金

7+阅读 · 2013年12月31日

基于多语用户模型的个性化跨语言信息检索研究

国家自然科学基金

2+阅读 · 2013年12月31日

文本情绪分析中的关键问题研究

国家自然科学基金

3+阅读 · 2012年12月31日

面向文本信息安全的类别语义模型分类方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

维、哈、柯跨语言内容过滤关键技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

面向Web文本的属性和属性值知识获取方法研究

国家自然科学基金

1+阅读 · 2012年12月31日

中文语义依存分析资源构建及分析技术研究

国家自然科学基金

1+阅读 · 2011年12月31日

中文医学文本中关联信息提取方法研究

国家自然科学基金

2+阅读 · 2009年12月31日

相关论文

VSEGAN: Visual Speech Enhancement Generative Adversarial Network

Arxiv

0+阅读 · 2022年4月20日

A New Parallel Algorithm for Sinkhorn Word-Movers Distance and Its Performance on PIUMA and Xeon CPU

Arxiv

0+阅读 · 2022年4月19日

XLM-E: Cross-lingual Language Model Pre-training via ELECTRA

Arxiv

0+阅读 · 2022年4月19日

Multimodal Few-Shot Object Detection with Meta-Learning Based Cross-Modal Prompting

Arxiv

0+阅读 · 2022年4月16日

UniGDD: A Unified Generative Framework for Goal-Oriented Document-Grounded Dialogue

Arxiv

0+阅读 · 2022年4月16日

Formalizing $\varphi$-calculus: a purely object-oriented calculus of decorated objects

Arxiv

0+阅读 · 2022年4月15日

Curriculum Learning: A Survey

Arxiv

24+阅读 · 2021年1月25日

LayoutLM: Pre-training of Text and Layout for Document Image Understanding

LayoutLM: Pre-training of Text and Layout for Document Image Understanding

Arxiv

12+阅读 · 2020年2月19日

Doc2EDAG: An End-to-End Document-level Framework for Chinese Financial Event Extraction

Doc2EDAG: An End-to-End Document-level Framework for Chinese Financial Event Extraction

Arxiv

11+阅读 · 2019年9月23日

Notes on Deep Learning for NLP

Arxiv

22+阅读 · 2018年8月30日

微信扫码咨询专知VIP会员