互联网藏文文本资源挖掘及语料抽取关键技术研究 - 专知基金

会员服务 ·

0

语料库 · 数据挖掘 · 藏文分词 · 词性标注 ·

2012 年 12 月 31 日

互联网藏文文本资源挖掘及语料抽取关键技术研究

国家自然科学基金

国家自然科学基金委员会

项目名称： 互联网藏文文本资源挖掘及语料抽取关键技术研究

项目编号： No.61202219

项目类型： 青年科学基金项目

立项/批准年度： 2013

项目学科： 计算机科学学科

项目作者： 刘汇丹

作者单位： 中国科学院软件研究所

项目金额： 23万元

中文摘要： 藏文信息处理目前面临着基础语料匮乏的困境，互联网为我们提供了大量的藏文文本资源，是藏文语料的一个重要来源。本项目将利用网络爬虫与藏文自动编码识别技术，自动从海量的互联网资源中挖掘藏文资源，并配合人工分析，考察藏文文本资源的分布情况和存在形式，发现有利用价值的藏文文本资源；我们将建立藏文搜索引擎原型系统，对互联网藏文资源进行有效索引，以便于挖掘包含预设模式的网络资源；将研究藏文网页的全自动篇章抽取技术和汉藏双语平行语料的自动发现技术，并自动采集藏文篇章语料和汉藏双语平行语料；本项目将建立藏文文本资源URL库、藏文篇章语料库、互联网藏文词（短语）库、汉藏双语平行语料库，并基于大规模藏文语料进行词频统计、训练藏文语言模型，为藏文信息处理的研究提供基础资源。

中文关键词： 藏文；语料库；数据挖掘；藏文分词；词性标注

英文摘要： Tibetan information processing is currently faced with the predicament of lack of basic corpus, the Internet provides us with a large number of Tibetan text resources, Which is an important source of the Tibetan corpus.In this program, first of all, we will exploit Tibetan text resource from the vast amounts of resources over the internet automatically, with web crawler and Tibetan automatic encoding recognition technology. Analyzing those resources, we will have a comprehensive understanding on the distribution, existence form of Tibetan text resource over the internet, and where and how they can be used in Tibetan natural language processing task. Second, we will build a Tibetan search engine, and effectively index those Tibetan Text resources. With it, we can check whether or not any Tibetan text resources meeting a predefined pattern exist on the internet. Then, we will make research on the automatic extracting technology of Tibetan news and articals, including their title, author, time, content and other information. The automatic detecting technology of Chinese-Tibetan parallel text is also one of our interesting. We will take advantage of the Tibetan search engine and Chines-Tibetan dictionary to realize it. In addition, applying all those technologies, we will build many Tibetan related corpora, such as

英文关键词： Tibetan；Corpus；Data mining；Tibetan word segmentation；Part-of-speech tagging

成为VIP会员查看完整内容

2

相关内容

语料库

语料库是语料库语言学研究的基础资源，也是经验主义语言研究方法的主要资源。应用于词典编纂，语言教学，传统语言研究，自然语言处理中基于统计或实例的研究等方面。

空间数据智能：概念、技术与挑战

空间数据智能：概念、技术与挑战

专知会员服务

92+阅读 · 2022年2月3日

自然语言处理中的文本表示研究

自然语言处理中的文本表示研究

专知会员服务

58+阅读 · 2022年1月10日

UIUC韩家炜：从海量非结构化文本中挖掘结构化知识

UIUC韩家炜：从海量非结构化文本中挖掘结构化知识

专知会员服务

98+阅读 · 2021年12月30日

预训练模型如何用于文本挖掘？看这份KDD2021-UIUC《预训练文本表示:模型与应用在文本挖掘》教程，附200页Slides

专知会员服务

44+阅读 · 2021年8月18日

文本情感对话系统研究综述

专知会员服务

74+阅读 · 2021年5月21日

电子病历文本挖掘研究综述

专知会员服务

73+阅读 · 2021年3月27日

面向知识图谱的信息抽取

专知会员服务

202+阅读 · 2020年10月14日

事件知识图谱构建技术与应用综述

事件知识图谱构建技术与应用综述

专知会员服务

154+阅读 · 2020年8月6日

【新书】自然语言处理表示学习技术，349页pdf，清华大学

【新书】自然语言处理表示学习技术，349页pdf，清华大学

专知会员服务

174+阅读 · 2020年7月11日

数据挖掘大拿韩家炜：从非结构化文本到知识立方TextCube：自动化构建和多维探索

数据挖掘大拿韩家炜：从非结构化文本到知识立方TextCube：自动化构建和多维探索

专知会员服务

101+阅读 · 2019年12月28日

UIUC韩家炜：从海量非结构化文本中挖掘结构化知识

UIUC韩家炜：从海量非结构化文本中挖掘结构化知识

专知

6+阅读 · 2021年12月30日

【翻译技术速递】测评：免费的术语抽取工具

【翻译技术速递】测评：免费的术语抽取工具

翻译技术沙龙

139+阅读 · 2019年11月2日

基于知识图谱的文本挖掘 - 超越文本挖掘

基于知识图谱的文本挖掘 - 超越文本挖掘

专知

40+阅读 · 2019年8月18日

别找了，送你 20 个文本数据集

别找了，送你 20 个文本数据集

机器学习算法与Python学习

69+阅读 · 2019年5月17日

面向新闻媒体的命名实体识别技术

面向新闻媒体的命名实体识别技术

PaperWeekly

18+阅读 · 2019年4月17日

funNLP: 从文本中抽取结构化信息的超级资源包

funNLP: 从文本中抽取结构化信息的超级资源包

AINLP

20+阅读 · 2019年1月25日

一份超全的NLP语料资源集合及其构建现状

一份超全的NLP语料资源集合及其构建现状

七月在线实验室

33+阅读 · 2019年1月16日

干货下载 | 中文自然语言处理语料/数据集

干货下载 | 中文自然语言处理语料/数据集

七月在线实验室

40+阅读 · 2018年12月27日

【KDD2018】UIUC韩家炜团队218页文本语料数据挖掘教程

【KDD2018】UIUC韩家炜团队218页文本语料数据挖掘教程

专知

21+阅读 · 2018年8月22日

怎样构建中文文本标注工具?（附工具、代码、论文等资源）

怎样构建中文文本标注工具?（附工具、代码、论文等资源）

数据派THU

14+阅读 · 2017年11月26日

基于藏文网络动态流通语料的语义文本分类技术研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于复杂网络的中文文本语义相似度研究

国家自然科学基金

3+阅读 · 2012年12月31日

互联网环境下中文实体知识挖掘关键技术研究

国家自然科学基金

3+阅读 · 2012年12月31日

情感信息抽取的资源建设及关键技术研究

国家自然科学基金

2+阅读 · 2012年12月31日

藏文字符信息熵研究

国家自然科学基金

0+阅读 · 2011年12月31日

中文语义依存分析资源构建及分析技术研究

国家自然科学基金

1+阅读 · 2011年12月31日

基于树结构模式挖掘的Web信息抽取研究

国家自然科学基金

1+阅读 · 2010年12月31日

自适应的中文网络意见挖掘关键技术研究

国家自然科学基金

0+阅读 · 2009年12月31日

汉语框架语义依存图自动抽取关键技术研究

国家自然科学基金

0+阅读 · 2009年12月31日

面向Web环境下藏语社会网络分析的关键技术研究

国家自然科学基金

0+阅读 · 2009年12月31日

No-Regret Caching via Online Mirror Descent

Arxiv

1+阅读 · 2022年4月20日

The 2020 Census Disclosure Avoidance System TopDown Algorithm

Arxiv

0+阅读 · 2022年4月19日

Cross-Lingual Phrase Retrieval

Arxiv

0+阅读 · 2022年4月19日

VCoach: A Customizable Visualization and Analysis System for Video-based Running Coaching

Arxiv

0+阅读 · 2022年4月19日

Detection Interval for Diffusion Molecular Communication: How Long is Enough?

Arxiv

0+阅读 · 2022年4月19日

Chinese Idiom Paraphrasing

Chinese Idiom Paraphrasing

Arxiv

0+阅读 · 2022年4月15日

Stretching Sentence-pair NLI Models to Reason over Long Documents and Clusters

Stretching Sentence-pair NLI Models to Reason over Long Documents and Clusters

Arxiv

0+阅读 · 2022年4月15日

Performance and Construction of Polar Codes: The Perspective of Bit Error Probability

Arxiv

0+阅读 · 2022年4月15日

Generalized Universal Coding of Integers

Arxiv

0+阅读 · 2022年4月15日

Image-to-Image Retrieval by Learning Similarity between Scene Graphs

Arxiv

21+阅读 · 2020年12月29日

阅读: 0 点赞: 0

小贴士

登录享主题订阅及个性化推荐

相关主题

热门VIP内容

开通专知VIP会员享更多权益服务

《代码、指挥与冲突：描绘军事人工智能的未来》报告

【斯坦福博士论文】面向地理空间数据的多模态与多尺度建模：时空生成式人工智能

美国启动“自有军事人工智能计划”：采用谷歌Gemini以推动全军人工智能应用

《创新与适应性作为军事成功的关键因素：来自俄乌战争的战略洞见》报告

相关VIP内容

空间数据智能：概念、技术与挑战

空间数据智能：概念、技术与挑战

专知会员服务

92+阅读 · 2022年2月3日

自然语言处理中的文本表示研究

自然语言处理中的文本表示研究

专知会员服务

58+阅读 · 2022年1月10日

UIUC韩家炜：从海量非结构化文本中挖掘结构化知识

UIUC韩家炜：从海量非结构化文本中挖掘结构化知识

专知会员服务

98+阅读 · 2021年12月30日

预训练模型如何用于文本挖掘？看这份KDD2021-UIUC《预训练文本表示:模型与应用在文本挖掘》教程，附200页Slides

专知会员服务

44+阅读 · 2021年8月18日

文本情感对话系统研究综述

专知会员服务

74+阅读 · 2021年5月21日

电子病历文本挖掘研究综述

专知会员服务

73+阅读 · 2021年3月27日

面向知识图谱的信息抽取

专知会员服务

202+阅读 · 2020年10月14日

事件知识图谱构建技术与应用综述

事件知识图谱构建技术与应用综述

专知会员服务

154+阅读 · 2020年8月6日

【新书】自然语言处理表示学习技术，349页pdf，清华大学

【新书】自然语言处理表示学习技术，349页pdf，清华大学

专知会员服务

174+阅读 · 2020年7月11日

数据挖掘大拿韩家炜：从非结构化文本到知识立方TextCube：自动化构建和多维探索

数据挖掘大拿韩家炜：从非结构化文本到知识立方TextCube：自动化构建和多维探索

专知会员服务

101+阅读 · 2019年12月28日

相关资讯

UIUC韩家炜：从海量非结构化文本中挖掘结构化知识

UIUC韩家炜：从海量非结构化文本中挖掘结构化知识

专知

6+阅读 · 2021年12月30日

【翻译技术速递】测评：免费的术语抽取工具

【翻译技术速递】测评：免费的术语抽取工具

翻译技术沙龙

139+阅读 · 2019年11月2日

基于知识图谱的文本挖掘 - 超越文本挖掘

基于知识图谱的文本挖掘 - 超越文本挖掘

专知

40+阅读 · 2019年8月18日

别找了，送你 20 个文本数据集

别找了，送你 20 个文本数据集

机器学习算法与Python学习

69+阅读 · 2019年5月17日

面向新闻媒体的命名实体识别技术

面向新闻媒体的命名实体识别技术

PaperWeekly

18+阅读 · 2019年4月17日

funNLP: 从文本中抽取结构化信息的超级资源包

funNLP: 从文本中抽取结构化信息的超级资源包

AINLP

20+阅读 · 2019年1月25日

一份超全的NLP语料资源集合及其构建现状

一份超全的NLP语料资源集合及其构建现状

七月在线实验室

33+阅读 · 2019年1月16日

干货下载 | 中文自然语言处理语料/数据集

干货下载 | 中文自然语言处理语料/数据集

七月在线实验室

40+阅读 · 2018年12月27日

【KDD2018】UIUC韩家炜团队218页文本语料数据挖掘教程

【KDD2018】UIUC韩家炜团队218页文本语料数据挖掘教程

专知

21+阅读 · 2018年8月22日

怎样构建中文文本标注工具?（附工具、代码、论文等资源）

怎样构建中文文本标注工具?（附工具、代码、论文等资源）

数据派THU

14+阅读 · 2017年11月26日

相关基金

基于藏文网络动态流通语料的语义文本分类技术研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于复杂网络的中文文本语义相似度研究

国家自然科学基金

3+阅读 · 2012年12月31日

互联网环境下中文实体知识挖掘关键技术研究

国家自然科学基金

3+阅读 · 2012年12月31日

情感信息抽取的资源建设及关键技术研究

国家自然科学基金

2+阅读 · 2012年12月31日

藏文字符信息熵研究

国家自然科学基金

0+阅读 · 2011年12月31日

中文语义依存分析资源构建及分析技术研究

国家自然科学基金

1+阅读 · 2011年12月31日

基于树结构模式挖掘的Web信息抽取研究

国家自然科学基金

1+阅读 · 2010年12月31日

自适应的中文网络意见挖掘关键技术研究

国家自然科学基金

0+阅读 · 2009年12月31日

汉语框架语义依存图自动抽取关键技术研究

国家自然科学基金

0+阅读 · 2009年12月31日

面向Web环境下藏语社会网络分析的关键技术研究

国家自然科学基金

0+阅读 · 2009年12月31日

相关论文

No-Regret Caching via Online Mirror Descent

Arxiv

1+阅读 · 2022年4月20日

The 2020 Census Disclosure Avoidance System TopDown Algorithm

Arxiv

0+阅读 · 2022年4月19日

Cross-Lingual Phrase Retrieval

Arxiv

0+阅读 · 2022年4月19日

VCoach: A Customizable Visualization and Analysis System for Video-based Running Coaching

Arxiv

0+阅读 · 2022年4月19日

Detection Interval for Diffusion Molecular Communication: How Long is Enough?

Arxiv

0+阅读 · 2022年4月19日

Chinese Idiom Paraphrasing

Chinese Idiom Paraphrasing

Arxiv

0+阅读 · 2022年4月15日

Stretching Sentence-pair NLI Models to Reason over Long Documents and Clusters

Stretching Sentence-pair NLI Models to Reason over Long Documents and Clusters

Arxiv

0+阅读 · 2022年4月15日

Performance and Construction of Polar Codes: The Perspective of Bit Error Probability

Arxiv

0+阅读 · 2022年4月15日

Generalized Universal Coding of Integers

Arxiv

0+阅读 · 2022年4月15日

Image-to-Image Retrieval by Learning Similarity between Scene Graphs

Arxiv

21+阅读 · 2020年12月29日

微信扫码咨询专知VIP会员