无指导汉语文本挖掘的统计模型和统计推断 - 专知基金

会员服务 ·

0

无指导学习 · 知识获取 · 统计模型 ·

2013 年 12 月 31 日

无指导汉语文本挖掘的统计模型和统计推断

国家自然科学基金

国家自然科学基金委员会

项目名称： 无指导汉语文本挖掘的统计模型和统计推断

项目编号： No.11401338

项目类型： 青年科学基金项目

立项/批准年度： 2014

项目学科： 数理科学和化学

项目作者： 邓柯

作者单位： 清华大学

项目金额： 22万元

中文摘要： 近年来，大规模数字化汉语文本可以方便地收集到。对这些文本的自动处理和信息提取有迫切需求。长期以来，汉语文本挖掘的理论和方法研究主要在计算机科学领域展开，已取得诸多成果。但是，现有方法大都是有指导的方法，需要使用 “语料库” 作为训练数据。但在许多实际问题中，获取有代表性的“语料库”非常困难。另外，现有方法大都将分词、未登陆词识别和命名实体分类等关键问题分开处理。但这些问题实际上是相互缠绕，互为因果的。将它们整合在一起联合处理是解决问题的最佳途径。但现有文本分析技术大都无法实现这一点。本项目提出了一种基于统计模型和统计推断来分析汉语文本的新方法。该方法将汉语文本挖掘的几大关键问题纳入一个系统的统计模型下做整体处理，克服了已有方法的重大缺陷。新方法有很强的自主学习能力，可以在没有训练数据和语法规则指导的情况下，运用统计学原理自主发现文本的用词和语法规律，并利用这些规律完成文本分析任务。

中文关键词： 中文文本分析；无指导学习；新词发现；知识获取；统计模型

英文摘要： In recent years, large quantities of digitalized Chinese texts can be easily collected. There is great appeal in developing text mining tools to automatically extract information from these data. In past, most theoretical and methodological studies on Chi

英文关键词： Chinese text minng；Unsupervised learing；word discovery；knowledge acquisition；statistical model

成为VIP会员查看完整内容

0

相关内容

无指导学习

无指导学习

【经典书】时间序列分析与预测导论，671页pdf

【经典书】时间序列分析与预测导论，671页pdf

专知会员服务

153+阅读 · 2022年4月1日

NeurIPS2021 | Cycle Self-Training：领域自适应的循环自训练方法与理论

NeurIPS2021 | Cycle Self-Training：领域自适应的循环自训练方法与理论

专知会员服务

20+阅读 · 2021年11月13日

【经典书】概率与统计导论，641页pdf

专知会员服务

121+阅读 · 2021年10月6日

统计物理方法中的优化和机器学习

专知会员服务

50+阅读 · 2021年8月4日

因果知识图谱自然语言理解

专知会员服务

81+阅读 · 2021年7月3日

最新《深度学习序列标记》综述论文，16页pdf134篇参考文献

最新《深度学习序列标记》综述论文，16页pdf134篇参考文献

专知会员服务

41+阅读 · 2020年11月18日

【EMNLP 2020】融合自训练和自监督方法的无监督文本顺滑研究

【EMNLP 2020】融合自训练和自监督方法的无监督文本顺滑研究

专知会员服务

24+阅读 · 2020年10月18日

最新《因果推断导论》课程，102页ppt

最新《因果推断导论》课程，102页ppt

专知会员服务

185+阅读 · 2020年9月1日

【神经语言生成：形式化，方法与评价，70页pdf】

【神经语言生成：形式化，方法与评价，70页pdf】

专知会员服务

37+阅读 · 2020年8月8日

慕尼黑大学LMU博士论文：自然语言文本神经网络信息提取，240页pdf

慕尼黑大学LMU博士论文：自然语言文本神经网络信息提取，240页pdf

专知会员服务

74+阅读 · 2020年1月13日

交叉描述：图像和文本的语义相似度

交叉描述：图像和文本的语义相似度

TensorFlow

2+阅读 · 2021年6月22日

电子病历文本挖掘研究综述

电子病历文本挖掘研究综述

专知

3+阅读 · 2021年3月27日

基于知识图谱的文本挖掘 - 超越文本挖掘

基于知识图谱的文本挖掘 - 超越文本挖掘

专知

40+阅读 · 2019年8月18日

【NAACL2019】182页PPT带你回顾自然语言推断的前世今生

【NAACL2019】182页PPT带你回顾自然语言推断的前世今生

专知

36+阅读 · 2019年6月4日

主题模型 | 挖掘商品在线评论的主题特征（NLP方法）

主题模型 | 挖掘商品在线评论的主题特征（NLP方法）

沈浩老师

45+阅读 · 2018年11月6日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

300页文本知识提取与推断最新教程

300页文本知识提取与推断最新教程

机器学习算法与Python学习

13+阅读 · 2018年8月28日

计算文本相似度常用的四种方法

计算文本相似度常用的四种方法

论智

33+阅读 · 2018年5月18日

面向汉语文本理解的语义计算方法

国家自然科学基金

8+阅读 · 2014年12月31日

基于单语语料的无监督统计机器翻译模型研究

国家自然科学基金

1+阅读 · 2013年12月31日

汉语多层次语篇分析理论方法研究与应用

国家自然科学基金

0+阅读 · 2013年12月31日

基于句子语义结构的统计机器翻译研究

国家自然科学基金

1+阅读 · 2013年12月31日

汉语词法与句法结构的统一分析

国家自然科学基金

0+阅读 · 2012年12月31日

基于统计的维吾尔语依存句法分析若干关键技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于深层学习的汉语句法语义分析研究

国家自然科学基金

3+阅读 · 2012年12月31日

汉语文本推理的资源建设和统计分析研究

国家自然科学基金

0+阅读 · 2011年12月31日

面向Web文本的因果知识获取方法研究

国家自然科学基金

2+阅读 · 2011年12月31日

基于Web及知识获取的无指导汉语词义消歧技术研究

国家自然科学基金

0+阅读 · 2009年12月31日

LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking

LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking

Arxiv

0+阅读 · 2022年4月19日

CodexDB: Generating Code for Processing SQL Queries using GPT-3 Codex

Arxiv

2+阅读 · 2022年4月19日

Cross-Lingual Phrase Retrieval

Arxiv

0+阅读 · 2022年4月19日

Quantum Bayesian Statistical Inference

Arxiv

1+阅读 · 2022年4月19日

Detection Interval for Diffusion Molecular Communication: How Long is Enough?

Arxiv

0+阅读 · 2022年4月19日

Multilingual Molecular Representation Learning via Contrastive Pre-training

Multilingual Molecular Representation Learning via Contrastive Pre-training

Arxiv

0+阅读 · 2022年4月18日

ALT: um software para análise de legibilidade de textos em Língua Portuguesa

Arxiv

0+阅读 · 2022年4月17日

PAC-Bayesian Based Adaptation for Regularized Learning

Arxiv

1+阅读 · 2022年4月16日

Analysis of Workflow Schedulers in Simulated Distributed Environments

Arxiv

0+阅读 · 2022年4月14日

Video Captioning via Hierarchical Reinforcement Learning

Arxiv

20+阅读 · 2018年3月29日

阅读: 0 点赞: 0

小贴士

登录享主题订阅及个性化推荐

相关主题

无指导学习

热门VIP内容

开通专知VIP会员享更多权益服务

大语言模型中的事件抽取：方法、模态与未来展望的全面综述

美海军作战管理系统：变革战场空间的二十年

【MIT博士论文】以语言为中心的医学影像理解

俄罗斯“沙希德”/“天竺葵”攻击无人机

相关VIP内容

【经典书】时间序列分析与预测导论，671页pdf

【经典书】时间序列分析与预测导论，671页pdf

专知会员服务

153+阅读 · 2022年4月1日

NeurIPS2021 | Cycle Self-Training：领域自适应的循环自训练方法与理论

NeurIPS2021 | Cycle Self-Training：领域自适应的循环自训练方法与理论

专知会员服务

20+阅读 · 2021年11月13日

【经典书】概率与统计导论，641页pdf

专知会员服务

121+阅读 · 2021年10月6日

统计物理方法中的优化和机器学习

专知会员服务

50+阅读 · 2021年8月4日

因果知识图谱自然语言理解

专知会员服务

81+阅读 · 2021年7月3日

最新《深度学习序列标记》综述论文，16页pdf134篇参考文献

最新《深度学习序列标记》综述论文，16页pdf134篇参考文献

专知会员服务

41+阅读 · 2020年11月18日

【EMNLP 2020】融合自训练和自监督方法的无监督文本顺滑研究

【EMNLP 2020】融合自训练和自监督方法的无监督文本顺滑研究

专知会员服务

24+阅读 · 2020年10月18日

最新《因果推断导论》课程，102页ppt

最新《因果推断导论》课程，102页ppt

专知会员服务

185+阅读 · 2020年9月1日

【神经语言生成：形式化，方法与评价，70页pdf】

【神经语言生成：形式化，方法与评价，70页pdf】

专知会员服务

37+阅读 · 2020年8月8日

慕尼黑大学LMU博士论文：自然语言文本神经网络信息提取，240页pdf

慕尼黑大学LMU博士论文：自然语言文本神经网络信息提取，240页pdf

专知会员服务

74+阅读 · 2020年1月13日

相关资讯

交叉描述：图像和文本的语义相似度

交叉描述：图像和文本的语义相似度

TensorFlow

2+阅读 · 2021年6月22日

电子病历文本挖掘研究综述

电子病历文本挖掘研究综述

专知

3+阅读 · 2021年3月27日

基于知识图谱的文本挖掘 - 超越文本挖掘

基于知识图谱的文本挖掘 - 超越文本挖掘

专知

40+阅读 · 2019年8月18日

【NAACL2019】182页PPT带你回顾自然语言推断的前世今生

【NAACL2019】182页PPT带你回顾自然语言推断的前世今生

专知

36+阅读 · 2019年6月4日

主题模型 | 挖掘商品在线评论的主题特征（NLP方法）

主题模型 | 挖掘商品在线评论的主题特征（NLP方法）

沈浩老师

45+阅读 · 2018年11月6日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

300页文本知识提取与推断最新教程

300页文本知识提取与推断最新教程

机器学习算法与Python学习

13+阅读 · 2018年8月28日

计算文本相似度常用的四种方法

计算文本相似度常用的四种方法

论智

33+阅读 · 2018年5月18日

相关基金

面向汉语文本理解的语义计算方法

国家自然科学基金

8+阅读 · 2014年12月31日

基于单语语料的无监督统计机器翻译模型研究

国家自然科学基金

1+阅读 · 2013年12月31日

汉语多层次语篇分析理论方法研究与应用

国家自然科学基金

0+阅读 · 2013年12月31日

基于句子语义结构的统计机器翻译研究

国家自然科学基金

1+阅读 · 2013年12月31日

汉语词法与句法结构的统一分析

国家自然科学基金

0+阅读 · 2012年12月31日

基于统计的维吾尔语依存句法分析若干关键技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于深层学习的汉语句法语义分析研究

国家自然科学基金

3+阅读 · 2012年12月31日

汉语文本推理的资源建设和统计分析研究

国家自然科学基金

0+阅读 · 2011年12月31日

面向Web文本的因果知识获取方法研究

国家自然科学基金

2+阅读 · 2011年12月31日

基于Web及知识获取的无指导汉语词义消歧技术研究

国家自然科学基金

0+阅读 · 2009年12月31日

相关论文

LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking

LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking

Arxiv

0+阅读 · 2022年4月19日

CodexDB: Generating Code for Processing SQL Queries using GPT-3 Codex

Arxiv

2+阅读 · 2022年4月19日

Cross-Lingual Phrase Retrieval

Arxiv

0+阅读 · 2022年4月19日

Quantum Bayesian Statistical Inference

Arxiv

1+阅读 · 2022年4月19日

Detection Interval for Diffusion Molecular Communication: How Long is Enough?

Arxiv

0+阅读 · 2022年4月19日

Multilingual Molecular Representation Learning via Contrastive Pre-training

Multilingual Molecular Representation Learning via Contrastive Pre-training

Arxiv

0+阅读 · 2022年4月18日

ALT: um software para análise de legibilidade de textos em Língua Portuguesa

Arxiv

0+阅读 · 2022年4月17日

PAC-Bayesian Based Adaptation for Regularized Learning

Arxiv

1+阅读 · 2022年4月16日

Analysis of Workflow Schedulers in Simulated Distributed Environments

Arxiv

0+阅读 · 2022年4月14日

Video Captioning via Hierarchical Reinforcement Learning

Arxiv

20+阅读 · 2018年3月29日

微信扫码咨询专知VIP会员