项目名称: 面向互联网舆情分析的文档自动摘要关键技术研究

项目编号: No.60873155

项目类型: 面上项目

立项/批准年度: 2009

项目学科: 轻工业、手工业

项目作者: 万小军

作者单位: 北京大学

项目金额: 29万元

中文摘要: 文档自动摘要的目的在于对文本内容进行提炼和总结,方便用户快速获取信息。互联网舆情内容包括新闻、博客、评论等,具有海量、动态演化、多语言、情感相关等特性,这些特性给传统的文档自动摘要技术带来了很大的挑战。本项目首先研究了文档自动摘要相关技术,进而深入研究了动态演化式摘要、跨语言摘要、比较式摘要、情感分析与观点抽取等新技术。本项目在若干关键技术上取得了学术突破,基于项目研究成果及相关成果共发表高水平学术论文24篇,其中14篇发表在领域顶级国际期刊Computational Linguistics、ACM Transactions on Information Systems与顶级国际会议ACL、SIGIR、IJCAI、COLING、EMNLP、ICDM上。参加相关领域多项国际权威评测均取得第一名的优异成绩。申请国家发明专利7项,部分技术成功应用于互联网舆情分析系统。

中文关键词: 文档自动摘要;跨语言摘要;动态演化摘要;比较式摘要;情感分析与观点抽取

英文摘要: Automatic document summarization aims to refine and summarize the major content in texts, thus facilitating users to quickly acquire useful information. Web documents include news articles, blogs, comments, etc. Different from traditional document summarization, the summarization task for Web documents is very challenging because of its massive, evolutionary, multi-lingual and sentiment-related characteristics. In this project, we firstly investigated related techniques of document summarization, and then investigated several new techniques, including evolutionary summarization, cross-lingual summarization, comparative summarization, sentiment analysis and opinion extraction, etc. Based on the academic breakthroughs we achieved in this project, twenty-four high-quality papers have been published, and fourteen papers were published on leading international journals (Computational Linguistics and ACM Transactions on Information Systems) and leading international conferences (ACL, SIGIR, IJCAI, COLING, EMNLP and ICDM).We participated in several leading international evaluations and ranked first with best performance. Seven patent applications have been filed. Several techniques have been applied to the real system of Internet public opinion analysis.

英文关键词: Document Summarization; Cross-Lingual Summarization; Evolutionary Summarization; Comparative Summarization; Sentiment Analysis and Opinion Extraction

成为VIP会员查看完整内容
0

相关内容

自然语言处理中的文本表示研究
专知会员服务
56+阅读 · 2022年1月10日
自动文本摘要研究综述
专知会员服务
67+阅读 · 2021年1月31日
专知会员服务
193+阅读 · 2020年10月14日
实体关系抽取方法研究综述
专知会员服务
176+阅读 · 2020年7月19日
【北航】面向自然语言处理的预训练技术研究综述
专知会员服务
112+阅读 · 2020年4月23日
 【中科院信工所】社交媒体情感分析,40页ppt
专知会员服务
99+阅读 · 2019年12月13日
清华大学张敏老师,个性化推荐的基础与趋势,145页ppt
专知会员服务
86+阅读 · 2019年11月27日
自然语言处理中的文本表示研究
专知
0+阅读 · 2022年1月10日
赛尔笔记| 对话摘要简述
哈工大SCIR
0+阅读 · 2021年6月15日
基于机器阅读理解(MRC)的信息抽取方法
DataFunTalk
13+阅读 · 2019年11月1日
【北大】知识图谱的关键技术及其智能应用
专知
112+阅读 · 2019年9月19日
面向新闻媒体的命名实体识别技术
PaperWeekly
18+阅读 · 2019年4月17日
独家 | 基于TextRank算法的文本摘要(附Python代码)
数据派THU
14+阅读 · 2018年12月21日
基于Lattice LSTM的命名实体识别
微信AI
47+阅读 · 2018年10月19日
计算文本相似度常用的四种方法
论智
33+阅读 · 2018年5月18日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Arxiv
15+阅读 · 2019年6月25日
Arxiv
14+阅读 · 2018年4月18日
小贴士
相关VIP内容
自然语言处理中的文本表示研究
专知会员服务
56+阅读 · 2022年1月10日
自动文本摘要研究综述
专知会员服务
67+阅读 · 2021年1月31日
专知会员服务
193+阅读 · 2020年10月14日
实体关系抽取方法研究综述
专知会员服务
176+阅读 · 2020年7月19日
【北航】面向自然语言处理的预训练技术研究综述
专知会员服务
112+阅读 · 2020年4月23日
 【中科院信工所】社交媒体情感分析,40页ppt
专知会员服务
99+阅读 · 2019年12月13日
清华大学张敏老师,个性化推荐的基础与趋势,145页ppt
专知会员服务
86+阅读 · 2019年11月27日
相关资讯
自然语言处理中的文本表示研究
专知
0+阅读 · 2022年1月10日
赛尔笔记| 对话摘要简述
哈工大SCIR
0+阅读 · 2021年6月15日
基于机器阅读理解(MRC)的信息抽取方法
DataFunTalk
13+阅读 · 2019年11月1日
【北大】知识图谱的关键技术及其智能应用
专知
112+阅读 · 2019年9月19日
面向新闻媒体的命名实体识别技术
PaperWeekly
18+阅读 · 2019年4月17日
独家 | 基于TextRank算法的文本摘要(附Python代码)
数据派THU
14+阅读 · 2018年12月21日
基于Lattice LSTM的命名实体识别
微信AI
47+阅读 · 2018年10月19日
计算文本相似度常用的四种方法
论智
33+阅读 · 2018年5月18日
相关基金
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员