项目名称: 面向查询的XML文本自动文摘研究

项目编号: No.60803105

项目类型: 青年科学基金项目

立项/批准年度: 2009

项目学科: 金属学与金属工艺

项目作者: 刘德喜

作者单位: 江西财经大学

项目金额: 19万元

中文摘要: 对信息检索结果进行自动摘要可以提高用户获取信息的效率。本项目围绕面向查询的XML文本摘要开展研究,取得的主要研究成果有:①#25552;出了以内容查询为主、结构查询为辅、不依赖于结构约束来查找答案结点并评价的方法;②#25552;出了面向用户查询意图的检索结果聚类方法;③#26500;建了3000余篇面向查询的XML文本摘要语料库;④#25552;出了基于三类特征的XML摘要句抽取方法及基于PageRank的摘要句重排方法;⑤#25552;出了基于主题概括强度的结点(标签/路径)语义权重模型;⑥#23558;结点语义权重用于改进BM25模型,提出了基于BM25SF的XML片段检索策略;⑦#21442;加了国际INEX 2011的片段检索评测,并取得了第二名的优异成绩;⑧#25552;出了不确定数据库上两种新的Top-k查询语义和快速搜索算法。获得的重要结论有:①#23545;XML查询结果的聚类和摘要要充分考虑用户的信息需求;②ML结构信息和结点的语义信息对提高XML检索和摘要的质量很有帮助;③#21033;用结点语义权重进行XML片段检索有助于用户快速了解原文档的相关性; ④ML摘要内容的重排需要考虑更多的因素。

中文关键词: XML检索;XML文本摘要;语料库;结点语义;片段检索

英文摘要: Automatic summarization of retrieval results can improve the efficiency of the user access to information. Supported by this project, we studied the query-oriented summarization of the XML text and the main contributions are list as follows: ①e proposed a method to find and evaluate the answer nodes, which is content query-based, supplemented by structured query and does not depend on the structural constraints; ②e put forward a query-oriented clustering method for the retrieved results; ③e built a query-oriented XML text summarization corpus that includes more than 3,000 manual articles; ④e proposed a sentence extraction method for XML summarization based on three types of features, and a sentence reordering method based on PageRank; ⑤e put forward a automatically weighting method for XML node (tag/path) based on the strength of topic generalization; ⑥e employed node weights to BM25 model and proposed BM25SF model for XML snippet retrieval; ⑦e participated in the INEX 2011 and one of our runs ranked 2 among 50 runs from 10 participators; ⑧we proposed two novel Top-k query semantics and the corresponding query processing methods for uncertain database. The main conclusions of this project are: ①user's information needs should be taken into consideration sufficiently when clustering and summarizing results of XML retrieval system; ②tructural and semantic information of XML nodes are beneficial to improve the quality of the XML retrieval and XML summarization; ③he XML snippet, retrieved based on the node semantic weights, is helpful for users to quickly decide which document is related; ④ore factors should be considered for automation summarization of XML text.

英文关键词: XML Retrieval; XML Text Summarization; Corpus; Node Semantic; Snippet Retrieval

成为VIP会员查看完整内容
0

相关内容

语料库是语料库语言学研究的基础资源,也是经验主义语言研究方法的主要资源。应用于词典编纂,语言教学,传统语言研究,自然语言处理中基于统计或实例的研究等方面。
面向知识图谱的知识推理综述
专知会员服务
149+阅读 · 2021年11月1日
专知会员服务
16+阅读 · 2021年8月24日
专知会员服务
6+阅读 · 2021年8月7日
专知会员服务
71+阅读 · 2021年5月21日
专知会员服务
37+阅读 · 2021年5月14日
专知会员服务
71+阅读 · 2021年3月27日
自动文本摘要研究综述
专知会员服务
67+阅读 · 2021年1月31日
专知会员服务
35+阅读 · 2020年11月29日
专知会员服务
195+阅读 · 2020年10月14日
【论文推荐】文本摘要简述
专知会员服务
68+阅读 · 2020年7月20日
论文浅尝 | 面向开放域的无监督实体对齐
开放知识图谱
1+阅读 · 2021年8月24日
电子病历文本挖掘研究综述
专知
3+阅读 · 2021年3月27日
AAAI 2020 | 多模态基准指导的生成式多模态自动文摘
AI科技评论
16+阅读 · 2020年1月5日
论文浅尝 | 基于复杂查询图编码的知识库问答
开放知识图谱
17+阅读 · 2019年7月22日
深度文本匹配在智能客服中的应用
AI100
18+阅读 · 2018年10月24日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
3+阅读 · 2008年12月31日
国家自然科学基金
5+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2022年4月19日
小贴士
相关VIP内容
面向知识图谱的知识推理综述
专知会员服务
149+阅读 · 2021年11月1日
专知会员服务
16+阅读 · 2021年8月24日
专知会员服务
6+阅读 · 2021年8月7日
专知会员服务
71+阅读 · 2021年5月21日
专知会员服务
37+阅读 · 2021年5月14日
专知会员服务
71+阅读 · 2021年3月27日
自动文本摘要研究综述
专知会员服务
67+阅读 · 2021年1月31日
专知会员服务
35+阅读 · 2020年11月29日
专知会员服务
195+阅读 · 2020年10月14日
【论文推荐】文本摘要简述
专知会员服务
68+阅读 · 2020年7月20日
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
3+阅读 · 2008年12月31日
国家自然科学基金
5+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员