项目名称: 基于文本语境约束的XML商业报告多维分析模型研究

项目编号: No.61303155

项目类型: 青年科学基金项目

立项/批准年度: 2014

项目学科: 自动化技术、计算机技术

项目作者: 黄敏

作者单位: 中国科学院大学

项目金额: 23万元

中文摘要: 针对XML商业报告采用XLink机制进行跨文档元素关联、报告中融合大量文本信息对结构化表格进行说明的特性,研究基于文本语境约束的海量XML商业报告的多维分析模型。首先,研究支持跨文档链接弧的索引构建方法和导航算法,为多维分析模型提供数据获取机制。其次,通过关键字查询方法获取关联的文本语境,进而结合结构化表格的维度值、基于领域本体规则推理从文本中自动抽取实例,形成关注事实数据。通过建立相关度模型,获取文本与查询条件相关度、关注事实与文本语境相关度。最后,在事实相关度、语境相关度和商业报告结构化表格维度的基础上建立维度超立方体,通过定义其数据模型和基础操作代数实现选择、投影和聚合等操作,从而解决海量XBRL数据的高效分析处理问题。

中文关键词: 可扩展商业报告语言;语义元模型;多维数据模型;数据互操作;

英文摘要: The XML-based business reports have two characters, the XLink mechanism for cross-documents element linking and the huge text information to explain the structured table. To address the complications resulted from the two characters, this proposal focuses on the multi-dimensional analytical model for the mass XML-based business reports contextualized with textual. First, in order to fetch data for multi-dimensional analytical model, the proposal studies the method to setup index for cross-documents linking arcs and the corresponding navigation algorithm. Second, get associated textual contexts using keyword query method, and then build the domain ontology based on the dimension values of structured table and extract ontology instances from textual contexts using ontology rule-based reasoning. The relevance model is also proposed to compute the correlations between text and query conditions, extracted facts and textual contexts. Lastly, a dimensional hypercube is setup based on fact correlation, context correlation and dimensions of structured business report table. Through operations including selection, projection and aggregation based on definition of data model and fundamental operating algebra, the mass XBRL data can be processed more efficiently.

英文关键词: XBRL;Semantic metamodel;Multi-dimensional model;Interactive data;

成为VIP会员查看完整内容
1

相关内容

超级自动化技术与应用研究报告(2022年)
专知会员服务
77+阅读 · 2022年2月3日
数据价值释放与隐私保护计算应用研究报告,64页pdf
专知会员服务
39+阅读 · 2021年11月29日
数据价值化与数据要素市场发展报告(2021年),53页pdf
专知会员服务
2+阅读 · 2021年5月30日
专知会员服务
41+阅读 · 2021年3月28日
专知会员服务
36+阅读 · 2020年12月14日
专知会员服务
188+阅读 · 2020年10月14日
商业数据分析,39页ppt
专知会员服务
157+阅读 · 2020年6月2日
基于知识图谱的行业问答系统搭建分几步?
PaperWeekly
2+阅读 · 2021年11月11日
技术动态 | 跨句多元关系抽取
开放知识图谱
49+阅读 · 2019年10月24日
深度文本匹配在智能客服中的应用
AI100
18+阅读 · 2018年10月24日
关系推理:基于表示学习和语义要素
计算机研究与发展
18+阅读 · 2017年8月22日
国家自然科学基金
8+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2022年4月20日
Arxiv
0+阅读 · 2022年4月19日
Arxiv
0+阅读 · 2022年4月19日
Arxiv
0+阅读 · 2022年4月19日
Arxiv
0+阅读 · 2022年4月14日
小贴士
相关VIP内容
超级自动化技术与应用研究报告(2022年)
专知会员服务
77+阅读 · 2022年2月3日
数据价值释放与隐私保护计算应用研究报告,64页pdf
专知会员服务
39+阅读 · 2021年11月29日
数据价值化与数据要素市场发展报告(2021年),53页pdf
专知会员服务
2+阅读 · 2021年5月30日
专知会员服务
41+阅读 · 2021年3月28日
专知会员服务
36+阅读 · 2020年12月14日
专知会员服务
188+阅读 · 2020年10月14日
商业数据分析,39页ppt
专知会员服务
157+阅读 · 2020年6月2日
相关资讯
相关基金
国家自然科学基金
8+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
相关论文
Arxiv
0+阅读 · 2022年4月20日
Arxiv
0+阅读 · 2022年4月19日
Arxiv
0+阅读 · 2022年4月19日
Arxiv
0+阅读 · 2022年4月19日
Arxiv
0+阅读 · 2022年4月14日
微信扫码咨询专知VIP会员