项目名称: 基于双语文档反馈的跨语言信息检索研究

项目编号: No.60873105

项目类型: 面上项目

立项/批准年度: 2009

项目学科: 轻工业、手工业

项目作者: 齐浩亮

作者单位: 黑龙江工程学院

项目金额: 34万元

中文摘要: 当前跨语言信息检索主要采用"查询翻译+基于伪反馈技术的单语检索"方法,远未达到完美的查询翻译严重影响随后的基于伪反馈技术的单语检索的效果,导致跨语言信息检索性能不足。本课题以汉英跨语言信息检索为对象,提出了基于双语参考文档反馈的跨语言信息检索,该方法将双语参考文档引入跨语言信息检索建模过程,在未进行查询翻译的情况下,在目标语上完成查询建模,并与传统的跨语言信息检索方法相融合,提高了检索性能。鉴于大规模双语对齐文档是本课题成功的关键因素之一,开展了从互联网获取大规模双语平行语料的工作,综合采用多种方法,获取了GB级大规模双语对齐语料。经过研究,提出了跨语言信息检索的新方法、建立了新模型,并构建了跨语言信息检索系统,课题组在TEL@CLEF 2009跨语言信息检索评测中获得第二,表明了课题组在跨语言信息检索研究方面的实力。共发表论文26篇,其中中国计算机学会推荐投稿的A类国际顶级会议2篇(SIGIR Poster和Workshop各1篇),其它重要国际会议13篇,国际期刊7篇,国内核心刊物5篇;SCI检索1篇,EI检索17篇。出版专著、教材2部。待授权发明专利3项。

中文关键词: 跨语言信息检索;伪反馈;双语文档反馈;参考文档模型

英文摘要: The current main approach of Cross Language Information Retrieval(CLIR) can be described as "Query translation + monolingual information retrieval based on pseudo relevance feedback". Imperfect query translation in this method leads to heavy side effect on monolingual information retrieval when using pseudo relevance feedback, which leads to unsatisfactory performance of CLIR because of improper query expansion. To solve the problem, we put forward CLIR based on feedback from bilingual reference corpus: the bilingual reference documents are used for pseudo relevance feedback, so the target language query model can be updated without using the translated query, then we combine the CLIR based bilingual reference documents and the traditional CLIR method, which achieve satisfied performance. In view of the large-scale and high quality bilingual aligned corpus is one of the critical factors in the new model, we carried out the research on large-scale bilingual corpus mining from the Internet. A GB level large-scale bilingual aligned corpus is mined by using a variety of methods. The new method and the new model of CLIR were established by the support of NSF. The built system got 2nd in TEL@CLEF 2009 CLIR competition. This shows that the group's strength in CLIR research. The achievements were 27 papers, including 2 top International Conference papers which are Type A of Recommended by Chinese Computer Society(SIGIR Poster and Workshop each one), 13 other important international conference papers, 7 international journal papers, 5 domestic core journal papers 1 paper indexed by SCI and 16 papers indexed by EI; publishing 2 monograph and textbook; 3 patents be granted.

英文关键词: cross language information retrieval; pseudo relevance feedback; bilingual corpus feedback; reference document model

成为VIP会员查看完整内容
0

相关内容

开放领域知识图谱问答研究综述
专知会员服务
61+阅读 · 2021年10月30日
专知会员服务
56+阅读 · 2021年10月12日
专知会员服务
16+阅读 · 2021年8月24日
专知会员服务
55+阅读 · 2021年5月10日
专知会员服务
31+阅读 · 2021年3月17日
专知会员服务
35+阅读 · 2020年11月29日
【北京大学冯岩松】基于知识的自然语言问答
专知会员服务
44+阅读 · 2020年11月15日
【CCL 2019】2019信息检索趋势,山东大学教授任昭春博士
专知会员服务
29+阅读 · 2019年11月12日
笨笨功能更新啦!基于BERT的FAQ语义检索
哈工大SCIR
2+阅读 · 2021年4月29日
基于机器阅读理解(MRC)的信息抽取方法
DataFunTalk
13+阅读 · 2019年11月1日
论文浅尝 | 基于知识库的自然语言理解 04#
开放知识图谱
14+阅读 · 2019年3月14日
论文浅尝 | 基于知识库的自然语言理解 01#
开放知识图谱
15+阅读 · 2019年2月22日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Transformers in Medical Image Analysis: A Review
Arxiv
39+阅读 · 2022年2月24日
小贴士
相关VIP内容
开放领域知识图谱问答研究综述
专知会员服务
61+阅读 · 2021年10月30日
专知会员服务
56+阅读 · 2021年10月12日
专知会员服务
16+阅读 · 2021年8月24日
专知会员服务
55+阅读 · 2021年5月10日
专知会员服务
31+阅读 · 2021年3月17日
专知会员服务
35+阅读 · 2020年11月29日
【北京大学冯岩松】基于知识的自然语言问答
专知会员服务
44+阅读 · 2020年11月15日
【CCL 2019】2019信息检索趋势,山东大学教授任昭春博士
专知会员服务
29+阅读 · 2019年11月12日
相关资讯
笨笨功能更新啦!基于BERT的FAQ语义检索
哈工大SCIR
2+阅读 · 2021年4月29日
基于机器阅读理解(MRC)的信息抽取方法
DataFunTalk
13+阅读 · 2019年11月1日
论文浅尝 | 基于知识库的自然语言理解 04#
开放知识图谱
14+阅读 · 2019年3月14日
论文浅尝 | 基于知识库的自然语言理解 01#
开放知识图谱
15+阅读 · 2019年2月22日
相关基金
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员