项目名称: 高精度的跨语言信息检索查询词自动翻译技术研究

项目编号: No.60970057

项目类型: 面上项目

立项/批准年度: 2010

项目学科: 自动化技术、计算机技术

项目作者: 姚建民

作者单位: 苏州大学

项目金额: 31万元

中文摘要: 互联网上有海量多语言文本资源,通过分析不同类型网页的内容、结构和链接特征,利用机器学习方法可以实现文档、句子和词汇级双语资源的自动获取。 以网络文本挖掘为手段,研究跨语言信息检索查询词翻译获取的方法,重点研究基于本地语料库和基于网络的翻译技术。 本地语料库以网络挖掘方式建设,有低成本、高效率、强时效性,广覆盖面等特色。对本地语料库词汇和语法覆盖度进行优化,实现最小时空开销下的高翻译质量。 对本地语料未覆盖的查询词,以网络挖掘的方法解决,并用以扩大本地资源库。 基于网络的翻译方法中利用共现信息查询扩展方法获取搜索引擎摘要,克服意译词的挖掘瓶颈;利用频度量度和邻接信息,在有噪声的、规模较小的双语摘要库上抽取高质量的候选单元,提高抽取效率;综合利用音译、表层模版、语义、频度-距离等特征进行译文的选择,提高翻译精确度。 研究成果可用于跨语言信息检索、机器翻译等领域。

中文关键词: WEB挖掘;跨语言信息检索;查询翻译;双语资源;未登录词

英文摘要:

英文关键词: Web mining;cross-language IR;query translation;bilingual resources;out-of-vocabulary terms

成为VIP会员查看完整内容
0

相关内容

多语言语音识别声学模型建模方法最新进展
专知会员服务
31+阅读 · 2022年2月7日
自然语言处理中的文本表示研究
专知会员服务
55+阅读 · 2022年1月10日
【博士论文】大数据相似查询关键技术研究
专知会员服务
23+阅读 · 2021年12月2日
专知会员服务
16+阅读 · 2021年8月24日
稀缺资源语言神经网络机器翻译研究综述
专知会员服务
26+阅读 · 2020年12月2日
专知会员服务
34+阅读 · 2020年11月29日
【ACL2020】基于图神经网络的文本分类新方法
专知会员服务
68+阅读 · 2020年7月12日
赛尔原创@EMNLP 2021 | 多语言和跨语言对话推荐
哈工大SCIR
0+阅读 · 2022年3月11日
面向新闻媒体的命名实体识别技术
PaperWeekly
18+阅读 · 2019年4月17日
学会原创 | 自然语言的语义表示学习方法与应用
中国人工智能学会
11+阅读 · 2019年3月7日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
2+阅读 · 2008年12月31日
Arxiv
25+阅读 · 2017年12月6日
小贴士
相关VIP内容
多语言语音识别声学模型建模方法最新进展
专知会员服务
31+阅读 · 2022年2月7日
自然语言处理中的文本表示研究
专知会员服务
55+阅读 · 2022年1月10日
【博士论文】大数据相似查询关键技术研究
专知会员服务
23+阅读 · 2021年12月2日
专知会员服务
16+阅读 · 2021年8月24日
稀缺资源语言神经网络机器翻译研究综述
专知会员服务
26+阅读 · 2020年12月2日
专知会员服务
34+阅读 · 2020年11月29日
【ACL2020】基于图神经网络的文本分类新方法
专知会员服务
68+阅读 · 2020年7月12日
相关基金
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
2+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员