《多模态机器翻译中的参考基础》美空军研究实验室报告 - 专知VIP

会员服务 ·

10

多模态 · 机器翻译 · 美国空军研究实验室（AFRL） · AI与军事 · 多模态机器翻译 ·

2023 年 6 月 20 日

《多模态机器翻译中的参考基础》美空军研究实验室报告

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

该项目旨在推进多模态机器翻译（MMT）的技术水平。多模态机器翻译是一个以视觉信息（图像或视频）补充源语言文本的领域，以作为额外的背景，更好地理解文本并将其翻译成目标语言。所提出的进展的核心是指代基础，即指导图像区域和源（和/或目标）词之间的对齐，从而使视觉背景对翻译更有用。

项目期间所做的工作包括以下几个方向：

1.改进监督下的注意力机制，将源词或目标词映射到图像区域，解决编码时（即学习源词和图像中的物体之间的排列）和解码时（即学习目标词和图像中的物体之间的排列）的注意力，以及改进底层多模态神经机器翻译架构和融合策略以使用这些信息，并探索更多最新和更好的视觉特征类型。

2.利用来自多个视觉和语言任务及数据集的信息，提高多语言基础。

3.创建资源以促进参考依据的工作。

本报告集中在项目的最后4个月，涵盖了方向1的进一步工作，即我们提出了第一个同步视频翻译的方法，即实时翻译或口译，其中需要为不完整的源句子生成翻译，并有视频作为额外的背景。一个应用的例子是对新闻等现场广播的音频流进行翻译。与我们以前的工作不同的是，在我们以前的工作中，每一个文本片段都有一个单一的图像作为静态的视觉信息来翻译，而在我们最近的工作中，每一个文本片段都有一个包含多个视觉信息的视频。这给MMT带来了许多挑战，包括决定如何处理视频（帧取样方法、视频编码方法）以及如何将多件视觉（帧或甚至帧中的图像区域）和文本（源和/或目标词）信息结合起来。后者可以被看作是帧和文本子段之间的一种参考性基础。

使用视频作为MMT的视觉信息是很有吸引力的，因为它提供了更丰富的视觉背景，特别是对于较长的文本片段。它还为参考依据的研究开辟了新的途径：为了实现正确的翻译依据，模型需要识别特定的视频帧或帧的一部分之间的对应关系，这些对应关系与到目前为止在不完整的文本输入中看到的词有关，这些输入是逐步提供的。本报告附有所做工作的总结草案（论文待提交）。在本文中，我们使用了一个人们描述他们出租公寓的视频数据集来训练和评估我们的同步视频翻译模型。

图1：源文本和翻译文本的生成示意图。视频的WAV文件被提取并上传到微软Azure语音翻译服务，以生成英文字幕、中文翻译和时间戳。每个段落的时间戳包括偏移量和持续时间，单位为100纳秒（1纳秒=1×10-9秒）。

图3：多模式同步机器翻译模型，由语言通道、视频通道和翻译网络组成。语言通道用于文本处理，视频通道用于视觉特征提取。在翻译网络中，两种模式在解码器一侧或编码器一侧被融合。

成为VIP会员查看完整内容

33

相关内容

多模态

多模态

《3DLIVE技术分析：研究三维点云数据集的分割、分类和目标检测》49页报告，美空军研究实验室

《3DLIVE技术分析：研究三维点云数据集的分割、分类和目标检测》49页报告，美空军研究实验室

专知会员服务

29+阅读 · 2023年6月20日

《多模态语义分割》美国空军2023年最新38页报告

《多模态语义分割》美国空军2023年最新38页报告

专知会员服务

72+阅读 · 2023年4月25日

《动态数据融合中的可靠推理》美空军研究实验室23页报告

《动态数据融合中的可靠推理》美空军研究实验室23页报告

专知会员服务

75+阅读 · 2023年3月31日

美空军FAST项目《基于智能体的系统技术基础》2023最新31页技术报告

美空军FAST项目《基于智能体的系统技术基础》2023最新31页技术报告

专知会员服务

164+阅读 · 2023年3月27日

《通过端到端学习和用户交互的复杂管道自动合成》美国空军研究实验室39页报告

《通过端到端学习和用户交互的复杂管道自动合成》美国空军研究实验室39页报告

专知会员服务

32+阅读 · 2023年3月25日

【机器人自主导航】《移动与机动人工智能（AIMM）世界模型进展报告：路线侦察中的空间概念》美陆军25页技术报告

【机器人自主导航】《移动与机动人工智能（AIMM）世界模型进展报告：路线侦察中的空间概念》美陆军25页技术报告

专知会员服务

56+阅读 · 2022年12月18日

《学习型系统的保证性》美国空军研究实验室2022最新56页技术报告

《学习型系统的保证性》美国空军研究实验室2022最新56页技术报告

专知会员服务

35+阅读 · 2022年11月22日

《基于模型系统工程的网络化协同自主弹药并行（数字孪生）建模》美国空军技术学院2022最新107页论文

《基于模型系统工程的网络化协同自主弹药并行（数字孪生）建模》美国空军技术学院2022最新107页论文

专知会员服务

119+阅读 · 2022年11月14日

《用生成性对抗网络增强无人机图像分类训练集》美国空军技术学院2022最新209页论文

《用生成性对抗网络增强无人机图像分类训练集》美国空军技术学院2022最新209页论文

专知会员服务

53+阅读 · 2022年11月14日

《用于增强压缩技术和计算机视觉应用的卷积神经网络的优化》美国空军研究实验室、戴顿大学2022最新85页论文

《用于增强压缩技术和计算机视觉应用的卷积神经网络的优化》美国空军研究实验室、戴顿大学2022最新85页论文

专知会员服务

23+阅读 · 2022年11月8日

【干货书】机器学习导论第四版，903页pdf

【干货书】机器学习导论第四版，903页pdf

专知

27+阅读 · 2022年11月26日

推荐！【F16模型：符号系统、模型提取、异常检测和形式化方法】《利用符号表示实现安全可靠学习》美空军2022最新107页技术报告

推荐！【F16模型：符号系统、模型提取、异常检测和形式化方法】《利用符号表示实现安全可靠学习》美空军2022最新107页技术报告

专知

9+阅读 · 2022年11月3日

《可解释人工智能在多域作战中的智能增强》美国陆军、IBM、卡迪夫大学等论文

《可解释人工智能在多域作战中的智能增强》美国陆军、IBM、卡迪夫大学等论文

专知

64+阅读 · 2022年11月2日

《开发新型飞行器数字孪生原型的框架》北约科学与技术组织2022最新14页技术报告

《开发新型飞行器数字孪生原型的框架》北约科学与技术组织2022最新14页技术报告

专知

22+阅读 · 2022年10月24日

推荐！【量子算法设计、应用】《不确定性条件下用于决策的量子计算算法》IBM、美国空军109页技术报告

推荐！【量子算法设计、应用】《不确定性条件下用于决策的量子计算算法》IBM、美国空军109页技术报告

专知

5+阅读 · 2022年10月9日

《人工智能开发的严谨度》美国海军空战中心武器部 2022最新71页报告

《人工智能开发的严谨度》美国海军空战中心武器部 2022最新71页报告

专知

51+阅读 · 2022年9月25日

【无人机+SAR成像】《 LFM 防护带中嵌入 QPSK 通信的 SAR 图像形成和无人机天线表征》美国海军2022最新论文

【无人机+SAR成像】《 LFM 防护带中嵌入 QPSK 通信的 SAR 图像形成和无人机天线表征》美国海军2022最新论文

专知

2+阅读 · 2022年9月17日

推荐！《基于人工智能（AI）的空中和导弹防御（AMD）：以结果为导向的辅助决策》美国海军研究生院系统工程顶点报告145页

推荐！《基于人工智能（AI）的空中和导弹防御（AMD）：以结果为导向的辅助决策》美国海军研究生院系统工程顶点报告145页

专知

104+阅读 · 2022年9月1日

《知识表示工具在感知支持系统中的应用》加拿大国防研究与发展部（DRDC）

《知识表示工具在感知支持系统中的应用》加拿大国防研究与发展部（DRDC）

专知

6+阅读 · 2022年8月27日

FAIR何恺明团队提出全景分割，开辟图像分割新方向（附论文）

FAIR何恺明团队提出全景分割，开辟图像分割新方向（附论文）

论智

12+阅读 · 2018年1月5日

核心化算法中的新技术研究

国家自然科学基金

8+阅读 · 2017年12月31日

软件定义网络（SDN）环境下基于机器学习的路由预规划研究

国家自然科学基金

4+阅读 · 2015年12月31日

空间非合作目标基于点云模型的视觉与惯性融合相对导航方法与实验研究

国家自然科学基金

16+阅读 · 2015年12月31日

基于AOI的大规模三维虚拟场景流式传输机制研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向Bug报告的软件故障重现方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于CP-OFDM发射波形的目标检测算法研究

国家自然科学基金

2+阅读 · 2015年12月31日

保持结构的交互式图像及视频编辑方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于贝叶斯稀疏理论的合成孔径声纳成像技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

数据驱动的人体图像语义分割研究

国家自然科学基金

4+阅读 · 2014年12月31日

基于结构学习的非平行支持向量机最优化方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

A novel tactile palm for robotic object manipulation

Arxiv

0+阅读 · 2023年8月10日

Integrating large language models and active inference to understand eye movements in reading and dyslexia

Arxiv

0+阅读 · 2023年8月9日

Optimizing a Transformer-based network for a deep learning seismic processing workflow

Arxiv

0+阅读 · 2023年8月9日

PMU measurements based short-term voltage stability assessment of power systems via deep transfer learning

Arxiv

0+阅读 · 2023年8月7日

A simple probabilistic neural networks for machine understanding

Arxiv

0+阅读 · 2023年8月4日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

103+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

215+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

473+阅读 · 2023年3月31日

Nature Language Reasoning, A Survey

Arxiv

78+阅读 · 2023年3月26日

MLRIP: Pre-training a military language representation model with informative factual knowledge and professional knowledge base

Arxiv

36+阅读 · 2022年7月28日

VIP会员

相关主题

美国空军研究实验室（AFRL）

多模态机器翻译

相关VIP内容

《3DLIVE技术分析：研究三维点云数据集的分割、分类和目标检测》49页报告，美空军研究实验室

《3DLIVE技术分析：研究三维点云数据集的分割、分类和目标检测》49页报告，美空军研究实验室

专知会员服务

29+阅读 · 2023年6月20日

《多模态语义分割》美国空军2023年最新38页报告

《多模态语义分割》美国空军2023年最新38页报告

专知会员服务

72+阅读 · 2023年4月25日

《动态数据融合中的可靠推理》美空军研究实验室23页报告

《动态数据融合中的可靠推理》美空军研究实验室23页报告

专知会员服务

75+阅读 · 2023年3月31日

美空军FAST项目《基于智能体的系统技术基础》2023最新31页技术报告

美空军FAST项目《基于智能体的系统技术基础》2023最新31页技术报告

专知会员服务

164+阅读 · 2023年3月27日

《通过端到端学习和用户交互的复杂管道自动合成》美国空军研究实验室39页报告

《通过端到端学习和用户交互的复杂管道自动合成》美国空军研究实验室39页报告

专知会员服务

32+阅读 · 2023年3月25日

【机器人自主导航】《移动与机动人工智能（AIMM）世界模型进展报告：路线侦察中的空间概念》美陆军25页技术报告

【机器人自主导航】《移动与机动人工智能（AIMM）世界模型进展报告：路线侦察中的空间概念》美陆军25页技术报告

专知会员服务

56+阅读 · 2022年12月18日

《学习型系统的保证性》美国空军研究实验室2022最新56页技术报告

《学习型系统的保证性》美国空军研究实验室2022最新56页技术报告

专知会员服务

35+阅读 · 2022年11月22日

《基于模型系统工程的网络化协同自主弹药并行（数字孪生）建模》美国空军技术学院2022最新107页论文

《基于模型系统工程的网络化协同自主弹药并行（数字孪生）建模》美国空军技术学院2022最新107页论文

专知会员服务

119+阅读 · 2022年11月14日

《用生成性对抗网络增强无人机图像分类训练集》美国空军技术学院2022最新209页论文

《用生成性对抗网络增强无人机图像分类训练集》美国空军技术学院2022最新209页论文

专知会员服务

53+阅读 · 2022年11月14日

《用于增强压缩技术和计算机视觉应用的卷积神经网络的优化》美国空军研究实验室、戴顿大学2022最新85页论文

《用于增强压缩技术和计算机视觉应用的卷积神经网络的优化》美国空军研究实验室、戴顿大学2022最新85页论文

专知会员服务

23+阅读 · 2022年11月8日

热门VIP内容

开通专知VIP会员享更多权益服务

《物联网（IoT）中的无人机通信高效控制》135页

《在GNSS信号降级环境中利用共识实现无人机集群稳健协调》

中程单向攻击无人机的战略意义：俄乌战争启示

《面向无人机集群的避障动态传感器覆盖算法》最新38页

相关资讯

【干货书】机器学习导论第四版，903页pdf

【干货书】机器学习导论第四版，903页pdf

专知

27+阅读 · 2022年11月26日

推荐！【F16模型：符号系统、模型提取、异常检测和形式化方法】《利用符号表示实现安全可靠学习》美空军2022最新107页技术报告

推荐！【F16模型：符号系统、模型提取、异常检测和形式化方法】《利用符号表示实现安全可靠学习》美空军2022最新107页技术报告

专知

9+阅读 · 2022年11月3日

《可解释人工智能在多域作战中的智能增强》美国陆军、IBM、卡迪夫大学等论文

《可解释人工智能在多域作战中的智能增强》美国陆军、IBM、卡迪夫大学等论文

专知

64+阅读 · 2022年11月2日

《开发新型飞行器数字孪生原型的框架》北约科学与技术组织2022最新14页技术报告

《开发新型飞行器数字孪生原型的框架》北约科学与技术组织2022最新14页技术报告

专知

22+阅读 · 2022年10月24日

推荐！【量子算法设计、应用】《不确定性条件下用于决策的量子计算算法》IBM、美国空军109页技术报告

推荐！【量子算法设计、应用】《不确定性条件下用于决策的量子计算算法》IBM、美国空军109页技术报告

专知

5+阅读 · 2022年10月9日

《人工智能开发的严谨度》美国海军空战中心武器部 2022最新71页报告

《人工智能开发的严谨度》美国海军空战中心武器部 2022最新71页报告

专知

51+阅读 · 2022年9月25日

【无人机+SAR成像】《 LFM 防护带中嵌入 QPSK 通信的 SAR 图像形成和无人机天线表征》美国海军2022最新论文

【无人机+SAR成像】《 LFM 防护带中嵌入 QPSK 通信的 SAR 图像形成和无人机天线表征》美国海军2022最新论文

专知

2+阅读 · 2022年9月17日

推荐！《基于人工智能（AI）的空中和导弹防御（AMD）：以结果为导向的辅助决策》美国海军研究生院系统工程顶点报告145页

推荐！《基于人工智能（AI）的空中和导弹防御（AMD）：以结果为导向的辅助决策》美国海军研究生院系统工程顶点报告145页

专知

104+阅读 · 2022年9月1日

《知识表示工具在感知支持系统中的应用》加拿大国防研究与发展部（DRDC）

《知识表示工具在感知支持系统中的应用》加拿大国防研究与发展部（DRDC）

专知

6+阅读 · 2022年8月27日

FAIR何恺明团队提出全景分割，开辟图像分割新方向（附论文）

FAIR何恺明团队提出全景分割，开辟图像分割新方向（附论文）

论智

12+阅读 · 2018年1月5日

相关基金

核心化算法中的新技术研究

国家自然科学基金

8+阅读 · 2017年12月31日

软件定义网络（SDN）环境下基于机器学习的路由预规划研究

国家自然科学基金

4+阅读 · 2015年12月31日

空间非合作目标基于点云模型的视觉与惯性融合相对导航方法与实验研究

国家自然科学基金

16+阅读 · 2015年12月31日

基于AOI的大规模三维虚拟场景流式传输机制研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向Bug报告的软件故障重现方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于CP-OFDM发射波形的目标检测算法研究

国家自然科学基金

2+阅读 · 2015年12月31日

保持结构的交互式图像及视频编辑方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于贝叶斯稀疏理论的合成孔径声纳成像技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

数据驱动的人体图像语义分割研究

国家自然科学基金

4+阅读 · 2014年12月31日

基于结构学习的非平行支持向量机最优化方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

相关论文

A novel tactile palm for robotic object manipulation

Arxiv

0+阅读 · 2023年8月10日

Integrating large language models and active inference to understand eye movements in reading and dyslexia

Arxiv

0+阅读 · 2023年8月9日

Optimizing a Transformer-based network for a deep learning seismic processing workflow

Arxiv

0+阅读 · 2023年8月9日

PMU measurements based short-term voltage stability assessment of power systems via deep transfer learning

Arxiv

0+阅读 · 2023年8月7日

A simple probabilistic neural networks for machine understanding

Arxiv

0+阅读 · 2023年8月4日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

103+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

215+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

473+阅读 · 2023年3月31日

Nature Language Reasoning, A Survey

Arxiv

78+阅读 · 2023年3月26日

MLRIP: Pre-training a military language representation model with informative factual knowledge and professional knowledge base

Arxiv

36+阅读 · 2022年7月28日

微信扫码咨询专知VIP会员