编者按:当时间从一维走向二维,时序信息处理问题中一种全新的建模思路由此产生。根据这种新思路及其产生的二维时间图概念,微软亚洲研究院提出一种新的解决时间定位问题的通用方法:二维时域邻近网络 2D-TAN,在基于自然语言描述的视频内容定位和视频内人体动作检测两个任务上验证了其有效性,并在 ICCV 2019 中的 HACS Action Localization Challenge 比赛中获得了第一,相关技术细节将发表于 AAAI 2020 论文“Learning 2D Temporal Adjacent Network for Moment Localization with Natural Language”。本文将对这一研究进行深入解读。