视觉问答技术研究
随着深度学习在计算机视觉、自然语言处理领域取得的长足进展,现有方法已经能准确理解视觉对象和自然语言的语义,并在此基础上开展跨媒体数据表达与交互研究.
近年来,视觉问答(visual question answering, VQA)是跨媒体表达与交互方向上的研究热点问题.视觉问答旨在让计算机理解图像内容后根据自然语言输入的查询进行自动回答.围绕视觉问答问题,本文从概念、模型、数据集等方面对近年来的研究进展进行综述,同时探讨现有工作存在的不足;最后从方法论、应用和平台等多方面对视觉问答未来的研究方向进行了展望.
俞俊,汪亮,余宙. 视觉问答技术研究[J]. 计算机研究与发展, 2018, 55(9): 1946-1958.
Yu Jun, Wang Liang, Yu Zhou. Research on Visual Question Answering Techniques. Journal of Computer Research and Development, 2018, 55(9): 1946-1958.
国家自然科学基金委员会自2012年设立优秀青年科学基金(“优青基金”)项目以来,至今已资助6批在基础研究方面崭露头角的青年学者自主选题开展创新研究。为了促进计算机科学技术领域的研究、开发、教育和前沿知识的传播,《计算机研究与发展》自2015年以来刊出了“优青专题”系列,通过集中介绍这些优秀青年学者(及其合作者)的研究成果或学术见解,使读者了解这一层次研究人员的研究状况及相关方向的发展趋势。本期是该系列的第4个专题,共收录12篇文章。
俞俊,杭州电子科技大学教授,2016年优青项目获得者。
点击“阅读全文”可免费全文下载。