【专知荟萃24】视频描述生成(Video Captioning)知识资料全集(入门/进阶/论文/综述/代码/专家,附查看)

2017 年 11 月 30 日 专知

点击上方“专知”关注获取专业AI知识!

【导读】主题荟萃知识是专知的核心功能之一,为用户提供AI领域系统性的知识学习服务。主题荟萃为用户提供全网关于该主题的精华(Awesome)知识资料收录整理,使得AI从业者便捷学习和解决工作问题!在专知人工智能主题知识树基础上,主题荟萃由专业人工编辑和算法工具辅助协作完成,并保持动态更新!另外欢迎对此创作主题荟萃感兴趣的同学,请加入我们专知AI创作者计划,共创共赢!专知为大家呈送专知主题荟萃知识资料大全集荟萃 (入门/进阶/综述/视频/代码/专家等),请大家查看!专知访问www.zhuanzhi.ai,  或关注微信公众号后台回复" 专知"进入专知,搜索感兴趣主题查看。此外,我们也提供该文网页桌面手机端(www.zhuanzhi.ai)完整访问,可直接点击访问收录链接地址,以及pdf版下载链接,请文章末尾查看!此为初始版本,请大家指正补充,欢迎在后台留言!欢迎大家转发分享~


    视频描述生成(Video Captioning)专知荟萃

    • 视频描述生成(Video Captioning)专知荟萃

      • 入门学习

      • 进阶文章

        • 2015

        • 2016

        • 2017

      • Tutorial

      • 代码

      • 领域专家

      • Datasets


    入门学习

    1. Video Analysis 相关领域介绍之Video Captioning(视频to文字描述)

      • [https://zhuanlan.zhihu.com/p/26730181]

    2. 让机器读懂视频

      • [http://gitbook.cn/books/59192e91ceea8e6fe4504c74/index.html]

    3. 梅涛:“看图说话”——人类走开,我AI来

    4. 深度三维残差神经网络:视频理解新突破

      • [http://www.msra.cn/zh-cn/news/features/pseudo-3d-residual-networks-20171027]

    5. Word2VisualVec for Video-To-Text Matching and Ranking

      • [http://www-nlpir.nist.gov/projects/tvpubs/tv16.slides/tv16.vtt.mediamill.slides.pdf]


    进阶文章

    2015

    1. Jeff Donahue, Lisa Anne Hendricks, Sergio Guadarrama, Marcus Rohrbach, Subhashini Venugopalan, Kate Saenko, Trevor Darrell, Long-term Recurrent Convolutional Networks for Visual Recognition and Description, CVPR, 2015.
      - [http://arxiv.org/pdf/1411.4389.pdf]

    2. Subhashini Venugopalan, Huijuan Xu, Jeff Donahue, Marcus Rohrbach, Raymond Mooney, Kate Saenko, Translating Videos to Natural Language Using Deep Recurrent Neural Networks, arXiv:1412.4729.

      • UT / UML / Berkeley [http://arxiv.org/pdf/1412.4729]

    3. Yingwei Pan, Tao Mei, Ting Yao, Houqiang Li, Yong Rui, Joint Modeling Embedding and Translation to Bridge Video and Language, arXiv:1505.01861.

      • Microsoft [http://arxiv.org/pdf/1505.01861]

    4. Subhashini Venugopalan, Marcus Rohrbach, Jeff Donahue, Raymond Mooney, Trevor Darrell, Kate Saenko, Sequence to Sequence--Video to Text, arXiv:1505.00487.

      • UT / Berkeley / UML [http://arxiv.org/pdf/1505.00487]

    5. Li Yao, Atousa Torabi, Kyunghyun Cho, Nicolas Ballas, Christopher Pal, Hugo Larochelle, Aaron Courville, Describing Videos by Exploiting Temporal Structure, arXiv:1502.08029

      • Univ. Montreal / Univ. Sherbrooke [http://arxiv.org/pdf/1502.08029.pdf]]

    6. Anna Rohrbach, Marcus Rohrbach, Bernt Schiele, The Long-Short Story of Movie Description, arXiv:1506.01698

      • MPI / Berkeley [http://arxiv.org/pdf/1506.01698.pdf]]

    7. Yukun Zhu, Ryan Kiros, Richard Zemel, Ruslan Salakhutdinov, Raquel Urtasun, Antonio Torralba, Sanja Fidler, Aligning Books and Movies: Towards Story-like Visual Explanations by Watching Movies and Reading Books, arXiv:1506.06724

      • Univ. Toronto / MIT [[http://arxiv.org/pdf/1506.06724.pdf]]

    8. Kyunghyun Cho, Aaron Courville, Yoshua Bengio, Describing Multimedia Content using Attention-based Encoder-Decoder Networks, arXiv:1507.01053

      • Univ. Montreal [http://arxiv.org/pdf/1507.01053.pdf]


    2016

    1. Multimodal Video Description

      • [https://dl.acm.org/citation.cfm?id=2984066]

    2. Describing Videos using Multi-modal Fusion

      • [https://dl.acm.org/citation.cfm?id=2984065]

    3. Andrew Shin , Katsunori Ohnishi , Tatsuya Harada Beyond caption to narrative: Video captioning with multiple sentences

      • [http://ieeexplore.ieee.org/abstract/document/7532983/]

    4. Jianfeng Dong, Xirong Li, Cees G. M. Snoek Word2VisualVec: Image and Video to Sentence Matching by Visual Feature Prediction

      • [https://pdfs.semanticscholar.org/de22/8875bc33e9db85123469ef80fc0071a92386.pdf]


    2017

    1. Dotan Kaufman, Gil Levi, Tal Hassner, Lior Wolf, Temporal Tessellation for Video Annotation and Summarization, arXiv:1612.06950.

      • TAU / USC [[https://arxiv.org/pdf/1612.06950.pdf]]

    2. Chiori Hori, Takaaki Hori, Teng-Yok Lee, Kazuhiro Sumi, John R. Hershey, Tim K. Marks Attention-Based Multimodal Fusion for Video Description

      • [https://arxiv.org/abs/1701.03126]

    3. Weakly Supervised Dense Video Captioning(CVPR2017)

    4. Multi-Task Video Captioning with Video and Entailment Generation(ACL2017)

    5. Multimodal Memory Modelling for Video Captioning, Junbo Wang, Wei Wang, Yan Huang, Liang Wang, Tieniu Tan

      • [https://arxiv.org/abs/1611.05592]

    6. Xiaodan Liang, Zhiting Hu, Hao Zhang, Chuang Gan, Eric P. Xing Recurrent Topic-Transition GAN for Visual Paragraph Generation

      • [https://arxiv.org/abs/1703.07022]

    7. MAM-RNN: Multi-level Attention Model Based RNN for Video Captioning Xuelong Li1 , Bin Zhao2 , Xiaoqiang Lu1

      • [https://www.ijcai.org/proceedings/2017/0307.pdf]


    Tutorial

    1. “Bridging Video and Language with Deep Learning,” Invited tutorial at ECCV-ACM Multimedia, Amsterdam, The Netherlands, Oct. 2016.

      • [https://www.microsoft.com/en-us/research/publication/tutorial-bridging-video-language-deep-learning/]

    2. ICIP-2017-Tutorial-Video-and-Language-Pub

      • [https://www.microsoft.com/en-us/research/wp-content/uploads/2017/09/ICIP-2017-Tutorial-Video-and-Language-Pub.pdf]


    代码

    1. neuralvideo

      • [https://github.com/olivernina/neuralvideo]

    2. Translating Videos to Natural Language Using Deep Recurrent Neural Networks

      • [ https://www.cs.utexas.edu/~vsub/naacl15_project.html#code\]

    3. Describing Videos by Exploiting Temporal Structure

      • [https://github.com/yaoli/arctic-capgen-vid]

    4. SA-tensorflow: Soft attention mechanism for video caption generation

      • [https://github.com/tsenghungchen/SA-tensorflow]

    5. Sequence to Sequence -- Video to Text

      • [https://github.com/jazzsaxmafia/video_to_sequence\]


    领域专家

    1. 梅涛 微软亚洲研究院资深研究员梅涛博士,微软亚洲研究院资深研究员,国际模式识别学会会士,美国计算机协会杰出科学家,中国科技大学和中山大学兼职教授博导。主要研究兴趣为多媒体分析、计算机视觉和机器学习。 - [https://www.microsoft.com/en-us/research/people/tmei/]

    2. Xirong Li 李锡荣 中国人民大学数据工程与知识工程教育部重点实验室副教授、博士生导师。

      • [http://lixirong.net/]

    3. Jiebo Luo IEEE/SPIE Fellow、长江讲座美国罗彻斯特大学教授

      • [http://www.cs.rochester.edu/u/jluo/]

    4. Subhashini Venugopalan 

      • [https://www.cs.utexas.edu/~vsub/\]


    Datasets

    1. MSR-VTT dataset 该数据集为ACM Multimedia 2016 的 Microsoft Research - Video to Text (MSR-VTT) Challenge。地址为 Microsoft Multimedia Challenge 。该数据集包含10000个视频片段(video clip),被分为训练,验证和测试集三部分。每个视频片段都被标注了大概20条英文句子。此外,MSR-VTT还提供了每个视频的类别信息(共计20类),这个类别信息算是先验的,在测试集中也是已知的。同时,视频都是包含音频信息的。该数据库共计使用了四种机器翻译的评价指标,分别为:METEOR, BLEU@1-4,ROUGE-L,CIDEr。

      • [https://www.microsoft.com/en-us/research/publication/msr-vtt-large-video-description-dataset-bridging-video-language-supplementary-material/]

      • [http://ms-multimedia-challenge.com/]

    2. YouTube2Text dataset(or called MSVD dataset) 该数据集同样由Microsoft Research提供,地址为 Microsoft Research Video Description Corpus 。该数据集包含1970段YouTube视频片段(时长在10-25s之间),每段视频被标注了大概40条英文句子。

      • [http://www.cs.utexas.edu/users/ml/clamp/videoDescription/]


    初步版本,水平有限,有错误或者不完善的地方,欢迎大家提建议和补充,会一直保持更新,敬请关注http://www.zhuanzhi.ai 和关注专知公众号,获取第一手AI相关知识。

特别提示-专知视频描述生成主题:

请PC登录www.zhuanzhi.ai或者点击阅读原文注册登录,顶端搜索“视频描述生成” 主题,获得专知荟萃全集知识等资料,直接PC端访问体验更佳!如下图所示~


    此外,请关注专知公众号(扫一扫最下面专知二维码,或者点击上方蓝色专知),

    • 后台回复“视频描述生成”或者“VC” 就可以在手机端获取专知视频描述生成知识资料查看链接地址,直接打开荟萃资料的链接地址~~


请扫描专知小助手,加入专知人工智能群交流~

专知荟萃知识资料全集获取(关注本公众号-专知,获取下载链接),请查看:

【专知荟萃01】深度学习知识资料大全集(入门/进阶/论文/代码/数据/综述/领域专家等)(附pdf下载)

【专知荟萃02】自然语言处理NLP知识资料大全集(入门/进阶/论文/Toolkit/数据/综述/专家等)(附pdf下载)

【专知荟萃03】知识图谱KG知识资料全集(入门/进阶/论文/代码/数据/综述/专家等)(附pdf下载)

【专知荟萃04】自动问答QA知识资料全集(入门/进阶/论文/代码/数据/综述/专家等)(附pdf下载)

【专知荟萃05】聊天机器人Chatbot知识资料全集(入门/进阶/论文/软件/数据/专家等)(附pdf下载)

【专知荟萃06】计算机视觉CV知识资料大全集(入门/进阶/论文/课程/会议/专家等)(附pdf下载)

【专知荟萃07】自动文摘AS知识资料全集(入门/进阶/代码/数据/专家等)(附pdf下载)

【专知荟萃08】图像描述生成Image Caption知识资料全集(入门/进阶/论文/综述/视频/专家等)

【专知荟萃09】目标检测知识资料全集(入门/进阶/论文/综述/视频/代码等)

【专知荟萃10】推荐系统RS知识资料全集(入门/进阶/论文/综述/视频/代码等)

【专知荟萃11】GAN生成式对抗网络知识资料全集(理论/报告/教程/综述/代码等)

【专知荟萃12】信息检索 Information Retrieval 知识资料全集(入门/进阶/综述/代码/专家,附PDF下载)

【专知荟萃13】工业学术界用户画像 User Profile 实用知识资料全集(入门/进阶/竞赛/论文/PPT,附PDF下载)

【专知荟萃14】机器翻译 Machine Translation知识资料全集(入门/进阶/综述/视频/代码/专家,附PDF下载)

【专知荟萃15】图像检索Image Retrieval知识资料全集(入门/进阶/综述/视频/代码/专家,附PDF下载)

【专知荟萃16】主题模型Topic Model知识资料全集(基础/进阶/论文/综述/代码/专家,附PDF下载)

【专知荟萃17】情感分析Sentiment Analysis 知识资料全集(入门/进阶/论文/综述/视频/专家,附查看)

【专知荟萃18】目标跟踪Object Tracking知识资料全集(入门/进阶/论文/综述/视频/专家,附查看)

【专知荟萃19】图像识别Image Recognition知识资料全集(入门/进阶/论文/综述/视频/专家,附查看)

【专知荟萃20】图像分割Image Segmentation知识资料全集(入门/进阶/论文/综述/视频/专家,附查看)

【专知荟萃21】视觉问答VQA知识资料全集(入门/进阶/论文/综述/视频/专家,附查看)

-END-

专 · 知

人工智能领域主题知识资料查看获取【专知荟萃】人工智能领域22个主题知识资料全集(入门/进阶/论文/综述/视频/专家等)

请PC登录www.zhuanzhi.ai或者点击阅读原文,注册登录专知,获取更多AI知识资料

请关注我们的公众号,获取人工智能的专业知识。扫一扫关注我们的微信公众号。

点击“阅读原文”,使用专知

登录查看更多
37

相关内容

【DeepMind推荐】居家学习的人工智能干货资源大全集
专知会员服务
108+阅读 · 2020年6月27日
一份循环神经网络RNNs简明教程,37页ppt
专知会员服务
172+阅读 · 2020年5月6日
八篇 ICCV 2019 【图神经网络(GNN)+CV】相关论文
专知会员服务
29+阅读 · 2020年1月10日
【开源书】PyTorch深度学习起步,零基础入门(附pdf下载)
专知会员服务
110+阅读 · 2019年10月26日
【推荐系统/计算广告/机器学习/CTR预估资料汇总】
专知会员服务
87+阅读 · 2019年10月21日
【深度学习视频分析/多模态学习资源大列表】
专知会员服务
91+阅读 · 2019年10月16日
【综述】视频摘要最新综述文章,附45页综述全文下载
专知会员服务
33+阅读 · 2019年9月20日
Arxiv
6+阅读 · 2019年4月4日
Arxiv
7+阅读 · 2018年4月24日
Arxiv
6+阅读 · 2018年4月3日
Arxiv
4+阅读 · 2018年3月1日
VIP会员
相关VIP内容
【DeepMind推荐】居家学习的人工智能干货资源大全集
专知会员服务
108+阅读 · 2020年6月27日
一份循环神经网络RNNs简明教程,37页ppt
专知会员服务
172+阅读 · 2020年5月6日
八篇 ICCV 2019 【图神经网络(GNN)+CV】相关论文
专知会员服务
29+阅读 · 2020年1月10日
【开源书】PyTorch深度学习起步,零基础入门(附pdf下载)
专知会员服务
110+阅读 · 2019年10月26日
【推荐系统/计算广告/机器学习/CTR预估资料汇总】
专知会员服务
87+阅读 · 2019年10月21日
【深度学习视频分析/多模态学习资源大列表】
专知会员服务
91+阅读 · 2019年10月16日
【综述】视频摘要最新综述文章,附45页综述全文下载
专知会员服务
33+阅读 · 2019年9月20日
相关资讯
Top
微信扫码咨询专知VIP会员