今日 Paper | 可视问答模型;神经风格差异转移;图像压缩系统 ;K-SVD图像去噪等

2020 年 2 月 12 日 AI科技评论


  目录

  • 准确性与复杂性:可视问答模型中的一种权衡

  • 神经风格差异转移及其在字体生成中的应用

  • 基于GAN的可调整的图像压缩系统

  • 基于原始-对偶活动集算法的K-SVD图像去噪

  • 神经阅读理解与超越


  准确性与复杂性:可视问答模型中的一种权衡

论文名称:Accuracy vs. Complexity: A Trade-off in Visual Question Answering Models

作者:Farazi Moshiur R. /Khan Salman H. /Barnes Nick

发表时间:2020/1/20

论文链接:https://arxiv.org/abs/2001.07059v1

推荐原因

这篇论文考虑的是视觉问答的问题。

为了验证AI的推理能力,视觉问答(Visual Question Answering,VQA)被用作一种视觉图灵测试。现有VQA模型的关键是将图像的视觉特征与给定问题的语义特征相结合而学习到联合嵌入。大量的研究聚焦于利用视觉注意力机制来设计复杂的联合嵌入策略,以有效捕捉视觉与语义间的交互作用。但是,在高维空间构建视觉与语义特征计算量极大,模型越来越复杂,对VQA准确率带来的提升却很小。这篇论文系统地研究了模型复杂度和性能两方面的折中策略,并且特别关注了这些模型在多模态融合方面的效果。通过实验,这篇论文给出了如何优化以降低复杂性和如何优化以实现当前最佳VQA性能的提升这两个方面的建议。

  神经风格差异转移及其在字体生成中的应用

论文名称:Neural Style Difference Transfer and Its Application to Font Generation

作者:Atarsaikhan Gantugs /Iwana Brian Kenji /Uchida Seiichi

发表时间:2020/1/21

论文链接:https://arxiv.org/abs/2001.07321v1

推荐原因

这篇论文了介绍一种自动创建字体的方法,找到两种不同字体之间的字体样式差异,并使用神经样式转移将其转换为另一种字体。这篇论文提出了一种新的神经风格差异和内容差异损失神经风格转移方法。根据这些损失,可通过在字体中添加或删除字体样式来生成新字体。基于各种输入字体组合的实验结果,这篇论文还讨论了所提方法的局限性和未来的工作。

  基于GAN的可调整的图像压缩系统

论文名称:A GAN-based Tunable Image Compression System

作者:Wu Lirong /Huang Kejie /Shen Haibin

发表时间:2020/1/18

论文链接:https://arxiv.org/abs/2001.06580v1

推荐原因

这篇论文考虑的是图像压缩的问题。

在基于深度神经网络的有损图像压缩中,重要性图方法被广泛应用,以根据图像内容的重要性来实现比特分配,然而这种方法容易出现严重失真。这篇论文提出使用生成对抗网络重构非重要区域,将多尺度金字塔分解方法应用于编码器和判别器,以实现高分辨率图像的全局压缩。同时这篇论文还提出了一种可调整的压缩方案,将图像压缩为任何特定的压缩率,而无需重新训练模型。实验结果表明,与最新的基于GAN的方法相比,这篇论文提出的方法在MS-SSIM数据集实现了10.3%以上的改进。

  基于原始-对偶活动集算法的K-SVD图像去噪                     

论文名称:Image denoising via K-SVD with primal-dual active set algorithm

作者:Xiao Quan /Wen Canhong /Yan Zirui

发表时间:2020/1/19

论文链接:https://arxiv.org/abs/2001.06780v1

推荐原因

这篇论文改进了用于图像去噪的K-SVD算法。在K-SVD的稀疏编码步骤中,一旦噪音等级变高,寻找贪心近似解的效果就下降了。这篇论文提出了一种新的名为K-SVD_P的框架,加入了原始对偶有效集(Primal-Dual Active Set,PDAS)算法。K-SVD_P与基于贪心算法的K-SVD不同,发展出一套利用KKT条件的选择策略,并在稀疏编码阶段产生有效的更新。由于K-SVD_P使用简单的显式表达式来迭代地寻找对偶问题的等效解决方案,可以在去噪的速度与质量上取得更好的效果。论文中的实验也验证了K-SVD_P的降噪性能。

  神经阅读理解与超越                     

论文名称:NEURAL READING COMPREHENSION AND BEYOND

作者:Danqi Chen

发表时间:2019/12/21

论文链接:https://stacks.stanford.edu/file/druid:gd576xb1833/thesis-augmented.pdf

推荐原因

这篇论文是陈丹琦的博士论文,作为nlp领域的大牛,这篇文章很是优秀推荐给大家,这篇论文已经成为了NLP研究者的必读论文,这篇论文难得可贵的是向nlp研究者们展示了,如何在研究过程中面对挑战解决问题。

这篇论文可以看作是综述类文章,里面既有其它人的研究,也有自己的研究,推荐大家阅读。

  论文作者团队招募

为了更好地服务广大 AI 青年,AI 研习社正式推出全新「论文」版块,希望以论文作为聚合 AI 学生青年的「兴趣点」,通过论文整理推荐、点评解读、代码复现。致力成为国内外前沿研究成果学习讨论和发表的聚集地,也让优秀科研得到更为广泛的传播和认可。

我们希望热爱学术的你,可以加入我们的论文作者团队。

加入论文作者团队你可以获得

    1.署着你名字的文章,将你打造成最耀眼的学术明星

    2.丰厚的稿酬

    3.AI 名企内推、大会门票福利、独家周边纪念品等等等。

加入论文作者团队你需要:

    1.将你喜欢的论文推荐给广大的研习社社友

    2.撰写论文解读

如果你已经准备好加入 AI 研习社的论文兼职作者团队,可以添加运营小姐姐的微信,备注“论文兼职作者”

登录查看更多
0

相关内容

视觉问答(Visual Question Answering,VQA),是一种涉及计算机视觉和自然语言处理的学习任务。这一任务的定义如下: A VQA system takes as input an image and a free-form, open-ended, natural-language question about the image and produces a natural-language answer as the output[1]。 翻译为中文:一个VQA系统以一张图片和一个关于这张图片形式自由、开放式的自然语言问题作为输入,以生成一条自然语言答案作为输出。简单来说,VQA就是给定的图片进行问答。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
专知会员服务
108+阅读 · 2020年5月21日
专知会员服务
223+阅读 · 2020年5月6日
【芝加哥大学】可变形的风格转移,Deformable Style Transfer
专知会员服务
30+阅读 · 2020年3月26日
近期必读的7篇 CVPR 2019【视觉问答】相关论文和代码
专知会员服务
35+阅读 · 2020年1月10日
【ICIP2019教程-NVIDIA】图像到图像转换,附7份PPT下载
专知会员服务
54+阅读 · 2019年11月20日
已删除
将门创投
7+阅读 · 2018年8月28日
基于二进制哈希编码快速学习的快速图像检索
炼数成金订阅号
8+阅读 · 2018年5月17日
Compositional Generalization in Image Captioning
Arxiv
3+阅读 · 2019年9月16日
Neural Image Captioning
Arxiv
5+阅读 · 2019年7月2日
Arxiv
21+阅读 · 2018年5月23日
Arxiv
6+阅读 · 2018年5月22日
Arxiv
11+阅读 · 2018年5月13日
Arxiv
4+阅读 · 2018年3月14日
VIP会员
相关论文
Compositional Generalization in Image Captioning
Arxiv
3+阅读 · 2019年9月16日
Neural Image Captioning
Arxiv
5+阅读 · 2019年7月2日
Arxiv
21+阅读 · 2018年5月23日
Arxiv
6+阅读 · 2018年5月22日
Arxiv
11+阅读 · 2018年5月13日
Arxiv
4+阅读 · 2018年3月14日
Top
微信扫码咨询专知VIP会员