今日 Paper | 可视问答模型；神经风格差异转移；图像压缩系统；K-SVD图像去噪等

会员服务 ·

今日 Paper | 可视问答模型；神经风格差异转移；图像压缩系统；K-SVD图像去噪等

2020 年 2 月 12 日 AI科技评论

准确性与复杂性：可视问答模型中的一种权衡

论文名称：Accuracy vs. Complexity: A Trade-off in Visual Question Answering Models

作者：Farazi Moshiur R. /Khan Salman H. /Barnes Nick

发表时间：2020/1/20

论文链接：https://arxiv.org/abs/2001.07059v1

推荐原因

这篇论文考虑的是视觉问答的问题。

为了验证AI的推理能力，视觉问答（Visual Question Answering，VQA）被用作一种视觉图灵测试。现有VQA模型的关键是将图像的视觉特征与给定问题的语义特征相结合而学习到联合嵌入。大量的研究聚焦于利用视觉注意力机制来设计复杂的联合嵌入策略，以有效捕捉视觉与语义间的交互作用。但是，在高维空间构建视觉与语义特征计算量极大，模型越来越复杂，对VQA准确率带来的提升却很小。这篇论文系统地研究了模型复杂度和性能两方面的折中策略，并且特别关注了这些模型在多模态融合方面的效果。通过实验，这篇论文给出了如何优化以降低复杂性和如何优化以实现当前最佳VQA性能的提升这两个方面的建议。

神经风格差异转移及其在字体生成中的应用

论文名称：Neural Style Difference Transfer and Its Application to Font Generation

作者：Atarsaikhan Gantugs /Iwana Brian Kenji /Uchida Seiichi

发表时间：2020/1/21

论文链接：https://arxiv.org/abs/2001.07321v1

推荐原因

这篇论文了介绍一种自动创建字体的方法，找到两种不同字体之间的字体样式差异，并使用神经样式转移将其转换为另一种字体。这篇论文提出了一种新的神经风格差异和内容差异损失神经风格转移方法。根据这些损失，可通过在字体中添加或删除字体样式来生成新字体。基于各种输入字体组合的实验结果，这篇论文还讨论了所提方法的局限性和未来的工作。

基于GAN的可调整的图像压缩系统

论文名称：A GAN-based Tunable Image Compression System

作者：Wu Lirong /Huang Kejie /Shen Haibin

发表时间：2020/1/18

论文链接：https://arxiv.org/abs/2001.06580v1

推荐原因

这篇论文考虑的是图像压缩的问题。

在基于深度神经网络的有损图像压缩中，重要性图方法被广泛应用，以根据图像内容的重要性来实现比特分配，然而这种方法容易出现严重失真。这篇论文提出使用生成对抗网络重构非重要区域，将多尺度金字塔分解方法应用于编码器和判别器，以实现高分辨率图像的全局压缩。同时这篇论文还提出了一种可调整的压缩方案，将图像压缩为任何特定的压缩率，而无需重新训练模型。实验结果表明，与最新的基于GAN的方法相比，这篇论文提出的方法在MS-SSIM数据集实现了10.3％以上的改进。

基于原始-对偶活动集算法的K-SVD图像去噪

论文名称：Image denoising via K-SVD with primal-dual active set algorithm

作者：Xiao Quan /Wen Canhong /Yan Zirui

发表时间：2020/1/19

论文链接：https://arxiv.org/abs/2001.06780v1

推荐原因

这篇论文改进了用于图像去噪的K-SVD算法。在K-SVD的稀疏编码步骤中，一旦噪音等级变高，寻找贪心近似解的效果就下降了。这篇论文提出了一种新的名为K-SVD_P的框架，加入了原始对偶有效集（Primal-Dual Active Set，PDAS）算法。K-SVD_P与基于贪心算法的K-SVD不同，发展出一套利用KKT条件的选择策略，并在稀疏编码阶段产生有效的更新。由于K-SVD_P使用简单的显式表达式来迭代地寻找对偶问题的等效解决方案，可以在去噪的速度与质量上取得更好的效果。论文中的实验也验证了K-SVD_P的降噪性能。