TextCycleGAN(TCG)是一个基于循环生成对抗网络(CycleGAN)的新的图像字幕框架。这项工作旨在探索各种CycleGAN和条件GAN架构的性能,以构建TCG图像字幕软件包。
TCG最后一年的开发主要集中在调整算法以确保最佳性能。这项工作主要集中在以下几个方面:
在这份报告中,我们概述了变化和由此取得的进展。我们展示了TCG在学习图像字幕和图像合成方面的困难;这些问题表明需要重新审视该架构的核心部分。截至本报告撰写之时,TCG将被搁置,直到获得进一步的资金。在重新审视TCG时,已经为它的未来列出了可能的修改意见。这些变化将为TCG成为一个强大的图像字幕框架铺平道路。
图2. 受[4]和[5]启发的图像说明模型。卷积特征被输入到LSTM以生成一个句子。Gumbel采样器从softmax中获取软样本,从而实现反向传播。