编者按:Sebastian Ruder是自然语言处理方面的博士研究生,也是AYLIEN的研究科学家。近日,他撰写了一篇文章,专为初级研究人员选择研究方向提供启发和思路。本文收集了一系列有趣的研究课题,重点关注NLP和迁移学习。
NLP:任务独立型数据增强
NLP:few-shot learning
NLP:迁移学习
多任务学习
跨语言学习
与任务无关的架构改进
当你刚进入某一新的研究领域并成为一名研究人员时,你会发现要找一个既吸引人眼球又感兴趣的研究课题实在是件困难的事。尤其是在日新月异的机器学习领域,你可能根本无从下手。
本文旨在为初级研究人员和那些希望进入新领域的学生提供一些启发和思路。文章收录了几个有趣的研究课题,侧重自然语言处理和迁移学习,因此并不适合所有读者。如果你对强化学习有想法,OpenAI的这些RL课题会是你的良好选择;如果你期待和他人合作,或是深入更广泛的领域,你也可以去人工智能开放社区Artificial Intelligence Open Network看看。
以下课题中的大部分尚是未知阶段:很多时候,我们关于它们的描述还很模糊,因此发散主观思维寻找更多方向也是可能的。此外,它们大多都不水,所以如果你想做出点成果,你必须认真努力。如果有需要,我个人可以为你提供这些方面的帮助,但前提是你要具备足够的专业知识积累。需要注意的一点是,本文所囊括的文献只是一小部分,只是为了提供一个概览,也就是说,这些参考论文并不全面。
希望这篇文章能激发你的研究兴趣,并帮助你找到合适的课题。
数据增强旨在通过变换生成现有训练样本的变体,从而创建更多的训练数据,这些变换往往可以反映现实世界中会发生的变化。在计算机视觉(CV)任务中,常见的数据增强方法有mirroring(镜像反转)、random cropping(随机裁剪)、shearing(修剪)等。它的效果十分显著,如在AlexNet[1]中具有出色的防止过拟合能力,它也因此被大多数最先进模型所使用。
但是,在NLP任务中,数据增强就不那么应用广泛了。在我看来,这可以被归结为两点:
NLP中的数据是离散的。它的后果是我们无法对输入数据进行直接简单地转换,而大多数CV工具则没有这个限制,如domain randomization[2]。
小的扰动可能会改变含义。在NLP中,删掉一个否定词可能会改变整个句子的情绪,而修改一段话中的某个词甚至会改变语意。但CV不存在这种情况,不论图像中的是猫还是狗,扰动单个像素一般不会影响模型预测,甚至都不会出现明显变化,如插值就是一种有效的图像处理技术[3]。
当前这方面的进展主要还是基于规则的[5],或是只针对特定任务,例如语法分析[6]和zero-pronoun resolution[7]。Xie等人[39]用语言建模和机器翻译的不同分布样本替换单词。而近期的一些研究也把目光集中在通过替换单词/字符[8,9]、级联[11]或添加对抗扰动[10]来生成对抗性样本上。另外,Li等人还用对抗设置建立了一个系统,能生成与自然语言别无二致的语句。
反向翻译[12,13]是机器翻译(MT)中常见的数据增强方法,它允许我们引入只有单种语言的训练数据。 例如,在训练EN→FR系统时,我们把只包含法语的文本用FR→EN系统翻译成英语,然后得到的英语文本就能和原有法语文本合成并行数据用于训练。 反向翻译也可以用于复述(paraphrasing)[14]。复述一般可用于问答文本的数据增强,当然,我并不太清楚它是否还有其他应用领域。
另一种和复述类似的方法是用变分自动编码器从连续空间生成句子[17,19]。如果生成句子的表征具备期望属性[18],那我们离风格迁移也就不远了。
这方面有一些有趣的研究方向值得深入:
评估现有研究。评估现有的一系列数据增强方法,包括那些尚未广泛使用的增强技术,如复述和风格迁移,你可以先试着把它们用在文本分类或序列标签等多种任务中,方便后续比较。你需要确定哪些数据增强方法在任务中普遍表现良好、哪些则更适合特定任务。之后你可以把它们打包成软件库,提供一个简单易用的基准测试(参考CleverHans NLP)。
带有风格迁移的数据增强。验证风格迁移能否通过改变数据中的某些属性来增强模型学习效果。
研究数据增强。和Dong[15]那篇论文一样,我们可以学着为特定任务进行复述或生成转换。
研究数据增强的词嵌入空间。典型的词嵌入空间会把同义词和反义词聚集在一起,因此这个空间不允许近邻替换。但考虑到Mrkšić等人近期的研究[21],或许专为数据增强专门匹配一个词嵌入空间也未尝不可。
对抗性数据增强。可以参考Ribeiro等人的工作[22],我们可以试着对句子中最明显的词,如模型预测依赖的那些词添加扰动。但是,这仍然需要保留语义的替换方法。
Zero-shot、one-shot和few-shot learning是近几年最有趣的IMO研究方向之一。继Vinyals等人[4]前年提出few-shot模型应明确训练用于进行few-shot learning后,去年Ravi和Larochelle[23,24]也在这方面有了一些进展。
从少量标签样本中学习是IMO最难解决的问题之一,也是将当前的ML模型与更普适的系统区分开来的核心难点之一。据我所知,Zero-shot learning现在仅在学习未知词汇的词嵌入这一块有一些研究,而用于在联合空间中潜入标签和文档的无数据分类[25,26]虽然是个有趣的相关方向,但它也要求可解释标签需要有良好的描述。
以下是一些潜在的研究方向:
标准化的基准。为NLP的few-shot learning创建标准化基准。Vinyals等人之前为Penn Treebank引入了一次性语言建模任务。它虽然有用,但和CV基准测试的评估手段相比仍然存在不小差距,而且就我知道的情况而言,几乎没有人在用这个任务。NLP的few-shot learning基准应该包含大量的类,并提供标准化的重复性分割。一个可行的操作是分类主题或细化实体识别。
评估现有研究。创建这样一个基准后,下一步我们可以评估CV中现有的few-shot learning模型在NLP任务中的表现。
新的NLP方法。给定一个基准数据集和一个经验性评估研究,之后我们就能为NLP的few-shot learning发掘一些新方法。
迁移学习对计算机视觉领域产生了非常深远的影响,它大大降低了人们将CV算法用于解决自己任务的入门门槛。研究人员从此无需为新任务另起炉灶,只需少量样本,他们就能对在大型数据集上预先训练好的模型进行参数调整,使之迅速应用于新任务。
然而在NLP中,我们到目前为止还是只能通过预训练嵌入来预训练模型的第一层。去年Peter等人[31,32]提出了一种添加预训练语言模型嵌入的方法,但它仍需要为每个任务单独设置架构。在我看来,为了释放NLP迁移学习的真正潜力,我们需要预训练整个模型并在目标任务上对其进行微调,就像CV任务微调ImageNet模型那样。例如,建立语言模型是预训练的一项重要内容,这就相当于NLP领域的ImageNet模型[33]。
以下是一些潜在的研究方向:
识别有价值的预训练任务。选择训练任务是非常重要的,因为即使针对特定任务对模型进行优化,它的效果也很有限[38]。其他的工作,比如近期在通用语句嵌入方面的研究[34,35,40],可能会成为语言模型预训练或适配特定任务的一个补充。
微调复杂的体系结构。如果要训练一个可用于多种任务的模型,预训练无疑是最有效的。然而现在我们对如何预先设计更复杂的体系结构,如用于配对分类任务和推理任务的结构,仍然知之甚少。
多任务学习(MTL)在NLP中已经变得越来越常用,具体细节可以阅读我之前的文章《深层神经网络中的多任务学习概述》。但是,一般意义上来说,我们对多任务学习还缺乏了解。
MTL也有不少有趣的研究方向:
确定有效的辅助任务。多任务学习的主要问题之一是确定哪些问题真正对模型具有价值。去年,Alonso和Plank[28]已经证明标签熵可作为MTL的一个预测指标,但它并不是面面俱到的。在近期的一项工作中[27],研究人员发现更多的数据以及更细化的标签能更有效地辅助学习。如果未来关于MTL的论文不仅能提出更多新模型和辅助任务,还能解释这个任务为什么比那个任务更好,这将是很有建树的。
硬参数共享的替代方案。硬参数共享仍然是MTL的默认操作方式,但它对模型的约束太过强大。试想一下,如果我们用相同的参数学习关于不同任务的经验,它的训练难度可想而知。因此我们需要更好的MTL方法,它们不仅要易于使用,还要能在多种任务中稳定工作。去年Misra等人[29,30]提出了一种名为cross-stitch units的方法,今年年初Augenstein等人又建议增加一个标签嵌入层,这些设想都极具潜力。
人工辅助任务。最好的辅助任务是针对目标任务量身定制的辅助任务,而无需其他任何数据。我之前列出了一些人工辅助任务条目,但还不清楚其中的哪些会在多种任务中可靠地发挥作用,以及其中的哪些修改是能真正有效的。
创建一个能在跨语言环境中表现良好,并可将知识从资源丰富处转移到资源贫乏处的语言模型是IMO最重要的研究方向之一。近年来研究人员在学习将不同语言投影到共享嵌入空间的跨语言表示方面也取得了很大进展,可参考Ruder等人的论文[36]。
我们通常根据相似性基准评估,或在外部对下游任务(如文本分类)评估模型在跨语言任务中的表现。尽管最近的研究提供了一些先进技术,但我们并没有很好地理解这些方法在任务、语言上的失败原因,以及它们应该如何以与任务无关的方式降低失败率,例如通过注入特定于任务的约束。
定期推出新型体系结构,取代以前的体系结构,超越当前最先进的技术并针对特定任务量身定制。 我已经概述了不同NLP任务的最佳实践,但是在不比较这些不同任务的体系结构的情况下,我们还是通常很难从专门的体系结构中获得线索,并且知道哪些组件会在其他环境中也表现出色。
Transformer是一个特别有前途的新模型。 虽然完整的模型可能不适合所有任务,但多头注意或基于位置的编码等组件可以被作为构建模块,这对于许多NLP任务通常很有用。
我希望你能从这篇文章中找到有价值的研究方向,如果你有任何关于如何解决相关研究主题的想法和建议,可以给论智留言,或前往博客评论去各抒己见。
Krizhevsky, A., Sutskever, I., & Hinton, G. E. (2012). Imagenet classification with deep convolutional neural networks. In Advances in neural information processing systems (pp. 1097-1105).
Tobin, J., Fong, R., Ray, A., Schneider, J., Zaremba, W., & Abbeel, P. (2017). Domain Randomization for Transferring Deep Neural Networks from Simulation to the Real World. arXiv Preprint arXiv:1703.06907.
Zhang, H., Cisse, M., Dauphin, Y. N., & Lopez-Paz, D. (2017). mixup: Beyond Empirical Risk Minimization, 1–11. arxiv.org/abs/1710.09412
Vinyals, O., Blundell, C., Lillicrap, T., Kavukcuoglu, K., & Wierstra, D. (2016). Matching Networks for One Shot Learning. NIPS 2016. arxiv.org/abs/1606.04080
Li, Y., Cohn, T., & Baldwin, T. (2017). Robust Training under Linguistic Adversity. In Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics (Vol. 2, pp. 21–27).
Wang, D., & Eisner, J. (2016). The Galactic Dependencies Treebanks: Getting More Data by Synthesizing New Languages. Tacl, 4, 491–505. www.transacl.org/ojs/index.php/tacl/articl
Liu, T., Cui, Y., Yin, Q., Zhang, W., Wang, S., & Hu, G. (2017). Generating and Exploiting Large-scale Pseudo Training Data for Zero Pronoun Resolution. In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (pp. 102–111).
Samanta, S., & Mehta, S. (2017). Towards Crafting Text Adversarial Samples. arXiv preprint arXiv:1707.02812.
Ebrahimi, J., Rao, A., Lowd, D., & Dou, D. (2017). HotFlip: White-Box Adversarial Examples for NLP. arxiv.org/abs/1712.06751
Yasunaga, M., Kasai, J., & Radev, D. (2017). Robust Multilingual Part-of-Speech Tagging via Adversarial Training. In Proceedings of NAACL 2018. arxiv.org/abs/1711.04903
Jia, R., & Liang, P. (2017). Adversarial Examples for Evaluating Reading Comprehension Systems. In Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing.
Sennrich, R., Haddow, B., & Birch, A. (2015). Improving neural machine translation models with monolingual data. arXiv preprint arXiv:1511.06709.
Sennrich, R., Haddow, B., & Birch, A. (2016). Edinburgh neural machine translation systems for wmt 16. arXiv preprint arXiv:1606.02891.
Mallinson, J., Sennrich, R., & Lapata, M. (2017). Paraphrasing revisited with neural machine translation. In Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics: Volume 1, Long Papers (Vol. 1, pp. 881-893).
Dong, L., Mallinson, J., Reddy, S., & Lapata, M. (2017). Learning to Paraphrase for Question Answering. In Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing. arxiv.org/abs/1708.06022
Li, J., Monroe, W., Shi, T., Ritter, A., & Jurafsky, D. (2017). Adversarial Learning for Neural Dialogue Generation. In Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing. arxiv.org/abs/1701.06547
Bowman, S. R., Vilnis, L., Vinyals, O., Dai, A. M., Jozefowicz, R., & Bengio, S. (2016). Generating Sentences from a Continuous Space. In Proceedings of the 20th SIGNLL Conference on Computational Natural Language Learning (CoNLL). arxiv.org/abs/1511.06349
Hu, Z., Yang, Z., Liang, X., Salakhutdinov, R., & Xing, E. P. (2017). Toward Controlled Generation of Text. In Proceedings of the 34th International Conference on Machine Learning. arxiv.org/abs/1703.00955
Guu, K., Hashimoto, T. B., Oren, Y., & Liang, P. (2017). Generating Sentences by Editing Prototypes.
Shen, T., Lei, T., Barzilay, R., & Jaakkola, T. (2017). Style Transfer from Non-Parallel Text by Cross-Alignment. In Advances in Neural Information Processing Systems. arxiv.org/abs/1705.09655
Mrkšić, N., Vulić, I., Séaghdha, D. Ó., Leviant, I., Reichart, R., Gašić, M., … Young, S. (2017). Semantic Specialisation of Distributional Word Vector Spaces using Monolingual and Cross-Lingual Constraints. TACL. arxiv.org/abs/1706.00374
Ribeiro, M. T., Singh, S., & Guestrin, C. (2016, August). Why should i trust you?: Explaining the predictions of any classifier. In Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (pp. 1135-1144). ACM.
Ravi, S., & Larochelle, H. (2017). Optimization as a Model for Few-Shot Learning. In ICLR 2017.
Snell, J., Swersky, K., & Zemel, R. S. (2017). Prototypical Networks for Few-shot Learning. In Advances in Neural Information Processing Systems.
Song, Y., & Roth, D. (2014). On dataless hierarchical text classification. Proceedings of AAAI, 1579–1585. cogcomp.cs.illinois.edu/papers/SongSoRo14.pdf
Song, Y., Upadhyay, S., Peng, H., & Roth, D. (2016). Cross-Lingual Dataless Classification for Many Languages. Ijcai, 2901–2907.
Augenstein, I., Ruder, S., & Søgaard, A. (2018). Multi-task Learning of Pairwise Sequence Classification Tasks Over Disparate Label Spaces. In Proceedings of NAACL 2018.
Alonso, H. M., & Plank, B. (2017). When is multitask learning effective? Multitask learning for semantic sequence prediction under varying data conditions. In EACL. arxiv.org/abs/1612.02251.
Misra, I., Shrivastava, A., Gupta, A., & Hebert, M. (2016). Cross-stitch Networks for Multi-task Learning. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.doi.org/10.1109/CVPR.2016.433
Ruder, S., Bingel, J., Augenstein, I., & Søgaard, A. (2017). Sluice networks: Learning what to share between loosely related tasks. arXiv preprint arXiv:1705.08142.
Peters, M. E., Ammar, W., Bhagavatula, C., & Power, R. (2017). Semi-supervised sequence tagging with bidirectional language models. In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (ACL 2017).
Peters, M. E., Neumann, M., Iyyer, M., Gardner, M., Clark, C., Lee, K., & Zettlemoyer, L. (2018). Deep contextualized word representations. Proceedings of NAACL.
Howard, J., & Ruder, S. (2018). Fine-tuned Language Models for Text Classification. arXiv preprint arXiv:1801.06146.
Conneau, A., Kiela, D., Schwenk, H., Barrault, L., & Bordes, A. (2017). Supervised Learning of Universal Sentence Representations from Natural Language Inference Data. In Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing.
Subramanian, S., Trischler, A., Bengio, Y., & Pal, C. J. (2018). Learning General Purpose Distributed Sentence Representations via Large Scale Multi-task Learning. In Proceedings of ICLR 2018.
Ruder, S., Vulić, I., & Søgaard, A. (2017). A Survey of Cross-lingual Word Embedding Models. arXiv Preprint arXiv:1706.04902.
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., … Polosukhin, I. (2017). Attention Is All You Need. In Advances in Neural Information Processing Systems.
Mou, L., Meng, Z., Yan, R., Li, G., Xu, Y., Zhang, L., & Jin, Z. (2016). How Transferable are Neural Networks in NLP Applications? Proceedings of 2016 Conference on Empirical Methods in Natural Language Processing.
Xie, Z., Wang, S. I., Li, J., Levy, D., Nie, A., Jurafsky, D., & Ng, A. Y. (2017). Data Noising as Smoothing in Neural Network Language Models. In Proceedings of ICLR 2017.
Nie, A., Bennett, E. D., & Goodman, N. D. (2017). DisSent: Sentence Representation Learning from Explicit Discourse Relations. arXiv Preprint arXiv:1710.04334
原文地址:ruder.io/requests-for-research/?utmcampaign=Revue%20newsletter&utmmedium=Newsletter&utm_source=The%20Wild%20Week%20in%20AI