ACL 会议(Annual Meeting of the Association for Computational Linguistics)是自然语言处理与计算语言学领域最高级别的学术会议,由计算语言学协会主办,每年一届。ACL 会议论文的接受率一直维持在 25% 左右,其中会经过严格的筛选和评审选出本届会议最佳论文,一般只有一篇。人工智能在近 20 年来获得了爆炸式的发展,而作为人工智能领域之一的自然语言处理,在 20 年来受研究人员关注和看好的发展趋势是怎么样的呢?我们对近 20 年来的 ACL 历届最佳论文按引用量给出了 2001-2018 年高被引的 ACL 最佳论文,以管窥一豹自然语言处理领域的发展和变迁。
1 Accurate Unlexicalized Parsing (2003)
精确非词汇化解析 引用:3046
作者:Dan Klein、Christopher D.Manning
机构:斯坦福大学
简介:作者在本文中展示了非词汇化的 PCFG(概率上下文语法无关)能比以往展示的解析的更精确。通过使用简单的、语言学驱动的状态分解,它打破了传统 treebank 语法中潜在的错误独立性假设,其性能达到了 86.36%(LP/LR F PCFG 机型),并且惊人地接近了目前的最新水平。这个结果有潜在的用途,除了建立一个关于非词汇化模型最大可能精度的强下限之外:非词汇化的 PCFG 比更复杂的词汇模型更紧凑、更容易复制、更容易解释,而且解析算法更简单、更广为理解、渐近复杂度更低,更容易优化。
论文地址:https://www.aminer.cn/pub/53e997f1b7602d9701ff4b51/
2 A hierarchical phrase-based model for statistical machine translation(2005)
统计机器翻译基于短语的层次模型 引用:1291
作者:David Chiang
机构:马里兰大学
简介:分层短语对模型,可以学习没有任何语法注释的训练数据,与现有的基于短语的系统相比,显著提高了翻译的准确性。
本文介绍了一个基于统计短语的翻译模型,该模型使用层次短语-包含子短语的短语。该模型在形式上是同步的上下文无关文法,但可从没有任何语法信息的 bitext 中学习。因此,可以将其视为向没有语言学承诺的基于语法的翻译系统形式机器的转变。在作者的实验中,使用 BLEU 作为度量标准,基于分层短语的模型比基于最先进的系统 Pharoah 实现了 7.5% 的相对改进。
论文地址:https://www.aminer.cn/pub/53e9a0fbb7602d97029e84fc/
3 Discriminative training and maximum entropy models for statistical machine translation (2002)
统计机器翻译中的差异化训练与最大熵模型 引用:1259
作者:Franz Josef Och、Hermann Ney
机构:亚琛工业大学
简介:作者提出了一个基于直接最大熵模型的自然语言统计机器翻译的框架,其中包含了广泛使用的源-信道方法作为特例。所有知识源都被视为特征函数,它取决于源语言语句、目标语言语句和可能的隐藏变量。这种方法允许通过添加新特征轻松扩展基准机器翻译系统。作者表明使用这种方法可以显着改善基准统计机器翻译系统。
论文地址:https://www.aminer.cn/pub/53e9be72b7602d9704b35ae7/
7 Immediate-head parsing for language models (2001)
语言模型的瞬时头部解析 引用:397
作者:Eugene Charniak
机构:布朗大学
简介:作者基于“瞬时头部”解析器提供了两种语言模型,该解析器将所有事件都限制在 c 的头部下方。尽管所有最准确的统计解析器都是瞬时头部解析的,但以前的语法语言模型都没有使用此技术。这两种模型的困惑都大大改善了 Trigram 模型的基线以及以前最好的基于语法的语言模型。对作者的模型这些改进分别为 24% 和 14% 达到了更好的水平。作者的研究还表明,对基础解析器的改进应该可以显着改善模型的困惑度,并且即使在短期内,瞬时头部语言模型也有很大的改进潜力
论文地址:https://www.aminer.cn/pub/53e9be0eb7602d9704ac4bc3/
8 Fast decoding and optimal decoding for machine translation(2001)
机器翻译的快速解码和最优解码 引用:320
作者:Ulrich Germann、Michael Jahr、Kevin Knight、Daniel Marcu
机构:南加利福利亚大学、斯坦福大学
简介:良好的解码算法对于任何统计机器翻译系统的成功都是至关重要的。解码器的工作是根据先前学习的参数集(以及用于组合它们的公式)来找到最有可能的翻译。由于可能的翻译空间非常大,典型的解码算法只能检查其中的一部分,因此有可能错过良好的解决方案。在本文中,作者将传统的基于堆栈的解码算法的速度和输出质量与两个新的解码器进行了比较:快速贪婪解码器和将解码视为整数编程优化问题的慢速最优解码器。
论文地址:https://www.aminer.cn/pub/53e9bb01b7602d9704736c13/
9 Learning Synchronous Grammars for Semantic Parsing with Lambda Calculus(2007)
用 Lambda 演算学习语义解析的同步语法 引用:292
作者:Yuk Wah Wong 、Raymond J. Mooney
机构:德克萨斯大学奥斯汀分校
简介:本文给出了对能生成逻辑形式的同步语法的学习第一个实证结果。使用统计机器翻译技术,在给定一组训练语句及其正确逻辑形式的情况下,可以学习基于以-运算符增强的同步上下文无关语法的语义解析器。结果表明,解析器是迄今为止数据库查询域中性能最佳的系统。
论文地址:https://www.aminer.cn/pub/53e9b6cab7602d97042529b9/
10 A New String-to-Dependency Machine Translation Algorithm with a Target Dependency Language Model (2008)
目标依赖语言模型的一个新的字符串到依赖的机器翻译算法 引用:280
作者:LibinShen、JinxiXu、RalphWeischedel
机构:BBN 技术公司
简介:在本文中,作者提出了一种用于统计机器翻译的新型字符串到依赖的算法。在这个新框架下,本文在解码过程中采用了目标依赖语言模型来开发长距离单词关系,而传统的 n-gram 语言模型则无法提供这种功能。作者的实验表明,与 NIST 04 中英文评估套件上的标准分层字符串到字符串系统相比,字符串到依赖解码器在 BLEU 方面提高了 1.48 分,在 TER 上提高了 2.53 点。
论文地址:https://www.aminer.cn/pub/53e9ad99b7602d9703796f83/