现代语言学发展可以追溯到1916年索绪尔的《普通语言学教程 Cours de linguistique générale 》,其第一次将语言作为整个体系来进行研究,也就是比如研究某个词时,也要将同时代整个语言系统也考虑进去,这种研究方法称为“共时”。
而过去,虽也有研究语言,但更多是单纯的历史性研究,考察某个语言是由某个语言衍生出来,而没有有意识去把研究的对象放在整个语言系统下来看,所以这个也被称为“历时”。
在我看来,所谓共时,也相当于指出了语言中单个单元与其上下文的互动性,“You shall know a word by the company it keeps”(一个词的意思是由它的上下文决定的),这一重要的 idea.
之后一个关键节点,是上世纪五十年代由乔姆斯基提出的生成语法。在使用语言过程中,我们需要哪些知识,在语言是一个有机整体的基础上。
首先来看,乔姆斯基提出这个看法的背景,当时在索绪尔提出“语言是一个符号系统”之后,各地都出现了继承该观点,而发展出的语言学学派,而这一系列现在都被统称为结构主义语言学。
至于为什么叫结构主义语,跟其主要是探索的是一个语言意义是如何由它所在系统里的互动关系决定这一特点密不可分。
当时美国结构主义语言学的掌门人,布隆菲尔德,倡导语言学观点主要是基于行为主义心理学(斯金纳),还写一本《语言论 Language》来阐述他的观点。
既然是基于行为主义心理学,熟悉心理学的也能猜到当时布隆菲尔德一派是如何研究语言了,也就是只研究自己能看到的语言现象。
也就相当于把人当作是一个黑盒,给什么样的刺激,获得什么样的反馈,记在小本本上,最后总结其中的规律。也就是说不会去关心语言到底是怎么产生的,每一句没见过的句子都是新的,只需要观察就可以。
而乔姆斯基注意到了矛盾点,母语者是能够造出无数个符合语法的句子,布隆菲尔德他们的研究方法,无疑于是缘木求鱼,而应该打开人这个黑盒子,弄清楚里面这个可以无穷无尽生成句子的机制是什么,这也就是乔姆斯基的主要创见,生成语法。
主要著作是 1957 年出版的《句法结构 Syntactic Structures》。
这段让我想到了最近 NLP 研究火热的 probing task,也算是是类似行为主义吧,把神经网络当作是黑盒子,然后给输入,看输出在设计任务上的表现,最后总结模型性能。现在只等某个可解释性领域的乔姆斯基出现。
接下来提到的是,认知语言学的创始人之一,雷克夫(Lakoff),也是我特别喜欢的《Metaphors We Live By》一书的作者。
他最初也是跟着乔姆斯基搞生成语法研究,而生成语法最主要研究对象是句法(syntax),单词和短语这些语言基本单位构建句子的规则,而没太涉及到语义学方面的研究,即单词,短语,句子这些的意思是如何来的。
于是雷克夫就想,为什么不利用生成语法的理论框架来研究语义呢,把语义(semantic)作为研究中心,于是提出生成语义学。
然而从结果来说,生成语义学是一次失败的反叛,因为他试图在生成语法的框架内解决一些超出这个框架的问题,到后面只会越来越难自圆其说,慢慢也就没啥人搞了。
而真正成功的反叛只能交给后来的认知语言学了,它是完全跳出了生成语法的框架,开始了一套新理论。
但认知语义学也不是毫无建树,至少也影响了之后的认知语言学,使得两者其中一些基本观点类似,比如认为句法和语义是紧密相连的,不应该分开研究。
正当雷克夫用着生成语法派的武功,稍微改了下招式,准备挑战师傅,打得火热时,认知语言学另一个创始人兰盖克(Langacker),却发现了问题关键,觉得你们这样吵来吵去根本就没意义。
必须得自创功法,创建出一套新的理论体系才行。
既然自创功法了,那么认知语言学和生成语法最大的区别在哪呢?恐怕最大的一点区别在于是否认为语言知识是独立存在这一点。
什么意思呢?
可以把生成语法看作是语言原教旨主义者,认为研究语言知识,可以不考虑知觉,记忆,感情这些杂七杂八的东西,只研究语言就行,只研究句法学就行。
而认知语言学,则认为是需要考虑这些杂七杂八的东西,认为语言是会受这些的影响,比如说即使同一套句法来研究不同语言,会发现有些相同的结构,在有些语言这样说可能就是怪,而这可能就是因为文化等一些心理机制导致的。
因此认知语言学是把语言知识看作是人类心理活动机制必须的一环。
那么生成语法的观点就是错的么,其实我更愿意把它看作是乔姆斯基有意为之的,只有将语言分离出来单独研究,才能够发现所有语言最底层的东西,语言最本质的东西,而这些是可以跨越文化心理各种因素的。一旦考虑了各种文化心理多样性因素,那就没完了。
推荐阅读
数学之美中盛赞的 Michael Collins 教授,他的NLP课程要不要收藏?
From Word Embeddings To Document Distances 阅读笔记
模型压缩实践系列之——bert-of-theseus,一个非常亲民的bert压缩方法
可解释性论文阅读笔记1-Tree Regularization
关于AINLP
AINLP 是一个有趣有AI的自然语言处理社区,专注于 AI、NLP、机器学习、深度学习、推荐算法等相关技术的分享,主题包括文本摘要、智能问答、聊天机器人、机器翻译、自动生成、知识图谱、预训练模型、推荐系统、计算广告、招聘信息、求职经验分享等,欢迎关注!加技术交流群请添加AINLPer(id:ainlper),备注工作/研究方向+加群目的。