Clicky

关于语言本质的一些想法

Rui Meng

读了一篇文章,记下一些随想,欢迎交流。

原文链接: 英文版: Real talk

中文版:与生俱来还是后天习得?人类如何获得语言能力?

原本语言只需要声音(sound)就足够了,当然动作和上下文环境也是helpful。Khoisan 语言有多达144种发音,但是相比于文字的数量实在少得可怜。但是通过相对简单的元素加上足够的组合和排序,这样的语言至少满足了局部交流的需求。可惜人类无法通过声音保存信息以应对跨时空的信息交流的需求。于是有了文字,用来对声音进行encode,同时也导致了一些歧义出现(如同音不同形)。

显然物理世界对语言的影响不至于保存媒介,我感觉影响最大的一点是语言只能通过序列的形式存在。具体而言就是,时间导致语言只能按照从前到后的形式出现,因为人在同一时间只能发出一个声音,不可能以二维甚至多维的形式传递信息,比如通过嘴在空气中说出一幅画或者一个物体 :D 否则可能就会产生别的更好玩的语言形式了。这可能也是为什么RNN这种更关注序列的model比CNN对语言的建模能力更强(瞎说的,但欢迎拍砖)。

所以人类不得不用通过各种变形来让语义通过这有限的通道进行传播,具体而言这个变形就是语法。纵然不同语言有不同的word和grammar,但归根到底这只是不同文化受制于物理世界的限制下发展出来的rule,而且最终都会被大脑decode为类似sense。所以Chomsky主张的人类具有本能的通用语言计算能力(Universal Grammar,比如解释语法规则中的递归recursion)是靠不住的。一种亚马逊热带雨林的当地语言Pirahã就压根不使用递归结构,因为这都是衍生出来的规则。在生物进化过程中,大脑是为了应对复杂而多样的外界环境而产生的一个universal model。显然把语言解码器烧到固件(dna)里是很不划算且有悖于universal 这一哲学的,因为语言知识只是人和人交流的编码方式,只是人与自然世界交互信息中的小小子集。

这里我要联系到一点点关于大脑结构的有趣事实,人脑中存在布洛卡区(Broca’s area)和韦尼克区(Wernicke’s area)这两个语言中枢。前者受损失会导致表达性失语症,即病人脑海中有sense,但是在组织语言(decode)的过程中出现问题,但起码感知是没有问题的,还会尝试纠正自己说的话。而韦尼克区更为重要,其受损会导致感觉性失语症,病人会丧失语言理解能力,会说出语法正确但是完全没有意义的话,似乎是大脑中关于语言的能力全部乱掉。但我很好奇没有了语言,这对人的思考能力会有多大影响?

既然语言不是与生俱来,那婴儿是如何学习到这些复杂的规则的?

“语言的习得也许块的不可思议,但是,过程艰辛,充满了试错。”

婴儿在和父母交流的过程中,在观察到某种情况的时候,脑海中会有自己的一个预测,即对该情景encode后的一句话,但发现和父母说出的话并不一样,就会在大脑回路中进行相应的纠正,从而在下次encode的时候可以给出更authentic的表达。这就是一个试错和纠错的过程。其实人类对自然世界的认知和学习也是类似的,发现一个现象,对这个现象进行解释(encode),并通过比较自己预测(predicted result by decoding)和现实观测结果(observed result, groundtruth)来纠正自己的model,从而得到了对这一现象进行解释的合理model。