泥沙龙笔记：儿童语言没有文法的问题-百检网

首页
中国
泥沙龙笔记：儿童语言没有文法的问题

还有一个议题，关于儿童语言没有文法的问题，所谓电报体，违反“成人文法”了，说是也一样传达语义。我当时的笼统回答是：一定是有文法，否则儿童语言与单词的随机发生器如何区别的？严格说来，这个回答是经不起推敲的，因为语义并非只有经过文法（具体说就是利用文法手段，譬如词序、虚词、词尾等）才能表达。哪怕排除了所有的文法手段，儿童语言的两三个词凑合在一起还是传达了语义的。吃饭饭，饭饭吃，无论怎么说，儿童还是表达了要吃饭的语义。儿童在从自己的词表中找词表达的时候，**不是随机寻找的。父母能听懂儿童的没有文法、或文法贫乏的语言，除了词汇的理解外，也还有常识和情境的帮忙，来弥补文法的不足。其所以“饭饭吃”没有误解成是“饭饭”要吃（其他东西），乃是因为常识告诉我们饭饭是吃的宾语，孩子饿了，而不是饭饭饿了。当然，电报体的儿童语言是贫乏的语言，它只能表达简单意义，所以不能说它与成人语言等价，说它没有文法“一样可以传达意义”是夸大了。肯定是不一样的，贫乏的文法传达的是贫乏的意义，除了吃喝玩的简单需求的表达，儿童做不了哲学家，甚至也表达不了对冰冰的苦恋，对圆圆的向往。*重要的是，没有文法究竟可以不可以表达语义？文法的设立，本来是为了表达关系的意义，是用文法的关系来传达董老师所谓逻辑语义，谁做了什么（who did what to whom when and where，how and why）：主语宾语等等这是人类语言语义的核心，是主干，干上的叶子就是词汇意义。吕叔湘老先生把文法比喻为项链的串子，词汇就是珍珠，光有珍珠，也可做首饰佩戴到头上，可以传达简单的臭美意义。但是要做成各式项链，千变万化，戴到冰冰玉脖上，去电影节争皇后，就没戏了。没有文法的帮助，光有词汇的堆砌，表达不了复杂一点的意义。毛: 没有文法，一定程度上也能表达一些语义。关键字的无序组合也能传达某种意思。

毛老，这就是我下面要说的。没有文法，也可以表达一点词汇以外的关系意义，这是怎么回事呢？

也就是说，几个珍珠随意的堆砌在一起，没有词序，没有语法后缀，也没用功能词（stop words），文法的手段统统不用，其结果是不是一团糟呢？

不一定，这要看谁在堆砌。如果是随机发生器，那就是一团糟（没有语义）；如果是人 (包括儿童) 在堆砌，那就不是一团糟，可以传达简单或模糊的语义（模糊性或歧义，在常识或背景知识的帮助下，也可以消除来达成理解）。换句话说，把文法的形式剥离开，从人的口中蹦出就一袋子词（bag of words），是不是一定不 make sense ，就与随机词发生器一样呢？答案是否定的，还是可以 make 一点 sense 的。

毛: 好，我听着。@wei

有无数的例证。儿童语言是一例；google search 是一例；LSA （Latent Semantic Analysis）也是例证。这些基于 bag of words， *后也达到了某种粗浅的语义。甚至 LSA 的术语里面就自我标榜自己是语义（semantic）的。

这里面的道理其实很简单，就是所选词汇的语义相洽性。随机词发生器不能通过图灵测试是因为“随机”。而儿童语言不是随机选取。如果儿童的大脑里面有了500个词汇，他在选择两三个词从口里发出的时候，**不是随机选取。毛: 对。我觉得把词汇比作珍珠不甚贴切，因为没有强调是各不相同的珍珠。虽然这几个蹦出来的词，他词序可能不对，也不懂加合适的语法后缀，但是选取的过程本身就隐含了某种语义。1+1大于2，即便躶体，没穿文法的皮袍。

同理，LSA 可以自动评判中学生的作文答题，虽然它根本就不懂答题，什么文法也不用，谈不上语义和AI，没有任何理解，但是它却在“正常”的论文答题的判别上，可以达到接近作文老师的判别水平，似乎接近通过图灵测试了。这是因为它的对象是活生生的人，是学生，而学生在组织自己答案的时候，所用的词是相洽的。

学生当然也用了文法，LSA 忽略了其文法的部分，但是*大化了词汇相洽的部分（消除随机噪音）。

毛: 这里还有受者配合的问题。受者会把这些词进行排列组合，然后选用貌似比较合适的组合。

文法表达语义和词汇相洽表达语义，是有相当的 overlapping 的，当然也有不 overlapping 的部分，到了那一部分 LSA 就傻眼了.

雷: 不能判文法，不就一个瘸子吗

但是在这个特定的应用情景下，这个LSA傻眼的部分只占很小一个比例，因此它被广泛运用在标准化阅读理解的自动判卷上。据说它比平庸的、特易疲倦而走神的人肉阅卷者，降低了随意性，更加客观和consistent，因此更公正。公正对于标准化考试是很重要的，而人在公正方面一般而言并不比机器（程序）占有优势。机器学习过去30年在NLP上的几乎所有成功，大都是基于这个原理。

雷: 什么是自洽性，英文是什么？

coherence，一袋子词之所以走得这么远，都是基于人类语言的语义相洽性（semantic coherence），以及一袋子“词”里面包含了ngrams（ngram是对文法的碎片化模拟，因为ngram内部是运用了词序手段的）。

如果阅卷的LSA，突然遇到一个恶作剧，遇到一个不懂语言的机器人，遇到随机发生器，那么 LSA 的没有灵魂，就立马暴露了。

【相关博文】

【研发笔记：没有语言结构可以解析语义么？浅论 LSA】

【科普笔记：没有语言结构可以解析语义么？（之二）】

【置顶：立委百检网博客NLP博文一览（定期更新版）】