毛老,这就是我下面要说的。没有文法,也可以表达一点词汇以外的关系意义,这是怎么回事呢?
也就是说,几个珍珠随意的堆砌在一起,没有词序,没有语法后缀,也没用功能词(stop words),文法的手段统统不用,其结果是不是一团糟呢?不一定,这要看谁在堆砌。如果是随机发生器,那就是一团糟(没有语义);如果是人 (包括儿童) 在堆砌,那就不是一团糟,可以传达简单或模糊的语义(模糊性或歧义,在常识或背景知识的帮助下,也可以消除来达成理解)。换句话说,把文法的形式剥离开,从人的口中蹦出就一袋子词(bag of words),是不是一定不 make sense ,就与随机词发生器一样呢?答案是否定的,还是可以 make 一点 sense 的。
毛: 好,我听着。@wei有无数的例证。儿童语言是一例;google search 是一例;LSA (Latent Semantic Analysis)也是例证。这些基于 bag of words, *后也达到了某种粗浅的语义。甚至 LSA 的术语里面就自我标榜自己是语义(semantic)的。
这里面的道理其实很简单,就是所选词汇的语义相洽性。随机词发生器不能通过图灵测试是因为“随机”。而儿童语言不是随机选取。如果儿童的大脑里面有了500个词汇,他在选择两三个词从口里发出的时候,**不是随机选取。毛: 对。我觉得把词汇比作珍珠不甚贴切,因为没有强调是各不相同的珍珠。虽然这几个蹦出来的词,他词序可能不对,也不懂加合适的语法后缀,但是选取的过程本身就隐含了某种语义。1+1大于2,即便躶体,没穿文法的皮袍。同理,LSA 可以自动评判中学生的作文答题,虽然它根本就不懂答题,什么文法也不用,谈不上语义和AI,没有任何理解,但是它却在“正常”的论文答题的判别上,可以达到接近作文老师的判别水平,似乎接近通过图灵测试了。这是因为它的对象是活生生的人,是学生,而学生在组织自己答案的时候,所用的词是相洽的。
学生当然也用了文法,LSA 忽略了其文法的部分,但是*大化了词汇相洽的部分(消除随机噪音)。毛: 这里还有受者配合的问题。受者会把这些词进行排列组合,然后选用貌似比较合适的组合。
文法表达语义和词汇相洽表达语义,是有相当的 overlapping 的,当然也有不 overlapping 的部分,到了那一部分 LSA 就傻眼了.
雷: 不能判文法,不就一个瘸子吗
但是在这个特定的应用情景下,这个LSA傻眼的部分只占很小一个比例,因此它被广泛运用在标准化阅读理解的自动判卷上。据说它比平庸的、特易疲倦而走神的人肉阅卷者,降低了随意性,更加客观和consistent,因此更公正。公正对于标准化考试是很重要的,而人在公正方面一般而言并不比机器(程序)占有优势。机器学习过去30年在NLP上的几乎所有成功,大都是基于这个原理。雷: 什么是自洽性,英文是什么?
coherence,一袋子词之所以走得这么远,都是基于人类语言的语义相洽性(semantic coherence),以及一袋子“词”里面包含了ngrams(ngram是对文法的碎片化模拟,因为ngram内部是运用了词序手段的)。
如果阅卷的LSA,突然遇到一个恶作剧,遇到一个不懂语言的机器人,遇到随机发生器,那么 LSA 的没有灵魂,就立马暴露了。
【相关博文】
【研发笔记:没有语言结构可以解析语义么?浅论 LSA】
【科普笔记:没有语言结构可以解析语义么?(之二)】
【置顶:立委百检网博客NLP博文一览(定期更新版)】