马尔科夫|一个数学家数了数小说中的 20000 个字母,然后诞生了语言识别模型( 二 )


语音识别需要考虑到每个音节的前后关系 , 才能有较高的准确率 。 二是 , 句子中的前后字节间的关系 , 比如英文中动词后常接固定介词或对应名词 , 中文也类似 。
当然 , 从马尔科夫数字母 , 到隐性马尔科夫模型的提出 , 再到语言识别、生成模型应用 , 期间还有很多人提出了各种各样的理论 。 其中影响比较大的是信息论创造者克劳德·艾尔伍德·香农 。
马尔科夫|一个数学家数了数小说中的 20000 个字母,然后诞生了语言识别模型
本文插图

香农对马尔科夫数字母背后的思想很是着迷 , 像马尔科夫一样 , 香农尝试建立语言的统计模型 , 通过统计规则生成文本 。
香农最初的实验 , 通过26个字母加1个空格 , 共计27个符号 , 随机抽取字母生成句子 , 每个字母概率相同 , 得到:
XFOML RXKHRJFFJUJ ZLPWCFWKCYJ FFJEYVKCQSGHYD QPAAMKBZAACIBZLHJQD香农说生成的这句话毫无意义 , 因为当我们交流时 , 不会选择同等概率的字母组合 。 正如马尔科夫的实验表明 , 辅音比元音更可能出现 。 但是在更高的粒度上 , E 比 S 更普遍 , S 比 Q 更普遍 。
为了解决这个问题 , 香农修改了原始实验字母 , 使其更精确模拟英语中每个字母出现的概率 。 比如 E 出现的概率比 Q 高11% , 这样得出一个新的结果 , 更接近一个正确的句子:
OCRO HLI RGWR NMIELWIS EU LL NBNESEBYA THEI EEI ALHENHTTPA OOBTTVA NAH BRL在之后的系列实验中 , 香农证明了 , 随着统计模型变得更加复杂 , 可以得到更容易理解的结果 。
马尔科夫和香农的实验 , 被看做是对语言的统计属性进行建模提供了一种新的思路 , 他们的语言建模和生成的统计方法为自然语言处理开创了一个新的时代 。
马尔科夫|一个数学家数了数小说中的 20000 个字母,然后诞生了语言识别模型
本文插图


推荐阅读