统计式的语言模型是一个几率分布,给定一个长度为 -元 。
典型地,n-元语法模型概率不是直接从频率计数中导出的,因为以这种方式导出的模型在面对任何之前没有明确看到的n-元时会有严重的问题。相反,某种形式的平滑是必要的,将一些总概率质量分配给看不见的单词或n-元。使用了各种方法,从简单的“加一”平滑(将计数1分配给看不见的n-元,作为一个无信息的先验)到更复杂的模型,例如Good-Turing discounting(英语:Good-Turing discounting)或 back-off 模型(英语:back-off model)。
在二元语法模型中 ( = 2) , 这个句子的概率可以被估计为
而在三元语法模型中,这个句子的概率估计为
注意前 n-1 个词的 n-元会用句首符号 <s> 填充。
最大熵(英语:Principle of maximum entropy)语言模型用特征函数编码了词和n-元的关系。
其中 是分区函数(英语:partition function), 是参数向量, 是特征函数。
在最简单的情况下,特征函数只是某个n-gram存在的指示器。使用先验的 a 或者使用一些正则化的手段是很有用的。
对数双线性模型是指数型语言模型的另一个例子。