计量语言学(Quantitative Linguistics)是语言学中数理语言学的一个分支,主要用数理统计方法研究和描述自然语言,形成系统的语言理论。计量语言学的一个主要流派为协同语言学(Synergetic linguistics)。计量语言学基于语言各层面的实证数据,因此经常采用语料库语言学和计算语言学的实证数据。
语言的计量研究可追溯到古希腊和古印度时期。历史文献有关于组合数学和基础统计应用于语言研究的例子。
在计量语言学领域,定律可以理解为由理论所推导出来的一些假设,以数学形式表达,与该领域其它语言定律关联,并被语言实证数据有效证明成立,也就是说,无论怎样都无法被推翻。Köhler就计量语言学定律提出:“语言单位的特性及它们的相互关系遵守普遍的定律,这些定律可以像自然科学中的定律一样用严格的数学方法表达。必须谨记的是,在此语境当中,这些定律具有随机性;它们并不适用于每一个单独的例子(这种做法既无必要也无可能);它们仅决定所研究事件的可能性或比率。上述所提及的例子很容易找到反例;然而,这些事例并不违反相应的定律,因为围绕统计中值的变化不仅是允许的还是非常必要的;它们本身就是由对应的定律所定量精确决定的。这种情况与自然科学中的状况并无不同,自然科学研究早已摈弃了原有的关于确定性和因果关系性的观念转而采用统计或概率模型。”
多样化定律:语法范畴的单位如词性或词尾屈折变化的频次受某种法则的支配。
长度(复杂度)分布定律:语篇中的不同语言单位的长度服从不同的分布定律。目前已研究了下述语言单位的长度分布定律: 词素长度分布定律; 韵律长度分布定律; 句子长度分布定律; 音节长度分布定律; 单词长度分布定律。
Martin定律:用于单词释义的单词以及解释这些释义单词的单词形成一个具有层级的词链。处于低一层级的词较上一级次更具有普遍意义。
Menzerath (Menzerath—Altmann)定律:一个语言单位的子结构越多,其子结构的长度越短。 如一个单词的音节越多,那么组成每个音节的成分(如字母)越少;又如句子含子句越多,其子句的长度(指子句单词的数量)越短。
频次定律:语言单位的频次及按频次所排的次序(最高频次排序为1)遵守一定的规律。如ZIPF定律 F·R = C,即词频F与按词频的排序R的乘积为常数C。
语言变化定律:词汇增长、外来语的使用、屈折体系的变化等遵守PIOTROWSKI定律,即一种逻辑斯蒂模型(LOGISTIC MODEL)。
诗体和非诗体风格可借助统计方法来研究;而且,不同风格的文本,也可以在语言规律所采用的具体形式(参数)基础上进行相应研究。在这些方面,文章的风格可用计量语言学的方法来研究:其总体目标之一就是依据语言规律尽可能找寻客观的证据。计量语言学的主要假设之一就是一些定律(例如词长的分布)要求不同的模型,至少这些定律(分布或功能)的不同参数值取决于一个文本所属的文本类。如果研究诗体文本,计量语言学方法就形成了一个文学作品计量研究的分支领域。