形式语言

✍ dations ◷ 2025-12-05 21:43:24 #形式语言
在数学、逻辑和计算机科学中,形式语言(英语:Formal language)是用精确的数学或机器可处理的公式定义的语言。如语言学中语言一样,形式语言一般有两个方面:语法和语义。专门研究语言的语法的数学和计算机科学分支叫做形式语言理论,它只研究语言的语法而不致力于它的语义。在形式语言理论中,形式语言是一个字母表上的某些有限长字符串的集合。一个形式语言可以包含无限多个字符串。语言定义在某一个特定的字母表上,字母表(经常记作 Σ )可以为任意有限集合。例如集合 { a , b , c . . . , z } {displaystyle {a,b,c...,z}} 就表示所有小写字母构成的字母表。字符串是字母表中的元素构成的有穷序列,以之前定义的小写字母表为例,“hello”,“wikipedia”,“abcjkg”都是上面的串,而“AbCd”就不是上面的串了。记号 ε 表示空串——它是一个特殊的长度为0的串。直觉上,一个语言是字母表所能构成的所有串的集合的一个子集,具体来说:对于任意一个字母表,记全体长度为 n 的子串为 Σ n {displaystyle Sigma ^{n}} ,特别的,规定 Σ 0 {displaystyle Sigma ^{0}} 为{ε},则还可以定义Σ ∗ = Σ 0 ∪ Σ 1 ∪ ⋯ ∪ Σ n ∪ ⋯ {displaystyle Sigma ^{*}=Sigma ^{0}cup Sigma ^{1}cup cdots cup Sigma ^{n}cup cdots }Σ ∗ {displaystyle Sigma ^{*}} 包含了字母表 Σ {displaystyle Sigma } 所能构成的所有字符串。语言(一般记为 L )定义为 Σ ∗ {displaystyle Sigma ^{*}} 的任意子集。下面给出一些语言的例子, { h e l l o , w o r l d } {displaystyle {hello,world}} 是一个包含两个字符串的集合,也可以被视为小写字母构成的字母表上的一个语言。而实际上研究的语言的例子则常常更为复杂,例如所有合法的C语言程序串构成的集合也可以视作ASCII上的一个语言(假定编译器只支持英文符号)。需要注意的一点是, Σ ∗ {displaystyle Sigma ^{*}} 的空子集 ∅ 与只包含空串的语言 {ε} 是两个不同的语言。语言间的运算就是 Σ*幂集上的运算。不像自然语言,一个形式语言作为一个集合,需要有某种明确的标准来定义一个字符串是否是它的元素。这可以通过多种方法来完成,下面将给出一些例子:如果一个形式语言的元素数目是有限的,那么可以通过枚举它的各个字符串来严格地定义它。通过形式文法来产生(参见乔姆斯基谱系)。正则表达式是一种很多编程语言和库都支持的语法,这种语法可以用于匹配符合一定条件的字符串,经常用于文本的搜索和过滤。从名称上来说,正则表达式应当是对应于正则语言的,在形式语言领域内所称的正则表达式确实如此。不过,在实际的编程语言中,很多正则表达式已经通过引入复杂的扩展,可以匹配正则表达式所不能描述的内容。形式语言中的正则表达式和一般编程语言中所称的正则表达式在语法上也有较大差异。直觉上来说,自动机消耗输入符号,并在自身的不同状态间转移,可以通过状态机消耗完整个字符串之后是否达到某些特定状态来定义一个字符串是否属于某一个语言。语言可以通过某种自动机来识别,比如图灵机、有限状态自动机。

相关

  • 拟核拟核(英语:nucleoid;意指“与核相似”,又译类核),也称核区(nuclear region)、核体(nuclear body)或染色质体(chromatin body)。存在于原核生物,是没有由核膜包被的细胞核,也没有染色体,只有
  • 石川啄木石川啄木(1886年2月20日-1912年4月13日),日本明治时代诗人、小说家与评论家,本名为石川一,别号白萍。石川啄木出生于日本岩手县南岩手郡日户村(现盛冈市日户),出身贫苦;曾任小学教师、
  • 脉翅目广翅亚目 Megaloptera 蛇蛉亚目 Raphidioptera 蛟蛉亚目 Planipennia脉翅目(学名:Neuroptera)包括草蛉、蚁蛉、长角蛉等,属于完全变态的昆虫。这个目的成虫有两对膜状的的翅膀,前
  • RTA 1远端肾小管性酸中毒(Distal renal tubular acidosis、dRTA、或"1型肾小管酸中毒"(RTA 1))是RTA的传统形式,为RTA第一个描述的病症。远端RTA的特征在于远端肾单位的集合管系统
  • 维他命B12维生素B12(Vitamin B12)为B族维生素之一,是一类含钴的复杂有机化合物。分子结构是以钴离子为中心的咕啉环和5,6-二甲基苯并咪唑为碱基组成的核苷酸。化学式为C63H88O14N14PCo,分
  • 分解代谢异化作用(英语:Catabolism),又称作分解代谢,是生物的新陈代谢途径,将分子分解成更小的单位,并被氧化释放能量的过程,或用于其他合成代谢反应释放能量的过程。 异化作用将大分子(例如
  • 互惠税则法互惠税则法(英语:Reciprocal Tariff Act,1934年6月12日颁布,ch. 474,48 Stat. 943,美国法典第19卷(英语:Title 19 of the United States Code)第1351章)是一部美国国会在1934年颁布
  • 文艺复兴时期哲学前苏格拉底 · 古代 中世纪 · 文艺复兴 17世纪 · 18世纪 · 19世纪 · 20世纪 后现代 · 当代观念史学者使用文艺复兴哲学这一名称来指代大约在1355年至1650
  • 卡巴拉卡巴拉(Kabbalah;he:.mw-parser-output .script-hebrew,.mw-parser-output .script-Hebr{font-size:1.15em;font-family:"Ezra SIL","Ezra SIL SR","Keter Aram Tsova","Taamey
  • 信息系统信息系统或资讯系统(Information Systems),从技术上说就是为了支持组织决策和控制而收集(或获取)、处理、存储、分配信息的一组相互关系的组件。除了支持决策、协作和控制,信息系