形式语言

✍ dations ◷ 2025-12-04 16:42:19 #形式语言
在数学、逻辑和计算机科学中,形式语言(英语:Formal language)是用精确的数学或机器可处理的公式定义的语言。如语言学中语言一样,形式语言一般有两个方面:语法和语义。专门研究语言的语法的数学和计算机科学分支叫做形式语言理论,它只研究语言的语法而不致力于它的语义。在形式语言理论中,形式语言是一个字母表上的某些有限长字符串的集合。一个形式语言可以包含无限多个字符串。语言定义在某一个特定的字母表上,字母表(经常记作 Σ )可以为任意有限集合。例如集合 { a , b , c . . . , z } {displaystyle {a,b,c...,z}} 就表示所有小写字母构成的字母表。字符串是字母表中的元素构成的有穷序列,以之前定义的小写字母表为例,“hello”,“wikipedia”,“abcjkg”都是上面的串,而“AbCd”就不是上面的串了。记号 ε 表示空串——它是一个特殊的长度为0的串。直觉上,一个语言是字母表所能构成的所有串的集合的一个子集,具体来说:对于任意一个字母表,记全体长度为 n 的子串为 Σ n {displaystyle Sigma ^{n}} ,特别的,规定 Σ 0 {displaystyle Sigma ^{0}} 为{ε},则还可以定义Σ ∗ = Σ 0 ∪ Σ 1 ∪ ⋯ ∪ Σ n ∪ ⋯ {displaystyle Sigma ^{*}=Sigma ^{0}cup Sigma ^{1}cup cdots cup Sigma ^{n}cup cdots }Σ ∗ {displaystyle Sigma ^{*}} 包含了字母表 Σ {displaystyle Sigma } 所能构成的所有字符串。语言(一般记为 L )定义为 Σ ∗ {displaystyle Sigma ^{*}} 的任意子集。下面给出一些语言的例子, { h e l l o , w o r l d } {displaystyle {hello,world}} 是一个包含两个字符串的集合,也可以被视为小写字母构成的字母表上的一个语言。而实际上研究的语言的例子则常常更为复杂,例如所有合法的C语言程序串构成的集合也可以视作ASCII上的一个语言(假定编译器只支持英文符号)。需要注意的一点是, Σ ∗ {displaystyle Sigma ^{*}} 的空子集 ∅ 与只包含空串的语言 {ε} 是两个不同的语言。语言间的运算就是 Σ*幂集上的运算。不像自然语言,一个形式语言作为一个集合,需要有某种明确的标准来定义一个字符串是否是它的元素。这可以通过多种方法来完成,下面将给出一些例子:如果一个形式语言的元素数目是有限的,那么可以通过枚举它的各个字符串来严格地定义它。通过形式文法来产生(参见乔姆斯基谱系)。正则表达式是一种很多编程语言和库都支持的语法,这种语法可以用于匹配符合一定条件的字符串,经常用于文本的搜索和过滤。从名称上来说,正则表达式应当是对应于正则语言的,在形式语言领域内所称的正则表达式确实如此。不过,在实际的编程语言中,很多正则表达式已经通过引入复杂的扩展,可以匹配正则表达式所不能描述的内容。形式语言中的正则表达式和一般编程语言中所称的正则表达式在语法上也有较大差异。直觉上来说,自动机消耗输入符号,并在自身的不同状态间转移,可以通过状态机消耗完整个字符串之后是否达到某些特定状态来定义一个字符串是否属于某一个语言。语言可以通过某种自动机来识别,比如图灵机、有限状态自动机。

相关

  • 毒理学毒理学(toxicology, /ˌtɒksᵻˈkɒlədʒi/)是研究外源性化学物及物理和生物因素对生物有机体的有害作用及其作用机理,进而预测其对人体和生态环境的危害的严重程度,为确定安
  • 产褥期产后护理是指针对分娩女性所做的护理工作,而这段时期也叫产褥或产褥期。该护理工作视各地民情,经济等因素,而有不同的照料方式。例如中国或越南等亚洲国家即有名称为坐月子的产
  • 皮肤癌皮肤癌是一种生长在皮肤上的癌症,它是由异常的细胞发展而来,甚至有可能会侵犯扩散到身体不同部位。由于皮肤癌常常在表皮层中发展,肿瘤常常清晰可见,因此大部分时间,可以在早期发
  • 肌肉痛肌肉痛(英语:Myalgia),如字面意思所言——肌肉疼痛,是多种疾病的症状,其最常见的成因是肌肉(群)的过度拉伸、过度使用。没有肌肉创伤史的肌肉痛则通常是由病毒感染所引起,而长期肌肉
  • 内毒素内毒素是存在于病原体如细菌内的天然化合物,具有潜在的毒性。一般来说,内毒素不同于外毒素,活的细菌是不会分泌可溶性的内毒素的。内毒素是细菌的结构成分,当细菌被溶解时而被细
  • 蛋白质序列蛋白质一级结构(英语:Protein primary structure)是肽或蛋白质中氨基酸的线性序列。按照惯例,蛋白质的一级结构被报道从氨基末端(N)端到羧基末端(C)端。蛋白质生物合成最通常由细胞
  • 乌干达坐标:1°N 32°E / 1°N 32°E / 1; 32面积以下资讯是以2019年估计国家领袖国内生产总值(购买力平价) 以下资讯是以2016年估计国内生产总值(国际汇率) 以下资讯是以2016年估计人
  • 吸虫纲见内文吸虫(学名:Trematoda)是寄生虫的一种,为扁形动物门吸虫纲动物的总称,也称为瓜仁虫。一些吸虫也被称为二口虫(拉丁语:Distoma)。其名由来是因为它的口吸盘和腹吸盘都被认为是口
  • 蕾特氏症蕾特氏症(瑞特氏症候群、Rett Syndrome、RTT),是一种X染色体性联显性遗传疾病,突变点位于MeCP2基因上,属于罕见神经疾病,发病率约为1/12,000~1/15,000,而且临床表征缺乏特殊性,因此诊
  • 建教合作合作教育(英语:Cooperative education,港澳称为合作教育,台湾称为建教合作),是一种结合课堂教学与实际工作经验的结构化教学方法。作为教学过程的一部分,合作教育经验通常被计入学