编辑距离

✍ dations ◷ 2025-07-26 15:02:55 #字符串算法,字符串相似性度量,度量几何,信息论,字符串

编辑距离是针对二个字符串(例如英文字)的差异程度的量化量测,量测方式是看至少需要多少次的处理才能将一个字符串变成另一个字符串。编辑距离可以用在自然语言处理中,例如拼写检查可以根据一个拼错的字和其他正确的字的编辑距离,判断哪一个(或哪几个)是比较可能的字。DNA也可以视为用A、C、G和T组成的字符串,因此编辑距离也用在生物信息学中,判断二个DNA的类似程度。Unix 下的 diff 及 patch 即是利用编辑距离来进行文本编辑对比的例子。

编辑距离有几种不同的定义,差异在可以对字符串进行的处理。

kitten和sitting的莱文斯坦距离是3。将kitten变为sitting的最小处理方式如下:

若是考虑LCS距离(只考虑加入及删除),LCS距离是5:

相关

  • 真值表真值表是使用于逻辑中(特别是在连结逻辑代数、布尔函数和命题逻辑上)的一类数学用表,用来计算逻辑表示式在每种论证(即每种逻辑变数取值的组合)上的值。尤其是,真值表可以用来判断
  • 炼油炼油厂是一个处理提炼石油的工厂,将原油精炼过后分为许多各有用途的石油产物,例如汽油、柴油等燃料和化工产品。炼油厂中根据不同的油品有不同的装置进行加工,其中有蒸馏装置,催
  • 类地行星类地行星(英语:terrestrial planet),又称地球型行星(telluric planet)或岩石行星(rocky planet)都是指以硅酸盐岩石为主要成分的行星。这个项目的英文字根源自拉丁文的“Terra”,意思
  • 以色列国家图书馆坐标:31°46′33.01″N 35°11′48.58″E / 31.7758361°N 35.1968278°E / 31.7758361; 35.1968278 以色列国家图书馆(希伯来语:.mw-parser-output .script-hebrew,.mw-parser
  • 气部气部,为汉字索引中的部首之一,康熙字典214个部首中的第八十四个(四划的则为第二十四个)。就中文而言,气部归于四划部首。气部通常从右上方为部字。且无其他部首可用者将部首归为
  • 荷兰首相荷兰首相(Minister-president van Nederland)荷兰王国构成国荷兰的政府首脑,但同时因荷兰在王国内人口和面积的压倒优势而兼仼整个王国的首脑,由1848年宪法修订后创立,首相正式名
  • 印第安大屠杀列表印第安大屠杀列表,本表列出欧洲人与印地安人之间的屠杀事件。印第安人大屠杀通常指在欧洲人往美洲殖民时欧洲人屠杀美洲原住民印第安人,和印第安人回击欧洲白种殖民者失败,最后
  • 赵耀宗赵耀宗(英语:Francis Jue,1963年9月29日-)是美国一名华裔演员和歌手。他以在百老汇、全国巡演、外百老汇和地区剧院表演知名,特别是在加利福尼亚州旧金山的湾区和密苏里州的圣路易
  • 喜多川务喜多川务(1957年12月21日-),出生于山口县。
  • 吉良斑捻螺吉良斑捻螺(学名:)为捻螺科斑捻螺属的动物。分布于日本,包括黄海、东海海域、海南等海域,属于暖温带种。其一般生活于潮间带-潮下带浅水区泥砂质底。