编辑距离

✍ dations ◷ 2025-10-31 22:03:10 #字符串算法,字符串相似性度量,度量几何,信息论,字符串

编辑距离是针对二个字符串(例如英文字)的差异程度的量化量测,量测方式是看至少需要多少次的处理才能将一个字符串变成另一个字符串。编辑距离可以用在自然语言处理中,例如拼写检查可以根据一个拼错的字和其他正确的字的编辑距离,判断哪一个(或哪几个)是比较可能的字。DNA也可以视为用A、C、G和T组成的字符串,因此编辑距离也用在生物信息学中,判断二个DNA的类似程度。Unix 下的 diff 及 patch 即是利用编辑距离来进行文本编辑对比的例子。

编辑距离有几种不同的定义,差异在可以对字符串进行的处理。

kitten和sitting的莱文斯坦距离是3。将kitten变为sitting的最小处理方式如下:

若是考虑LCS距离(只考虑加入及删除),LCS距离是5:

相关

  • 分类药物列表Nervous SystemAntiepilepticsHydantoin derivativesCarboxamide derivativesFatty acid derivativesBarbiturates and derivativesAnalgesicsOpioidsNatural opium alkaloi
  • 460110 数学 120 信息科学与系统科学 130 力学 140 物理学 150 化学 160 天文学 170 地球科学 180 生物学210 农学 220 林学 230 畜牧、兽医科学 240 水产学310 
  • 约翰·斯塔利约翰·斯塔利(John Kemp Starley,1854年-1901年),英国发明家,和詹姆斯·斯塔利(英语:James Starley)一起对自行车和三轮车作出了重大改进,是英国自行车工业之父。约翰·斯塔利生于英
  • 双峰驼双峰骆驼(学名:Camelus bactrianus),也叫双峰驼,是一个大型的偶蹄动物,与单峰骆驼不同,有双峰,主要栖息在中亚与土耳其。双峰驼因其耐寒,耐旱和对高海拔地区的适应力而于中亚长期驯养
  • 尾,又称尾巴,是指位于动物体背部尾端的部分,特别是指构造柔韧可弯曲、且明显分开于躯干的附肢部分,大致上相当于哺乳动物与鸟类的骶骨(荐骨)和尾骨。一般而言尾巴是脊椎动物的专属
  • span style=color:black;地理分区/span日本地理区划描述了日本国内基于历史人文与自然地理等因素所划分成的地方或地区概念。对于非日本当地的居民来说,一般较为熟悉的是根据地理上的概念,将日本分为日本列岛的四个
  • 萨辛·坦都卡薩辛·坦都卡(马拉地语:सचिन रमेश तेंडुलकर,英语:Sachin Tendulkar,1973年4月24日-),印度板球运动员,被认为是板球历史上最伟大的击球手之一。他保持着板球对抗赛(Tes
  • 爱因斯坦-波多尔斯基-罗森佯谬在量子力学里,爱因斯坦-波多尔斯基-罗森佯谬(英语:Einstein-Podolsky-Rosen paradox),简称“爱波罗佯谬”、“EPR佯谬”(EPR paradox)等,是阿尔伯特·爱因斯坦、鲍里斯·波多尔斯基
  • 胡文蒂诺·罗萨斯何塞·胡文蒂诺·波利卡尔波·罗萨斯·卡德纳斯(西班牙语:José Juventino Policarpo Rosas Cadenas,1868年1月25日-1894年7月9日),墨西哥作曲家。瓜纳华托州圣·克鲁斯·德·加
  • 磁化内衬惯性核聚变磁化内衬惯性核聚变(英语:Magnetized Liner Inertial Fusion, MagLIF),是一种产生能量的方法,该方法用100纳秒的电脉冲产生强烈的Z-pinch(英语:Z-pinch)磁场,向内压碎装有燃料的圆柱