编辑距离

✍ dations ◷ 2025-06-29 15:12:41 #字符串算法,字符串相似性度量,度量几何,信息论,字符串

编辑距离是针对二个字符串(例如英文字)的差异程度的量化量测,量测方式是看至少需要多少次的处理才能将一个字符串变成另一个字符串。编辑距离可以用在自然语言处理中,例如拼写检查可以根据一个拼错的字和其他正确的字的编辑距离,判断哪一个(或哪几个)是比较可能的字。DNA也可以视为用A、C、G和T组成的字符串,因此编辑距离也用在生物信息学中,判断二个DNA的类似程度。Unix 下的 diff 及 patch 即是利用编辑距离来进行文本编辑对比的例子。

编辑距离有几种不同的定义,差异在可以对字符串进行的处理。

kitten和sitting的莱文斯坦距离是3。将kitten变为sitting的最小处理方式如下:

若是考虑LCS距离(只考虑加入及删除),LCS距离是5:

相关

  • 色素沉着绒毛结节性滑膜炎色素沉着绒毛结节性滑膜炎(英语:Pigmented villonodular synovitis,缩写为 英语:PVNS)也称为关节内的腱鞘巨细胞瘤(英语:intra-articular giant-cell tumor of the tendon sheath),是
  • 头孢呋辛酯头孢呋辛酯 是一种第二代口服头孢菌素抗生素。最初由葛兰素史克公司发现,并于1987年作为Zinnat被引入。 在1987年十二月28日获FDA批准通过。 葛兰素史克在美国和印度分别以Ce
  • 吖啶吖啶(英语:Acridine,汉语发音为“阿定”)是一种含氮的杂环有机化合物,其化学式为C13H9N。吖啶的分子结构与蒽类似,可视作蒽的中间环系上的一个CH被氮取代后形成的物质,因此也被称为
  • 丹绒比艾丹绒比艾(马来语:Tanjong Piai)位于马来西亚柔佛州笨珍县,同时也是亚洲大陆最南端的地区,并与廖内群岛构成新加坡海峡的最西点,距离新山市中心约90公里。丹绒一词在马来语中就是海
  • 二尖瓣狭窄二尖瓣狭窄是一种较为常见的心瓣膜病。在正常情况下,二尖瓣在左心室舒张时打开,使血液从左心房流入左心室。患有二尖瓣狭窄症的病人二尖瓣在左心室舒张时不能够完全开放,使左心
  • 弗朗索瓦·雅各布弗朗索瓦·雅各布(法语:François Jacob,1920年6月17日-2013年4月19日)是一位犹太裔法国生物学家,他与雅克·莫诺发现了酶在原核生物转录作用调控中的角色,也就是后来所知的乳糖操
  • 阿灵顿 (马萨诸塞州)阿灵顿(Arlington)是美国马萨诸塞州米德尔塞克斯县的一个镇,位于波士顿西北约10公里远。根据2010年的人口普查阿灵顿的人口为42844人.阿灵顿占地约3517.5英亩(14平方千米),或5.5平
  • BEE TRAINBEE TRAIN是一家以动画企划制作为主要业务的日本企业。BEE TRAIN的创办人——真下耕一与崛川宪司,过去皆曾任职于动画制作公司龙之子并结识,随后真下耕一于1984年自龙之子制作
  • 盖比·里斯蒂亚妮·伊马万盖比·里斯蒂亚妮·伊马万(印尼语:Gebby Ristiyani Imawan,1992年3月6日-),印尼女子羽毛球运动员。2013年8月,伊马万参加中国广州举行的世界羽毛球锦标赛,与蒂亚拉·罗萨莉娅·努莱
  • 广东省高水平理工科大学广东省委、省政府印发《关于加强理工科大学和理工类学科建设服务创新发展的意见》(以下简称意见),提出2016-2018年,省财政安排佛山科学技术学院、东莞理工学院各5亿元专项补助