最邻近搜索

✍ dations ◷ 2025-06-09 02:13:30 #人工智能,算法

最邻近搜索(Nearest Neighbor Search, NNS)又称为“最近点搜索”(Closest point search),是一个在尺度空间中寻找最近点的优化问题。问题描述如下:在尺度空间中给定一个点集和一个目标点 ∈ ,在中找到距离最近的点。很多情况下,为多维的欧几里得空间,距离由欧几里得距离或曼哈顿距离决定。

高德纳在《计算机程序设计艺术》(1973)一书的第三章中称之为邮局问题,即居民寻找离自己家最近的邮局。

最邻近搜索问题在很多领域中都有应用,包括:

最邻近搜索问题有若干种解决方案,这些算法的优劣决定于他们求解的时间复杂度和用来查找的数据结构的空间复杂度。一种通常的说法表述为“维数灾难”(curse of dimensionality),指对于在大维数的欧几里得空间里用最邻近搜索的话,无法找到多项式的算法和多对数的查找时间。

最简单的最邻近搜索便是遍历整个点集,计算它们和目标点之间的距离,同时记录目前的最近点。这样的算法较为初级,可以为较小规模的点集所用,但是对于点集的尺寸和空间的维数稍大的情况不适用。线性查找所需时间为O(),其中N是的势,是的维。由于不需要建立数据结构,所以线性查找没有存储空间复杂度的问题。

从七十年代起分支限界方法被应用于这个问题。对欧几里得空间来说,这个方法被称为空间索引或者空间访问方法。目前已发展出好几种分支限界方法。恐怕最简单的当属K-d树,它将查找空间不断将父节点包含的区域分为相邻的两部分,每部分包含原来区域中的一半点。求解时,从根节点开始在每个分叉点上对目标点进行计算,直到叶节点。对于给定的维度,查找时间复杂度为O(log )。R树数据结构能高效插入和删除节点,用来解决动态环境下的最邻近搜索。

对于一般的度量空间,分支限界方法被称为度量树,特别的例子有VP树和Bk树。

LSH(Locality sensitive hashing)通过对点进行某种度量操作后将点分组散列在不同的次点集中。在这种度量下相互间距离较近的点被分在同一个次点集的可能性较高。

覆盖树有一个基于点集倍常量的理论界限。这个查找时间的界限是O(c12 log n),其中是点集的膨胀常数。

在最邻近搜索的几个变化中,最著名的是KNN(K-nearest neighbor algorithm)和ε近似最邻近查找(ε-approximate nearest neighbor search)。

KNN查找最邻近的K个点。这种方法常被用在预测分析中,用某点的一些临近点来对它估计和分类。

在一些应用中指需要有个对最邻近的猜测。这种情况下,我们可以用一个不保证能每次都返回绝对正确的最近点的算法,用来提高运算速度或节约存储空间。常常这样的算法大都能找到正确的最近点,但这大大取决于采用点集的分布。

采用近似查找的算法包括Best Bin First和Balanced Box-Decomposition Tree。

ε近似最邻近查找是目前流行的打破维数灾难的工具。

最邻近距离比不直接用目标点和邻近点的距离作为阈值,而是将与到前一个邻近点的距离相关的比值来作为阈值。这被用在基于内容的图像检索中,通过基于本地特征的相似性的“例子查找”来得到图像。更广泛的用途是在一些匹配问题中。

有时,我们需要找到在整个点集中距离所有点都最近的那个点。把最邻近搜索在所有点上运行一次自然能解决问题,但改进的策略能避免点集中距离信息的冗余,从而更高效地查找。比如:当我们算出了X到Y的距离,我们也同时得到了Y到X的距离,于是结果就能被以后的一次求解直接利用。

相关

  • 约翰·道尔顿约翰·道尔顿(英语:John Dalton,/ˈdɔːltən/,1766年9月6日-1844年7月27日),英国皇家学会成员,化学家、物理学家。近代原子理论的提出者,对色盲亦有研究。道尔顿生于坎伯兰郡伊格斯
  • 重氮试剂重氮盐有时也称“重氮化合物”, 是一类通式为R-N2+X−的有机化合物,R指有机基团(如烷基或芳基),X指任何阴离子,通常为卤素离子。重氮盐是无色结晶固体,爆炸性很强,干燥情况下不稳定,
  • 文怀恩文怀恩(Dr. John Elias Williams,1871年-1927年3月24日),生于美国俄亥俄州,美国美北长老会传教士,金陵大学副校长,在1927年南京事件中被杀。1899年,28岁的文怀恩受美北长老会差遣来华
  • 美国海军军官军衔下列表展示出现时美国海军的军官军衔及其肩章。太平洋第五舰队雷蒙德·阿姆斯·斯普鲁恩斯受限于名额及政治因素而无法晋阶,国会通过其于退休后仍可享有五星上将完全等同待遇
  • 国际癌症研究机构一类致癌物对人类有确认的致癌性的物质、混合物和接触场合被国际癌症研究机构列为1类致癌物。这里的有些物质尽管没有特别充分的致癌性证据,但有足够的证据证明它们对动物致癌,而且能从
  • 后三国君主 · 首都 · 文学史 · 教育史 电影史 · 韩医史 陶瓷史 · 戏剧史 韩国国宝 · 朝鲜国宝后三国(892年-936年)是朝鲜历史上的时代划分之一,《高丽史》开篇即定后三国
  • 谢利 (爱达荷州)谢利(英语:Shelley)是一个位于美国爱达荷州宾厄姆县的城市。谢利的座标为43°22′46″N 112°07′26″W / 43.37944°N 112.12389°W / 43.37944; -112.12389,而该地的平均海拔
  • 嘉定话嘉定话是吴语的一种次方言。分布地域在明代嘉定县地域及其周边,包括今上海市嘉定区大部、宝山区大部、青浦区小部,以及江苏省太仓市南部部分地区和昆山市小部。今天的嘉定话受
  • 曼达鳄属曼达鳄(学名:Mandasuchus)是劳氏鳄目迅猛鳄科的一属,化石发现于坦桑尼亚的曼达组(Manda Formation),地质年代为三叠纪中期的拉丁尼阶到安尼西阶。。目前已经发现数个包存状态良好的
  • 传热传质学传热传质学主要介绍传热、传质过程所遵循的基本原理;分析稳态和非稳态条件下热传导及质量扩散现象;研究热对流过程中的能量平衡及质量传递的问题;讨论解决实际工程问题的数学方