最邻近搜索

✍ dations ◷ 2025-12-06 19:02:36 #人工智能,算法

最邻近搜索(Nearest Neighbor Search, NNS)又称为“最近点搜索”(Closest point search),是一个在尺度空间中寻找最近点的优化问题。问题描述如下:在尺度空间中给定一个点集和一个目标点 ∈ ,在中找到距离最近的点。很多情况下,为多维的欧几里得空间,距离由欧几里得距离或曼哈顿距离决定。

高德纳在《计算机程序设计艺术》(1973)一书的第三章中称之为邮局问题,即居民寻找离自己家最近的邮局。

最邻近搜索问题在很多领域中都有应用,包括:

最邻近搜索问题有若干种解决方案,这些算法的优劣决定于他们求解的时间复杂度和用来查找的数据结构的空间复杂度。一种通常的说法表述为“维数灾难”(curse of dimensionality),指对于在大维数的欧几里得空间里用最邻近搜索的话,无法找到多项式的算法和多对数的查找时间。

最简单的最邻近搜索便是遍历整个点集,计算它们和目标点之间的距离,同时记录目前的最近点。这样的算法较为初级,可以为较小规模的点集所用,但是对于点集的尺寸和空间的维数稍大的情况不适用。线性查找所需时间为O(),其中N是的势,是的维。由于不需要建立数据结构,所以线性查找没有存储空间复杂度的问题。

从七十年代起分支限界方法被应用于这个问题。对欧几里得空间来说,这个方法被称为空间索引或者空间访问方法。目前已发展出好几种分支限界方法。恐怕最简单的当属K-d树,它将查找空间不断将父节点包含的区域分为相邻的两部分,每部分包含原来区域中的一半点。求解时,从根节点开始在每个分叉点上对目标点进行计算,直到叶节点。对于给定的维度,查找时间复杂度为O(log )。R树数据结构能高效插入和删除节点,用来解决动态环境下的最邻近搜索。

对于一般的度量空间,分支限界方法被称为度量树,特别的例子有VP树和Bk树。

LSH(Locality sensitive hashing)通过对点进行某种度量操作后将点分组散列在不同的次点集中。在这种度量下相互间距离较近的点被分在同一个次点集的可能性较高。

覆盖树有一个基于点集倍常量的理论界限。这个查找时间的界限是O(c12 log n),其中是点集的膨胀常数。

在最邻近搜索的几个变化中,最著名的是KNN(K-nearest neighbor algorithm)和ε近似最邻近查找(ε-approximate nearest neighbor search)。

KNN查找最邻近的K个点。这种方法常被用在预测分析中,用某点的一些临近点来对它估计和分类。

在一些应用中指需要有个对最邻近的猜测。这种情况下,我们可以用一个不保证能每次都返回绝对正确的最近点的算法,用来提高运算速度或节约存储空间。常常这样的算法大都能找到正确的最近点,但这大大取决于采用点集的分布。

采用近似查找的算法包括Best Bin First和Balanced Box-Decomposition Tree。

ε近似最邻近查找是目前流行的打破维数灾难的工具。

最邻近距离比不直接用目标点和邻近点的距离作为阈值,而是将与到前一个邻近点的距离相关的比值来作为阈值。这被用在基于内容的图像检索中,通过基于本地特征的相似性的“例子查找”来得到图像。更广泛的用途是在一些匹配问题中。

有时,我们需要找到在整个点集中距离所有点都最近的那个点。把最邻近搜索在所有点上运行一次自然能解决问题,但改进的策略能避免点集中距离信息的冗余,从而更高效地查找。比如:当我们算出了X到Y的距离,我们也同时得到了Y到X的距离,于是结果就能被以后的一次求解直接利用。

相关

  • 主题分析主题分析(英语:Thematic analysis)是定性研究中最为常见的一种形式。它强调在数据中精确定位、检查和记录主题或模式。主题(英语:themes)是跨数据集的模式(英语:patterns),这些模式对
  • 内酰胺内酰胺(Lactam)即环状的酰胺,命名时用希腊字母表示环的元数:β-内酰胺(四元环)、γ-内酰胺(五元环)、δ-内酰胺(六元环)等。在中性PH下,碱基主要以内酰胺形式存在内酰胺可通过多种方法
  • 宋江阵宋江阵是一种结合古中国武术和艺术的民俗表演,最早出现于明末清初,相传是南少林五祖拳祖师蔡玉明(名谦,以字行)所创,由一些爱好武术者在庙会广场表演各种武术招式。表演时人数不拘
  • 左辅左辅(1751年-1833年),字仲甫,一字蘅友,号杏庄,江苏阳湖(今常州)人,祖籍安徽合肥,清朝政治人物,进士出身。乾隆五十八年(1793年)登癸丑科进士,授安徽南陵县知县,调霍丘县。勤政爱民,因催科不力
  • 潘 琦潘琦可以指:
  • 毒蜥属毒蜥属()是毒蜥科下的唯一属,包含了分布在美国西南部、墨西哥及南至危地马拉有毒的蜥蜴。其下有2个物种及6个亚种。它们的近亲是蛇蜥科。毒蜥属的体型很大及粗壮,行动缓慢,喜欢栖
  • 第三者 (爱情)第三者是多角爱情关系中的称谓。在一些盛行单一伴侣的文化当中,爱情和婚姻都是“二人世界”容不下第三者,在爱情之中,若有一方不尊重此一游戏规则,容易出现第三者。一些人亦把爱
  • 温特贝希峰坐标:46°24′22″N 7°56′18″E / 46.40611°N 7.93833°E / 46.40611; 7.93833温特贝希峰(Unterbächhorn),是瑞士的山峰,位于该国南部,由瓦莱州负责管辖,属于伯尔尼兹阿尔卑斯
  • 亚历桑德拉·安布罗休亚丽珊德拉·安布罗休 (葡萄牙语:Alessandra Corine Ambrósio,1981年4月11日-),巴西超级名模及演员。她是维多利亚的秘密知名代言模特儿之一,曾经是“维多利亚的秘密天使”(Vict
  • 里希·卡浦尔里希·卡浦尔(印地语:ऋषि कपूर,英语:Rishi Kapoor,1952年9月4日-2020年4月30日)是一位印度宝莱坞演员、电影制作人和导演。他是印度演员、导演拉兹·卡普尔的次子,与兄弟在孟