先验算法

✍ dations ◷ 2025-11-28 06:00:29 #算法,数据挖掘

在计算机科学以及数据挖掘领域中, 先验算法(Apriori Algorithm)是关联规则学习的经典算法之一。先验算法的设计目的是为了处理包含交易信息内容的数据库(例如,顾客购买的商品清单,或者网页常访清单。)而其他的算法则是设计用来寻找无交易信息(如Winepi算法和Minepi算法)或无时间标记(如DNA测序)的数据之间的联系规则。

在关联式规则中,一般对于给定的项目集合(例如,零售交易集合,每个集合都列出的单个商品的购买信息),算法通常尝试在项目集合中找出至少有C个相同的子集。先验算法采用自底向上的处理方法,即频繁子集每次只扩展一个对象(该步骤被称为候选集产生),并且候选集由数据进行检验。当不再产生符合条件的扩展对象时,算法终止。

先验算法采用广度优先搜索算法进行搜索并采用树结构来对候选项目集进行高效计数。它通过长度为 k 1 {\displaystyle k-1} 的候选项目集来产生长度为 k {\displaystyle k} 的候选项目集,然后从中删除包含不常见子模式的候选项。根据向下封闭性引理,该候选项目集包含所有长度为 k {\displaystyle k} 的频繁项目集。之后,就可以通过扫描交易数据库来决定候选项目集中的频繁项目集。

虽然先验算法具有显著的历史地位,但是其中的一些低效与权衡弊端也进而引致了许多其他的算法的产生。候选集产生过程生成了大量的子集(先验算法在每次对数据库进行扫描之前总是尝试加载尽可能多的候选集)。并且自底而上的子集浏览过程(本质上为宽度优先的子集格遍历)也直到遍历完所有 2 | S | 1 {\displaystyle 2^{|S|}-1} 个可能的子集之后才寻找任意最大子集S。

一个大型超级市场根据最小存货单位(SKU)来追踪每件物品的销售数据。从而也可以得知哪些物品通常被同时购买。通过采用先验算法来从这些销售数据中创建频繁购买商品组合的清单是一个效率适中的方法。假设交易数据库包含以下子集{1,2,3,4},{1,2},{2,3,4},{2,3},{1,2,4},{3,4},{2,4}。每个标号表示一种商品,如“黄油”或“面包”。先验算法首先要分别计算单个商品的购买频率。下表解释了先验算法得出的单个商品购买频率。

然后我们可以定义一个最少购买次数来定义所谓的“频繁”。在这个例子中,我们定义最少的购买次数为3。因此,所有的购买都为频繁购买。接下来,就要生成频繁购买商品的组合及购买频率。先验算法通过修改树结构中的所有可能子集来进行这一步骤。然后我们仅重新选择频繁购买的商品组合:

并且生成一个包含3件商品的频繁组合列表(通过将频繁购买商品组合与频繁购买的单件商品联系起来得出)。在上述例子中,不存在包含3件商品组合的频繁组合。最常见的3件商品组合为{1,2,4}和{2,3,4},但是他们的购买次数为2,低于我们设定的最低购买次数。

因此Apriori算法中的一些低效与权衡弊端也进而引致了许多其他的算法的产生,例如FP-growth算法。候选集产生过程生成了大量的子集(先验算法在每次对数据库进行扫描之前总是尝试加载尽可能多的候选集)。并且自底而上的子集浏览过程(本质上为宽度优先的子集格遍历)也直到遍历完所有 2 | S | 1 {\displaystyle 2^{|S|}-1} 个可能的子集之后才寻找任意最大子集S。

相关

  • 叶夫根尼·利夫希茨叶夫根尼·米哈伊洛维奇·利夫希茨(俄语:Евге́ний Миха́йлович Ли́фшиц,1915年2月21日-1985年10月29日),苏联物理学家。利夫希茨是朗道的学生,是他的《
  • 亨特学院亨特学院(英文:Hunter College),坐落于曼哈顿上东区的莱克诺斯山(Lenox Hill)地段,是纽约市立大学系统中的一所四年制学院。学校内有超过23000名学生就读。学院下分有5所次级学院:科
  • 黄獴笔尾獴(学名 Cynictis penicillata) 也叫黄獴,是一种小型的獴科动物。笔尾獴平均体重0.5公斤,体长500毫米,生活在安哥拉、博茨瓦纳、南非、纳米比亚和津巴布韦的半沙漠灌木地区和
  • 石蛾石蛾,即毛翅目(Trichoptera),是一群具有水生幼虫和陆生成虫的昆虫。大约有14,500种被描述的物种,其中大部分可以根据成年口器分为完须亚目(英语:Integripalpia)(Integripalpia)和环须
  • 青藤碱青藤碱是从防己科落叶缠绕藤本植物青藤及毛青藤的干燥藤茎中提取的一种生物碱。青藤碱具有镇痛、镇咳、局部麻醉、降压、抗炎,并可释放组织胺,抑制平滑肌活动,临床用于治疗各种
  • 迈克尔·柯林斯迈克尔·约翰·“米克”·柯林斯(英语:Michael John "Mick" Collins,爱尔兰语名:Mícheál Seán Ó Coileáin;1890年10月16日—1922年8月22日)是爱尔兰革命领导人,爱尔兰共和国财
  • 和庚吉和庚吉(1864年-1950年),字星白,号松樵,晚年号退仙,云南省丽江府丽江县人,清朝政治人物、同进士出身。光绪十五年(1889年)举人,光绪十八年(1892年)壬辰科三甲148名进士。同年五月,以主事分
  • 徐文瀚徐文瀚(1900年5月26日-1967年5月12日),川剧表演艺术家,艺名小财神。四川省邻水县人。
  • 德尔米拉·阿古斯蒂尼德尔米拉·阿古斯蒂尼(西班牙语:Delmira Agustini,1886年10月24日-1914年7月6日),乌拉圭女诗人,是最早创作现代主义作品的乌拉圭女作家。阿古斯蒂尼生于乌拉圭蒙得维的亚的一个富裕
  • 油水分离器油水分离器是一种能将油与水分离的装置。油水分离器有多种,主要是利用油和水间物理性质的差异,像粘附性、密度等,有时还会使用某些特殊的材料来实现油与水的高效分离。