先验算法

✍ dations ◷ 2025-09-18 12:26:14 #算法,数据挖掘

在计算机科学以及数据挖掘领域中, 先验算法(Apriori Algorithm)是关联规则学习的经典算法之一。先验算法的设计目的是为了处理包含交易信息内容的数据库(例如,顾客购买的商品清单,或者网页常访清单。)而其他的算法则是设计用来寻找无交易信息(如Winepi算法和Minepi算法)或无时间标记(如DNA测序)的数据之间的联系规则。

在关联式规则中,一般对于给定的项目集合(例如,零售交易集合,每个集合都列出的单个商品的购买信息),算法通常尝试在项目集合中找出至少有C个相同的子集。先验算法采用自底向上的处理方法,即频繁子集每次只扩展一个对象(该步骤被称为候选集产生),并且候选集由数据进行检验。当不再产生符合条件的扩展对象时,算法终止。

先验算法采用广度优先搜索算法进行搜索并采用树结构来对候选项目集进行高效计数。它通过长度为 k 1 {\displaystyle k-1} 的候选项目集来产生长度为 k {\displaystyle k} 的候选项目集,然后从中删除包含不常见子模式的候选项。根据向下封闭性引理,该候选项目集包含所有长度为 k {\displaystyle k} 的频繁项目集。之后,就可以通过扫描交易数据库来决定候选项目集中的频繁项目集。

虽然先验算法具有显著的历史地位,但是其中的一些低效与权衡弊端也进而引致了许多其他的算法的产生。候选集产生过程生成了大量的子集(先验算法在每次对数据库进行扫描之前总是尝试加载尽可能多的候选集)。并且自底而上的子集浏览过程(本质上为宽度优先的子集格遍历)也直到遍历完所有 2 | S | 1 {\displaystyle 2^{|S|}-1} 个可能的子集之后才寻找任意最大子集S。

一个大型超级市场根据最小存货单位(SKU)来追踪每件物品的销售数据。从而也可以得知哪些物品通常被同时购买。通过采用先验算法来从这些销售数据中创建频繁购买商品组合的清单是一个效率适中的方法。假设交易数据库包含以下子集{1,2,3,4},{1,2},{2,3,4},{2,3},{1,2,4},{3,4},{2,4}。每个标号表示一种商品,如“黄油”或“面包”。先验算法首先要分别计算单个商品的购买频率。下表解释了先验算法得出的单个商品购买频率。

然后我们可以定义一个最少购买次数来定义所谓的“频繁”。在这个例子中,我们定义最少的购买次数为3。因此,所有的购买都为频繁购买。接下来,就要生成频繁购买商品的组合及购买频率。先验算法通过修改树结构中的所有可能子集来进行这一步骤。然后我们仅重新选择频繁购买的商品组合:

并且生成一个包含3件商品的频繁组合列表(通过将频繁购买商品组合与频繁购买的单件商品联系起来得出)。在上述例子中,不存在包含3件商品组合的频繁组合。最常见的3件商品组合为{1,2,4}和{2,3,4},但是他们的购买次数为2,低于我们设定的最低购买次数。

因此Apriori算法中的一些低效与权衡弊端也进而引致了许多其他的算法的产生,例如FP-growth算法。候选集产生过程生成了大量的子集(先验算法在每次对数据库进行扫描之前总是尝试加载尽可能多的候选集)。并且自底而上的子集浏览过程(本质上为宽度优先的子集格遍历)也直到遍历完所有 2 | S | 1 {\displaystyle 2^{|S|}-1} 个可能的子集之后才寻找任意最大子集S。

相关

  • 微分干涉相差显微镜微分干涉相差显微技术(DIC),又称Normarski干涉相差显微技术或Normarski显微镜,是一种增强对比度来观察未染色的透明的样品的光学显微镜。DIC根据干涉测量获取有关样品光路长
  • 独联体独立国家联合体(俄语:Содружество Независимых Государств),简称独联体(俄语:СНГ),苏联解体后由部分原苏联加盟共和国协调成立的一个国家联盟,其
  • 菲尼克斯土狼亚利桑那野狼队(Arizona Coyotes),前身为凤凰城野狼队(Phoenix Coyotes),是位于美国格兰岱尔的国家冰球联盟队伍,隶属于西大区太平洋分区。凤凰城野狼队成立于1972年,其前身为温尼伯
  • 科尔斯超市 澳大利亚 科尔斯超市(英语:Coles Supermarkets Australia Pty Ltd,简称Coles)为Coles集团旗下的澳洲超级市场,公司总部位于维州的墨尔本。1914年创立与墨尔本,目前在澳大利亚
  • 介质相关接口介质相关接口(英语:Medium Dependent Interface,缩写MDI)也称介质有关接口,是用来描述计算机网络中一个从物理层实现到物理介质的传输数据的物理或电气/光学接口。双绞线以太网还
  • 2005年11月逝世人物列表2005年逝世人物列表:1月 - 2月 - 3月 - 4月 - 5月 - 6月 - 7月 - 8月 - 9月 - 10月 - 11月 - 12月下面是2005年11月逝世的知名人士列表:
  • 水西车辆基地水西车辆基地(朝鲜语:수서차량사업소/水西車輛事業所  */?)是首尔交通公社位于首尔江南区的一个车辆段,在首都圈电铁3号线和盆唐线附近。这个车辆段主要用于首都圈电铁3号线的3
  • 贾法尔·阿斯卡里贾法尔·阿斯卡里(阿拉伯语:جعفر العسكري‎;1887年9月15日-1936年10月29日),伊拉克政治人物,先后于巴格达与伊斯坦布尔接受教育,一次世界大战期间从军于奥斯曼帝国陆军并
  • 卡尔顿 (俄勒冈州)卡尔顿(英语:Carlton)是一个美国城市,位于俄勒冈州扬希尔县。根据2010年的人口普查,当地人口为2,007人。根据美国人口普查局,该城市的总面积为0.88平方英里(2.28平方千米)。
  • 软件熵软件熵(Software entropy)是指软件的无序程度。软件熵可用来说明软件在经过不断修改后,无序程度提高的现象。伊瓦尔·雅各布森用以下的方式描述“软件熵”:Andrew Hunt及David T