先验算法

✍ dations ◷ 2025-11-19 07:23:34 #算法,数据挖掘

在计算机科学以及数据挖掘领域中, 先验算法(Apriori Algorithm)是关联规则学习的经典算法之一。先验算法的设计目的是为了处理包含交易信息内容的数据库(例如,顾客购买的商品清单,或者网页常访清单。)而其他的算法则是设计用来寻找无交易信息(如Winepi算法和Minepi算法)或无时间标记(如DNA测序)的数据之间的联系规则。

在关联式规则中,一般对于给定的项目集合(例如,零售交易集合,每个集合都列出的单个商品的购买信息),算法通常尝试在项目集合中找出至少有C个相同的子集。先验算法采用自底向上的处理方法,即频繁子集每次只扩展一个对象(该步骤被称为候选集产生),并且候选集由数据进行检验。当不再产生符合条件的扩展对象时,算法终止。

先验算法采用广度优先搜索算法进行搜索并采用树结构来对候选项目集进行高效计数。它通过长度为 k 1 {\displaystyle k-1} 的候选项目集来产生长度为 k {\displaystyle k} 的候选项目集,然后从中删除包含不常见子模式的候选项。根据向下封闭性引理,该候选项目集包含所有长度为 k {\displaystyle k} 的频繁项目集。之后,就可以通过扫描交易数据库来决定候选项目集中的频繁项目集。

虽然先验算法具有显著的历史地位,但是其中的一些低效与权衡弊端也进而引致了许多其他的算法的产生。候选集产生过程生成了大量的子集(先验算法在每次对数据库进行扫描之前总是尝试加载尽可能多的候选集)。并且自底而上的子集浏览过程(本质上为宽度优先的子集格遍历)也直到遍历完所有 2 | S | 1 {\displaystyle 2^{|S|}-1} 个可能的子集之后才寻找任意最大子集S。

一个大型超级市场根据最小存货单位(SKU)来追踪每件物品的销售数据。从而也可以得知哪些物品通常被同时购买。通过采用先验算法来从这些销售数据中创建频繁购买商品组合的清单是一个效率适中的方法。假设交易数据库包含以下子集{1,2,3,4},{1,2},{2,3,4},{2,3},{1,2,4},{3,4},{2,4}。每个标号表示一种商品,如“黄油”或“面包”。先验算法首先要分别计算单个商品的购买频率。下表解释了先验算法得出的单个商品购买频率。

然后我们可以定义一个最少购买次数来定义所谓的“频繁”。在这个例子中,我们定义最少的购买次数为3。因此,所有的购买都为频繁购买。接下来,就要生成频繁购买商品的组合及购买频率。先验算法通过修改树结构中的所有可能子集来进行这一步骤。然后我们仅重新选择频繁购买的商品组合:

并且生成一个包含3件商品的频繁组合列表(通过将频繁购买商品组合与频繁购买的单件商品联系起来得出)。在上述例子中,不存在包含3件商品组合的频繁组合。最常见的3件商品组合为{1,2,4}和{2,3,4},但是他们的购买次数为2,低于我们设定的最低购买次数。

因此Apriori算法中的一些低效与权衡弊端也进而引致了许多其他的算法的产生,例如FP-growth算法。候选集产生过程生成了大量的子集(先验算法在每次对数据库进行扫描之前总是尝试加载尽可能多的候选集)。并且自底而上的子集浏览过程(本质上为宽度优先的子集格遍历)也直到遍历完所有 2 | S | 1 {\displaystyle 2^{|S|}-1} 个可能的子集之后才寻找任意最大子集S。

相关

  • 乡札陶文 ‧ 甲骨文 ‧ 金文 ‧ 古文 ‧ 石鼓文籀文 ‧ 鸟虫书 ‧ 篆书(大篆 ‧  小篆)隶书 ‧ 楷书 ‧ 行书 ‧ 草书漆书 ‧  书法 ‧ 飞白书笔画 ‧ 
  • 雪线雪线指冰川、雪山冰雪累积和融化平衡之处,亦即永久性积雪的下限,以海拔高度表示。“雪线”的海拔高度依照所处位置的不同而高度不同。通常是指高山的某一个常年积雪的高度,因在
  • 程恩泽程恩泽(1785年-1837年),字云芬,号春海,安徽歙县人,清朝政治人物、学者、诗人,进士出身。程昌期之子。乾隆五十年生。师从凌廷堪,于金石、书画、医算,无不涉及。程恩泽与祁寯藻是宋诗派
  • 南澳岛南澳县(邮政式拼音:Namoa)是中国广东省汕头市下辖的一个县,位于粤、闽二省交界海面,是广东省唯一的海岛县,县城为后宅镇。南澳县由南澳岛及周边22个小岛屿组成,北回归线横穿海岛。
  • 20072007年欧洲歌唱大赛(Eurovision Song Contest 2007)为欧洲歌唱大赛之第52届比赛,赛期由5月10日~5月12日,比赛场地坐落于芬兰赫尔辛基,由芬兰广播公司主办,主持人则是芬兰电视名主
  • 国家一级博物馆国家一级博物馆 (一级博物馆),是国家文物局为加强博物馆行业管理,充分发挥博物馆的社会服务功能,促进博物馆事业发展,而对中华人民共和国境内所有正式登记、注册并接受年检,具有文
  • 亚弗戈蒙亚弗戈蒙(Aforgomon)是美国小说家霍华德·菲利普·洛夫克拉夫特所创造的克苏鲁神话中的旧日支配者之一。亚弗戈蒙最早出现在克拉克·A·史密斯(Clark Ashton Smith)的短篇小
  • 布尔日区布尔日区(法语:Arrondissement de Bourges)是法国谢尔省所辖的一个区。总面积2798平方公里,总人口174031,人口密度62人/平方公里(1999年)。主要城镇为布尔日。布尔日区辖有16个县,
  • 欧阳中鹄欧阳中鹄(1849年-1911年),字节吾,号瓣姜,湖南浏阳人,清朝政治人物、举人出身。欧阳予倩的祖父。同治十二年,乡试中举,次年考入内阁中书,教授谭嗣襄、谭嗣同、唐才常等。光绪二十九年,授
  • 四棱果科四棱果科又名缨缘科,只有1属1种,是一个单种科,只生长在南非好望角一带,是当地的特有种。本科植物为旱生植物,小型常绿灌木,单叶对生,革质;花两性,花瓣4数;果实为蒴果,有4棱,包含4个种子