先验算法

✍ dations ◷ 2025-10-29 05:28:20 #算法,数据挖掘

在计算机科学以及数据挖掘领域中, 先验算法(Apriori Algorithm)是关联规则学习的经典算法之一。先验算法的设计目的是为了处理包含交易信息内容的数据库(例如,顾客购买的商品清单,或者网页常访清单。)而其他的算法则是设计用来寻找无交易信息(如Winepi算法和Minepi算法)或无时间标记(如DNA测序)的数据之间的联系规则。

在关联式规则中,一般对于给定的项目集合(例如,零售交易集合,每个集合都列出的单个商品的购买信息),算法通常尝试在项目集合中找出至少有C个相同的子集。先验算法采用自底向上的处理方法,即频繁子集每次只扩展一个对象(该步骤被称为候选集产生),并且候选集由数据进行检验。当不再产生符合条件的扩展对象时,算法终止。

先验算法采用广度优先搜索算法进行搜索并采用树结构来对候选项目集进行高效计数。它通过长度为 k 1 {\displaystyle k-1} 的候选项目集来产生长度为 k {\displaystyle k} 的候选项目集,然后从中删除包含不常见子模式的候选项。根据向下封闭性引理,该候选项目集包含所有长度为 k {\displaystyle k} 的频繁项目集。之后,就可以通过扫描交易数据库来决定候选项目集中的频繁项目集。

虽然先验算法具有显著的历史地位,但是其中的一些低效与权衡弊端也进而引致了许多其他的算法的产生。候选集产生过程生成了大量的子集(先验算法在每次对数据库进行扫描之前总是尝试加载尽可能多的候选集)。并且自底而上的子集浏览过程(本质上为宽度优先的子集格遍历)也直到遍历完所有 2 | S | 1 {\displaystyle 2^{|S|}-1} 个可能的子集之后才寻找任意最大子集S。

一个大型超级市场根据最小存货单位(SKU)来追踪每件物品的销售数据。从而也可以得知哪些物品通常被同时购买。通过采用先验算法来从这些销售数据中创建频繁购买商品组合的清单是一个效率适中的方法。假设交易数据库包含以下子集{1,2,3,4},{1,2},{2,3,4},{2,3},{1,2,4},{3,4},{2,4}。每个标号表示一种商品,如“黄油”或“面包”。先验算法首先要分别计算单个商品的购买频率。下表解释了先验算法得出的单个商品购买频率。

然后我们可以定义一个最少购买次数来定义所谓的“频繁”。在这个例子中,我们定义最少的购买次数为3。因此,所有的购买都为频繁购买。接下来,就要生成频繁购买商品的组合及购买频率。先验算法通过修改树结构中的所有可能子集来进行这一步骤。然后我们仅重新选择频繁购买的商品组合:

并且生成一个包含3件商品的频繁组合列表(通过将频繁购买商品组合与频繁购买的单件商品联系起来得出)。在上述例子中,不存在包含3件商品组合的频繁组合。最常见的3件商品组合为{1,2,4}和{2,3,4},但是他们的购买次数为2,低于我们设定的最低购买次数。

因此Apriori算法中的一些低效与权衡弊端也进而引致了许多其他的算法的产生,例如FP-growth算法。候选集产生过程生成了大量的子集(先验算法在每次对数据库进行扫描之前总是尝试加载尽可能多的候选集)。并且自底而上的子集浏览过程(本质上为宽度优先的子集格遍历)也直到遍历完所有 2 | S | 1 {\displaystyle 2^{|S|}-1} 个可能的子集之后才寻找任意最大子集S。

相关

  • 心理健康心理健康(Mental health)也称为精神卫生,是指心理幸福安宁的状态,或指没有精神疾病的状态。是指“一个情绪及行为调整都运作相当良好的人,当时的心理状态”。若以正面心理学或是
  • span class=nowrapMnSOsub4/sub/span硫酸锰是一种无机化合物,化学式MnSO4,是一个粉红色固体,化学实验室常用的锰(II)盐之一。硫酸锰可由二氧化锰和二氧化硫反应得到:
  • Nasub2/subSOsub3/sub亚硫酸钠(化学式:Na2SO3)是一个无机化合物。它在室温下为白色颗粒粉末,可溶于水,具还原性,加热时歧化为硫化钠和硫酸钠,放置于空气中时逐渐氧化为硫酸钠。它可以以无水物、七水物和
  • 巨乳症巨乳症(学名:Gigantomastia),亦作乳房肥大症,是一种乳房结缔组织病症,表现为乳房重量超过体重的3%。巨乳可能会导致肌肉不适以及皮肤表层的过度拉伸,进而可能导致皮肤溃疡。巨乳
  • 于格·费利西泰·罗贝尔·德拉梅内于格·费利西泰·罗贝尔·德拉梅内(Hugues Felicité Robert de Lamennais 1782年6月19日-1854年2月27日)法国天主教神父、哲学家、政治理论家、基督教社会主义者。他是法国复
  • 工漂族“工漂族”是指近年来农民工群体尤其是新生代劳动力务工周期短、频繁换工的一种现象。职业流动是指劳动者在不同职业之间的变动,是劳动者放弃又获得劳动角色的过程。工漂族的
  • A33高速公路 (意大利)A33高速公路(意大利语:Autostrada A33),是意大利一条高速公路,由阿斯蒂至库内奥,全长90.15公里,其中20公里与A6高速公路共线。其余两段分别是长51.754公里、由阿斯蒂至马雷内的路段
  • 戒体戒体,佛教术语,即戒之体、戒之根本、戒的本质,是在接受佛教戒律(受戒)之后,在心理上出现的一种持续、强制的效力,能够阻止一个人做出违犯戒律之事。这个学说最早出现于部派佛教时期
  • 库尔德斯坦工人-共产党库尔德斯坦工人-共产党(阿拉伯语:الحزب الشيوعي العمالي اليساري العراقي,Hizbi Komonisti Krekari Kurdistan)是伊拉克库尔德斯坦的一个激进
  • 调漆调漆包含两种调漆通常是指在涂料(油漆)生产过程中对研磨漆浆进行稳定化的工艺过程,包括调整颜色、固体份、粘度、补齐用料等,从而获得所需液态涂料的产品。调漆也可指在涂料使用