先验算法

✍ dations ◷ 2025-12-06 08:51:54 #算法,数据挖掘

在计算机科学以及数据挖掘领域中，先验算法（Apriori Algorithm）是关联规则学习的经典算法之一。先验算法的设计目的是为了处理包含交易信息内容的数据库（例如,顾客购买的商品清单，或者网页常访清单。）而其他的算法则是设计用来寻找无交易信息（如Winepi算法和Minepi算法）或无时间标记（如DNA测序）的数据之间的联系规则。

在关联式规则中,一般对于给定的项目集合（例如，零售交易集合，每个集合都列出的单个商品的购买信息），算法通常尝试在项目集合中找出至少有C个相同的子集。先验算法采用自底向上的处理方法，即频繁子集每次只扩展一个对象（该步骤被称为候选集产生），并且候选集由数据进行检验。当不再产生符合条件的扩展对象时，算法终止。

先验算法采用广度优先搜索算法进行搜索并采用树结构来对候选项目集进行高效计数。它通过长度为 $k-1$ $k-1$ 的候选项目集来产生长度为 $k {\displaystyle k}$ $k$ 的候选项目集，然后从中删除包含不常见子模式的候选项。根据向下封闭性引理,该候选项目集包含所有长度为 $k {\displaystyle k}$ $k$ 的频繁项目集。之后，就可以通过扫描交易数据库来决定候选项目集中的频繁项目集。

虽然先验算法具有显著的历史地位，但是其中的一些低效与权衡弊端也进而引致了许多其他的算法的产生。候选集产生过程生成了大量的子集（先验算法在每次对数据库进行扫描之前总是尝试加载尽可能多的候选集）。并且自底而上的子集浏览过程（本质上为宽度优先的子集格遍历）也直到遍历完所有 $2^{|S|}-1$ $2^{{|S|}}-1$ 个可能的子集之后才寻找任意最大子集S。

一个大型超级市场根据最小存货单位（SKU）来追踪每件物品的销售数据。从而也可以得知哪些物品通常被同时购买。通过采用先验算法来从这些销售数据中创建频繁购买商品组合的清单是一个效率适中的方法。假设交易数据库包含以下子集{1,2,3,4}，{1,2}，{2,3,4}，{2,3}，{1,2,4}，{3,4}，{2,4}。每个标号表示一种商品，如“黄油”或“面包”。先验算法首先要分别计算单个商品的购买频率。下表解释了先验算法得出的单个商品购买频率。

然后我们可以定义一个最少购买次数来定义所谓的“频繁”。在这个例子中，我们定义最少的购买次数为3。因此，所有的购买都为频繁购买。接下来，就要生成频繁购买商品的组合及购买频率。先验算法通过修改树结构中的所有可能子集来进行这一步骤。然后我们仅重新选择频繁购买的商品组合：

并且生成一个包含3件商品的频繁组合列表（通过将频繁购买商品组合与频繁购买的单件商品联系起来得出）。在上述例子中，不存在包含3件商品组合的频繁组合。最常见的3件商品组合为{1,2,4}和{2,3,4}，但是他们的购买次数为2，低于我们设定的最低购买次数。

因此Apriori算法中的一些低效与权衡弊端也进而引致了许多其他的算法的产生，例如FP-growth算法。候选集产生过程生成了大量的子集（先验算法在每次对数据库进行扫描之前总是尝试加载尽可能多的候选集）。并且自底而上的子集浏览过程（本质上为宽度优先的子集格遍历）也直到遍历完所有 $2^{|S|}-1$ $2^{{|S|}}-1$ 个可能的子集之后才寻找任意最大子集S。

相关

陈凯先陈凯先（1945年8月28日－），祖籍江苏南京，出生于重庆，药物化学家，上海中医药大学校长。主要从事计算机辅助药物设计领域的研究。陈凯先于1967年毕业于复旦大学放射化学专业。1978年进
科罗拉多泉市科罗拉多斯普林斯（英语：Colorado Springs）是美国科罗拉多州的第二大、美国第49大城市，也是艾尔帕索县的首府。根据美国人口普查局2005年的估计，科罗拉多斯普林斯市约有人口36万98
孙楠孙楠（1969年2月18日－），辽宁大连人，中国大陆著名男歌手，人称大波哥，有实力唱将的称号。前妻是演员买红妹。早在1990年代初期，孙楠就已经在歌坛小有成绩，不过并不为大多数人所知。1999
第十三届全国人民代表大会常务委员会第十三届全国人民代表大会常务委员会（简称第十三届全国人大常委会）始有组成人员175人，其中委员长、副委员长、秘书长16人，委员159人，任期五年，由2018年3月至2023年3月。栗战书王晨
纳斯达克以色列指数纳斯达克以色列指数(英语：NASDAQ Israel Index) 旨在追踪在美国上市，在以色列注册的公司的表现。指数是强大的指标，投资者可跟踪以色列公司在制造业、农业和高科技的广泛领域取
哈维·塞缪尔·费尔斯通哈维·塞缪尔·费尔斯通（Harvey Samuel Firestone，1868年12月20日-1938年2月7日）是一位美国商人，汽车轮胎生产商凡士通的创始人，和亨利·福特、托马斯·爱迪生一起被视为当时美国
权五稷权五稷（韩语：권오직；1906年－1953年7月），朝鲜政治家，国内派成员，官至《解放日报》主编及国家副总理，后因间谍罪被处死。权五稷出生于庆尚北道安东市，后于1923年在苏联东方劳动者共产主
伊凡娜·特朗普伊凡娜·玛丽·特朗普（英语：Ivana Marie Trump；婚前姓泽尔尼茨科娃（捷克语：Zelníčková）；1949年2月20日－），是一位捷克裔美国社交名媛与前时装模特。她的第二次婚姻是嫁给唐纳德·特
张瑃张瑃（1624年－17世纪），字伯珩，泽州阳城县人，明朝、清朝政治人物。张瑃自小聪明过人，读书过目不忘，自童生到崇祯十五年（1642年）成举人只需要五年，次年（1643年）仅二十岁就中进士。顺治初年获
埃沙赫魏尔湖坐标：47°41′43″N 10°11′28″E / 47.6952°N 10.1911°E / 47.6952; 10.1911埃沙赫魏尔湖（德语：Eschacher Weiher），是德国的湖泊，位于该国东南部，由巴伐利亚州负责管辖，处于布亨