关联规则学习

✍ dations ◷ 2025-04-04 11:16:02 #数据挖掘

关联规则学习(英语:Association rule learning)是一种在大型数据库中发现变量之间的有趣性关系的方法。它的目的是利用一些有趣性的量度来识别数据库中发现的强规则。 基于强规则的概念,Rakesh Agrawal等人引入了关联规则以发现由超市的POS系统记录的大批交易数据中产品之间的规律性。例如,从销售数据中发现的规则 {洋葱, 土豆}→{汉堡} 会表明如果顾客一起买洋葱和土豆,他们也有可能买汉堡的肉。此类信息可以作为做出促销定价或产品植入等营销活动决定的根据。除了上面购物篮分析(英语:market basket analysis)中的例子以外, 关联规则如今还被用在许多应用领域中,包括网络用法挖掘(英语:Web usage mining)、入侵检测、连续生产(英语:Continuous production)及生物信息学中。与序列挖掘(英语:sequence mining)相比,关联规则学习通常不考虑在事务中、或事务间的项目的顺序。

根据韩家炜等,关联规则定义为:

假设 I = { I 1 , I 2 , , I m } {\displaystyle I=\{I_{1},I_{2},\ldots ,I_{m}\}} 是项的集合。给定一个交易数据库 D = { t 1 , t 2 , , t n } {\displaystyle D=\{t_{1},t_{2},\ldots ,t_{n}\}} ,其中每个事务(Transaction)t是I的非空子集,即 t I {\displaystyle t\subseteq I} ,每一个交易都与一个唯一的标识符TID(Transaction ID)对应。关联规则是形如 X Y {\displaystyle X\Rightarrow Y} 的蕴涵式,其中 X , Y I {\displaystyle X,Y\subseteq I} X Y = {\displaystyle X\cap Y=\emptyset } X {\displaystyle X} Y {\displaystyle Y} 分别称为关联规则的先导(antecedent或left-hand-side, LHS)和后继(consequent或right-hand-side, RHS) 。关联规则 X Y {\displaystyle X\Rightarrow Y} 在D中的支持度(support)是D中事务包含 X Y {\displaystyle X\cup Y} 的百分比,即概率 P ( X Y ) {\displaystyle P(X\cup Y)} ;置信度(confidence)是包含X的事务中同时包含Y的百分比,即条件概率 P ( Y | X ) {\displaystyle P\left(Y|X\right)} 。如果同时满足最小支持度阈值和最小置信度阈值,则认为关联规则是有趣的。这些阈值由用户或者专家设定。

用一个简单的例子说明。表1是顾客购买记录的数据库D,包含6个事务。项集I={网球拍,网球,运动鞋,羽毛球}。考虑关联规则:网球拍 {\displaystyle \Rightarrow } 网球,事务1,2,3,4,6包含网球拍,事务1,2,6同时包含网球拍和网球,支持度 s u p p o r t = 3 6 = 0.5 {\displaystyle support={\frac {3}{6}}=0.5} ,置信度 c o n f i d e n t = 3 5 = 0.6 {\displaystyle confident={\frac {3}{5}}=0.6} 。若给定最小支持度 α = 0.5 {\displaystyle \alpha =0.5} ,最小置信度 β = 0.6 {\displaystyle \beta =0.6} ,关联规则网球拍 {\displaystyle \Rightarrow } 网球是有趣的,认为购买网球拍和购买网球之间存在强关联。

关联规则有以下常见分类:

根据关联规则所处理的值的类型

根据关联规则所涉及的数据维数

根据关联规则所涉及的抽象层次

Apriori算法所使用的前置统计量包括:

相关

  • 教育心理学异常心理学 行为遗传学 生物心理学 心理药物学 认知心理学 比较心理学 跨文化心理学 文化心理学 差异心理学(英语:Differential psychology) 发展心理学 演化心理学 实验心理学
  • 精算师精算师(英语:Actuary,由《美国传统词典》释义,在拉丁语中为“secretary of accounts”之意)是处理风险及不确定性的金融风险的商业性职业。精算师专注于其中的复杂性,数学和机制,因
  • 着丝粒染色体着丝粒(centromere),又称中节,主要作用是使复制的染色体在有丝分裂和减数分裂中可均等地分配到子细胞中。在很多高等真核生物中,着丝粒看起来像是在染色体一个点上的浓缩区
  • 微卫星微卫星(英语:Microsatellite,亦称为简单重复序列(英语:Simple Sequence Repeats,SSRs)或短串联重复序列(英语:short tandem repeats,STRs))是多型性的一种类型。指两个或多个核苷酸重复
  • 格兰达·杰克逊格兰达·杰克逊(英语:Glenda Jackson,1936年5月9日-),英国女演员和政客。她50年代开始表演,两夺奥斯卡最佳女主角奖,另获得两座艾美奖,和四项托尼奖提名。92年,杰克逊投身政治,代表工党
  • 情爱妄想症钟情妄想(Erotomania)是一种少见的心理疾病,患者会陷入另一个人(通常有较高的社会地位)和他谈恋爱的妄想之中。 为纪念法国精神病学家克雷宏波(1872-1934)于1921年发表了题目为“Le
  • 年龄偏好年龄偏好(英语:Chronophilia)是由约翰·曼尼提出来的一个有关性偏离的心理学术语,指的是一个个体的经常性性兴趣集中在某一个特定年龄段里。 这个术语还没有被性学家们广泛采用,
  • 守贞教育守贞教育,又称婚前守贞教育、纯洁教育、唯禁欲性教育(英语:Abstinence-only sex education),是性教育的一种形式,其会教育学生不要进行发生婚姻以外的性行为,并以负面角度形容发生
  • 詹姆斯·加菲尔德詹姆斯·艾布拉姆·加菲尔德(英语:James Abram Garfield,1831年11月19日-1881年9月19日),美国政治家,第20任美国总统,共和党人。加菲尔德曾九任众议院议员(1863年-1880年),其后当上参议
  • 人类世人类世(英文:Anthropocene)又称人新世,是一个尚未被正式认可的地质概念,用以描述地球最晚近的地质年代。人类世并没有准确的开始年份,可能是由18世纪末人类活动对气候及生态系统造