关系规则学习

✍ dations ◷ 2025-12-05 16:47:12 #关系规则学习
关联规则学习(英语:Association rule learning)是一种在大型数据库中发现变量之间的有趣性关系的方法。它的目的是利用一些有趣性的量度来识别数据库中发现的强规则。 基于强规则的概念,Rakesh Agrawal等人引入了关联规则以发现由超市的POS系统记录的大批交易数据中产品之间的规律性。例如,从销售数据中发现的规则 {洋葱, 土豆}→{汉堡} 会表明如果顾客一起买洋葱和土豆,他们也有可能买汉堡的肉。此类信息可以作为做出促销定价或产品植入等营销活动决定的根据。除了上面购物篮分析(英语:market basket analysis)中的例子以外, 关联规则如今还被用在许多应用领域中,包括网络用法挖掘(英语:Web usage mining)、入侵检测、连续生产(英语:Continuous production)及生物信息学中。与序列挖掘(英语:sequence mining)相比,关联规则学习通常不考虑在事务中、或事务间的项目的顺序。根据韩家炜等,关联规则定义为:假设 I = { I 1 , I 2 , … , I m } {displaystyle I={I_{1},I_{2},ldots ,I_{m}}} 是项的集合。给定一个交易数据库 D = { t 1 , t 2 , … , t n } {displaystyle D={t_{1},t_{2},ldots ,t_{n}}} ,其中每个事务(Transaction)t是I的非空子集,即 t ⊆ I {displaystyle tsubseteq I} ,每一个交易都与一个唯一的标识符TID(Transaction ID)对应。关联规则是形如 X ⇒ Y {displaystyle XRightarrow Y} 的蕴涵式,其中 X , Y ⊆ I {displaystyle X,Ysubseteq I} 且 X ∩ Y = ∅ {displaystyle Xcap Y=emptyset } , X {displaystyle X} 和 Y {displaystyle Y} 分别称为关联规则的先导(antecedent或left-hand-side, LHS)和后继(consequent或right-hand-side, RHS) 。关联规则 X ⇒ Y {displaystyle XRightarrow Y} 在D中的支持度(support)是D中事务包含 X ∪ Y {displaystyle Xcup Y} 的百分比,即概率 P ( X ∪ Y ) {displaystyle P(Xcup Y)} ;置信度(confidence)是包含X的事务中同时包含Y的百分比,即条件概率 P ( Y | X ) {displaystyle Pleft(Y|Xright)} 。如果同时满足最小支持度阈值和最小置信度阈值,则认为关联规则是有趣的。这些阈值由用户或者专家设定。用一个简单的例子说明。表1是顾客购买记录的数据库D,包含6个事务。项集I={网球拍,网球,运动鞋,羽毛球}。考虑关联规则:网球拍 ⇒ {displaystyle Rightarrow } 网球,事务1,2,3,4,6包含网球拍,事务1,2,6同时包含网球拍和网球,支持度 s u p p o r t = 3 6 = 0.5 {displaystyle support={frac {3}{6}}=0.5} ,置信度 c o n f i d e n t = 3 5 = 0.6 {displaystyle confident={frac {3}{5}}=0.6} 。若给定最小支持度 α = 0.5 {displaystyle alpha =0.5} ,最小置信度 β = 0.6 {displaystyle beta =0.6} ,关联规则网球拍 ⇒ {displaystyle Rightarrow } 网球是有趣的,认为购买网球拍和购买网球之间存在强关联。关联规则有以下常见分类:根据关联规则所处理的值的类型根据关联规则所涉及的数据维数根据关联规则所涉及的抽象层次Apriori算法所使用的前置统计量包括:

相关

  • 波粒二象性在量子力学里,微观粒子有时会显示出波动性(这时粒子性较不显著),有时又会显示出粒子性(这时波动性较不显著),在不同条件下分别表现出波动或粒子的性质。这种称为波粒二象性(wave-par
  • 喷他佐辛喷他佐辛(Pentazocine)是第一个临床应用的阿片受体激动/拮抗型镇痛剂,能提供包括吗啡、杜冷丁等阿片样药物相接近的镇痛作用;胃肠外给药产生快速强烈的镇痛作用,起作用时间比吗啡
  • 甾体甾体(英语:steroid)是属于脂类的一类,特征是有一个四环的母核。所有甾体都是从乙酰辅酶A生物合成路径所衍生的。不同的甾体在其附在环上的官能团有所不同,而其基本结构都是有一个
  • 飞、飞翔或飞行是物体的一种行进方式。方法有许多种,例如利用与空气动力学原理产生升力(如飞机或鸟类);也可以经由比空气更轻的重量来达成目的(如热气球);还有一种飞行方式并不在空
  • KBS韩国广播公司(朝鲜语:한국방송공사/韓國放送公社 Han-guk Bangsong Gongsa,英语:Korean Broadcasting System),通称韩国放送(英语:KBS),亦可称为韩国广播电视台,为大韩民国最早的公营电
  • 维特鲁威人维特鲁威人(意大利语:Uomo vitruviano)是列奥那多·达·芬奇在1487年前后创作的世界著名素描。根据约1500年前维特鲁威在《建筑十书》中的描述,达芬奇努力绘出了完美比例的人体
  • 珊瑚海群岛珊瑚海群岛(英语:Coral Sea Islands)是澳大利亚的海外领地,位于昆士兰州东北方的珊瑚海中的,总面积有5平方公里,无人口居住。1印度尼西亚的部分地区和东帝汶有时被视为大洋洲。 2
  • 凯文·林奇凯文·林奇(英语:Kevin Andrew Lynch,1918年1月7日-1984年4月25日)是一位美国城市规划师和作家,以其在城市环境的感知形式方面的工作而闻名,并且是心理地图(英语:Mental mapping)的早
  • Urticaria荨麻疹(hives、urticaria)是一种很常见的皮肤病,俗称风团或风疹块,有的地区叫鬼风疙瘩,中医称瘾疹,客语称冷瘼,是一种皮肤过敏。症状是局部皮肤忽然成块地红肿,发痒或刺痒。病灶时常
  • 维塔利·拉扎列维奇·金兹堡维塔利·拉扎列维奇·金兹堡(俄语:Виталий Лазаревич Гинзбург,转写:Vitaly Lazarevich Ginzburg,1916年10月4日-2009年11月8日),苏联著名理论物理学家和天