首页 >
关系规则学习
✍ dations ◷ 2025-04-08 02:52:39 #关系规则学习
关联规则学习(英语:Association rule learning)是一种在大型数据库中发现变量之间的有趣性关系的方法。它的目的是利用一些有趣性的量度来识别数据库中发现的强规则。 基于强规则的概念,Rakesh Agrawal等人引入了关联规则以发现由超市的POS系统记录的大批交易数据中产品之间的规律性。例如,从销售数据中发现的规则 {洋葱, 土豆}→{汉堡} 会表明如果顾客一起买洋葱和土豆,他们也有可能买汉堡的肉。此类信息可以作为做出促销定价或产品植入等营销活动决定的根据。除了上面购物篮分析(英语:market basket analysis)中的例子以外, 关联规则如今还被用在许多应用领域中,包括网络用法挖掘(英语:Web usage mining)、入侵检测、连续生产(英语:Continuous production)及生物信息学中。与序列挖掘(英语:sequence mining)相比,关联规则学习通常不考虑在事务中、或事务间的项目的顺序。根据韩家炜等,关联规则定义为:假设
I
=
{
I
1
,
I
2
,
…
,
I
m
}
{displaystyle I={I_{1},I_{2},ldots ,I_{m}}}
是项的集合。给定一个交易数据库
D
=
{
t
1
,
t
2
,
…
,
t
n
}
{displaystyle D={t_{1},t_{2},ldots ,t_{n}}}
,其中每个事务(Transaction)t是I的非空子集,即
t
⊆
I
{displaystyle tsubseteq I}
,每一个交易都与一个唯一的标识符TID(Transaction ID)对应。关联规则是形如
X
⇒
Y
{displaystyle XRightarrow Y}
的蕴涵式,其中
X
,
Y
⊆
I
{displaystyle X,Ysubseteq I}
且
X
∩
Y
=
∅
{displaystyle Xcap Y=emptyset }
,
X
{displaystyle X}
和
Y
{displaystyle Y}
分别称为关联规则的先导(antecedent或left-hand-side, LHS)和后继(consequent或right-hand-side, RHS) 。关联规则
X
⇒
Y
{displaystyle XRightarrow Y}
在D中的支持度(support)是D中事务包含
X
∪
Y
{displaystyle Xcup Y}
的百分比,即概率
P
(
X
∪
Y
)
{displaystyle P(Xcup Y)}
;置信度(confidence)是包含X的事务中同时包含Y的百分比,即条件概率
P
(
Y
|
X
)
{displaystyle Pleft(Y|Xright)}
。如果同时满足最小支持度阈值和最小置信度阈值,则认为关联规则是有趣的。这些阈值由用户或者专家设定。用一个简单的例子说明。表1是顾客购买记录的数据库D,包含6个事务。项集I={网球拍,网球,运动鞋,羽毛球}。考虑关联规则:网球拍
⇒
{displaystyle Rightarrow }
网球,事务1,2,3,4,6包含网球拍,事务1,2,6同时包含网球拍和网球,支持度
s
u
p
p
o
r
t
=
3
6
=
0.5
{displaystyle support={frac {3}{6}}=0.5}
,置信度
c
o
n
f
i
d
e
n
t
=
3
5
=
0.6
{displaystyle confident={frac {3}{5}}=0.6}
。若给定最小支持度
α
=
0.5
{displaystyle alpha =0.5}
,最小置信度
β
=
0.6
{displaystyle beta =0.6}
,关联规则网球拍
⇒
{displaystyle Rightarrow }
网球是有趣的,认为购买网球拍和购买网球之间存在强关联。关联规则有以下常见分类:根据关联规则所处理的值的类型根据关联规则所涉及的数据维数根据关联规则所涉及的抽象层次Apriori算法所使用的前置统计量包括:
相关
- 心血管疾病心血管疾病(英语:cardiovascular disease,簡稱CVD)指的是关于心脏或血管的疾病,又称为循环系统疾病、循环系统疾病。常见的心血管疾病包括冠状动脉症候群、中风、高血压性心脏病(
- 意大利体在拉丁字母的字体排印学中,意大利体(英语:Italic type)是一种手写体印刷字形,是斜体的一种。因为受到手写书法的影响,意大利体的字形微向右倾斜,其字母写法也接近于手写体,成为其主
- 伯纳德·布罗迪伯纳德·贝里尔·布罗迪(英语:Bernard Beryl Brodie,1907年8月7日-1989年2月28日),英国生物化学家。1940年代至1950年代专注于现代药理学研究,并将该学科堆到现代科学的前台。他是
- 文件档案(英语:archive;或称存档、归档、封存)是指组织或个人在业务处理过程所产生、持有并保存的一级来源文件。档案记录了组织或个人的功能、运作及决策过程。以案卷保管人及历史
- 甲壳质甲壳素(英语:Chitin,IPA:/ˈkaɪtᵻn/ KY-tin),分子结构“(C8H13O5N)n”,又名“几丁质”、“几丁聚糖”、“几丁寡糖”、“甲壳质”或“壳多糖”,是一种含氮的多糖类物质,为虾、蟹、
- 恒星核合成恒星核合成 是解释重元素是由恒星内部的原子经由核聚变创造出来的化学元素理论。自从大爆炸期间产生氢、氦、锂之后,恒星核合成就一直持续地创造重元素。这原本是一个高度预
- 人类免疫不全病毒人类免疫缺陷病毒(英语:human immunodeficiency virus,簡稱HIV,又称艾滋病毒)是一种感染人类免疫系统细胞的慢病毒,属逆转录病毒的一种。普遍认为,人类免疫缺陷病毒的感染导致艾滋
- 贾比尔阿布·穆萨·贾比尔·伊本·哈扬(阿拉伯语:جابر بن حيان,721年-815年),波斯炼金术士、药剂师、哲学家、天文学家、占星家、物理学家、地理学家、医生和工程师,被称为“
- 哲尔哲尔(Djer),古埃及第一王朝(约公元前3100年)第二任或第三任法老。哲尔的荷鲁斯名解作“救助人的荷鲁斯”(Horus who succours)。在阿拜多斯王名表上,第二任法老的名字为“特提”(Teti
- 胰岛素抗拒胰岛素抵抗(英语:insulin resistance),是指脂肪细胞、肌肉细胞和肝细胞对正常浓度的胰岛素产生反应不足的现象,亦即这些细胞需要更高的胰岛素浓度才能对胰岛素产生反应。在脂肪细