首页 >
关系规则学习
✍ dations ◷ 2025-04-26 12:54:59 #关系规则学习
关联规则学习(英语:Association rule learning)是一种在大型数据库中发现变量之间的有趣性关系的方法。它的目的是利用一些有趣性的量度来识别数据库中发现的强规则。 基于强规则的概念,Rakesh Agrawal等人引入了关联规则以发现由超市的POS系统记录的大批交易数据中产品之间的规律性。例如,从销售数据中发现的规则 {洋葱, 土豆}→{汉堡} 会表明如果顾客一起买洋葱和土豆,他们也有可能买汉堡的肉。此类信息可以作为做出促销定价或产品植入等营销活动决定的根据。除了上面购物篮分析(英语:market basket analysis)中的例子以外, 关联规则如今还被用在许多应用领域中,包括网络用法挖掘(英语:Web usage mining)、入侵检测、连续生产(英语:Continuous production)及生物信息学中。与序列挖掘(英语:sequence mining)相比,关联规则学习通常不考虑在事务中、或事务间的项目的顺序。根据韩家炜等,关联规则定义为:假设
I
=
{
I
1
,
I
2
,
…
,
I
m
}
{displaystyle I={I_{1},I_{2},ldots ,I_{m}}}
是项的集合。给定一个交易数据库
D
=
{
t
1
,
t
2
,
…
,
t
n
}
{displaystyle D={t_{1},t_{2},ldots ,t_{n}}}
,其中每个事务(Transaction)t是I的非空子集,即
t
⊆
I
{displaystyle tsubseteq I}
,每一个交易都与一个唯一的标识符TID(Transaction ID)对应。关联规则是形如
X
⇒
Y
{displaystyle XRightarrow Y}
的蕴涵式,其中
X
,
Y
⊆
I
{displaystyle X,Ysubseteq I}
且
X
∩
Y
=
∅
{displaystyle Xcap Y=emptyset }
,
X
{displaystyle X}
和
Y
{displaystyle Y}
分别称为关联规则的先导(antecedent或left-hand-side, LHS)和后继(consequent或right-hand-side, RHS) 。关联规则
X
⇒
Y
{displaystyle XRightarrow Y}
在D中的支持度(support)是D中事务包含
X
∪
Y
{displaystyle Xcup Y}
的百分比,即概率
P
(
X
∪
Y
)
{displaystyle P(Xcup Y)}
;置信度(confidence)是包含X的事务中同时包含Y的百分比,即条件概率
P
(
Y
|
X
)
{displaystyle Pleft(Y|Xright)}
。如果同时满足最小支持度阈值和最小置信度阈值,则认为关联规则是有趣的。这些阈值由用户或者专家设定。用一个简单的例子说明。表1是顾客购买记录的数据库D,包含6个事务。项集I={网球拍,网球,运动鞋,羽毛球}。考虑关联规则:网球拍
⇒
{displaystyle Rightarrow }
网球,事务1,2,3,4,6包含网球拍,事务1,2,6同时包含网球拍和网球,支持度
s
u
p
p
o
r
t
=
3
6
=
0.5
{displaystyle support={frac {3}{6}}=0.5}
,置信度
c
o
n
f
i
d
e
n
t
=
3
5
=
0.6
{displaystyle confident={frac {3}{5}}=0.6}
。若给定最小支持度
α
=
0.5
{displaystyle alpha =0.5}
,最小置信度
β
=
0.6
{displaystyle beta =0.6}
,关联规则网球拍
⇒
{displaystyle Rightarrow }
网球是有趣的,认为购买网球拍和购买网球之间存在强关联。关联规则有以下常见分类:根据关联规则所处理的值的类型根据关联规则所涉及的数据维数根据关联规则所涉及的抽象层次Apriori算法所使用的前置统计量包括:
相关
- 吗啉胍N-morpholine-4-carboximidamide吗啉胍也称为“盐酸吗啉胍"”吗啉咪胍”“吗啉双胍”或“病毒灵”,是一种在二十世纪五十年代开发的为治疗流行性感冒而开发的,能作为潜在抗病
- 基本传染数基本传染数(Basic reproduction number)是在流行病学上,指在没有外力介入,同时所有人都没有免疫力的情况下,一个感染到某种传染病的人,会把疾病传染给其他多少个人的平均数。基本
- 历史联合国是第二次世界大战结束后成立的国际组织。自那时起,联合国逐步拓展了其目标与行动范畴,在21世纪初已发展成为了典型的国际性机构。美国总统富兰克林·罗斯福是最先使用“
- 北亚/西伯利亚北亚是亚洲次区域,由西伯利亚和俄罗斯远东组成,位于乌拉尔山脉以东、以及阿尔泰山脉以北。该区域因全属俄罗斯领土,有时也被称为亚洲俄罗斯(相对于西部较小但人口密度较高的欧洲
- 虹膜炎虹膜炎(Iritis)是一种形式的前葡萄膜炎,指的是发炎的虹膜的眼睛,通常会急性发作,大部分会在6至8周内复元,发作时通常眼睛会红、痛,以及视力模糊。发病时通常只发生在一眼。主要有两
- 攀援始祖兽始祖兽(学名Eomaia)是一种已灭绝的哺乳动物,有可能是真兽下纲的最早祖先。始祖兽的化石是在中国辽宁的义县组发现,可追溯至下白垩纪的巴列姆阶。这个标本长10厘米及差不多完整,估
- 脱氧腺苷单磷酸去氧腺苷单磷酸(Deoxyadenosine monophosphate,dAMP)是源自一种常见的核酸腺苷三磷酸(ATP),但失去了五碳糖2号碳上的-OH基。
- 非特异性免疫先天免疫系统(英语:Innate immunity)又称为非特异性免疫、固有免疫、非专一性防御,包括一系列的细胞及相关机制,可以以非特异性的方式抵御外来感染。先天免疫系统的细胞会非特异
- 韩祯祥韩祯祥(1930年5月24日-),中国电机工程学家、电力系统专家、教育家。浙江萧山(今杭州市萧山区)人。中国科学院院士,前浙江大学校长,主要从事电力系统网络方面的研究。
- 鼠标鼠标是一种很常见及常用的电脑输入设备,它可以对当前屏幕上的游标进行定位,并通过按键和滚轮设备对游标所经过位置的屏幕元素进行操作。鼠标的鼻祖于1968年出现。美国科学家道