首页 >
关系规则学习
✍ dations ◷ 2025-10-12 13:45:10 #关系规则学习
关联规则学习(英语:Association rule learning)是一种在大型数据库中发现变量之间的有趣性关系的方法。它的目的是利用一些有趣性的量度来识别数据库中发现的强规则。 基于强规则的概念,Rakesh Agrawal等人引入了关联规则以发现由超市的POS系统记录的大批交易数据中产品之间的规律性。例如,从销售数据中发现的规则 {洋葱, 土豆}→{汉堡} 会表明如果顾客一起买洋葱和土豆,他们也有可能买汉堡的肉。此类信息可以作为做出促销定价或产品植入等营销活动决定的根据。除了上面购物篮分析(英语:market basket analysis)中的例子以外, 关联规则如今还被用在许多应用领域中,包括网络用法挖掘(英语:Web usage mining)、入侵检测、连续生产(英语:Continuous production)及生物信息学中。与序列挖掘(英语:sequence mining)相比,关联规则学习通常不考虑在事务中、或事务间的项目的顺序。根据韩家炜等,关联规则定义为:假设
I
=
{
I
1
,
I
2
,
…
,
I
m
}
{displaystyle I={I_{1},I_{2},ldots ,I_{m}}}
是项的集合。给定一个交易数据库
D
=
{
t
1
,
t
2
,
…
,
t
n
}
{displaystyle D={t_{1},t_{2},ldots ,t_{n}}}
,其中每个事务(Transaction)t是I的非空子集,即
t
⊆
I
{displaystyle tsubseteq I}
,每一个交易都与一个唯一的标识符TID(Transaction ID)对应。关联规则是形如
X
⇒
Y
{displaystyle XRightarrow Y}
的蕴涵式,其中
X
,
Y
⊆
I
{displaystyle X,Ysubseteq I}
且
X
∩
Y
=
∅
{displaystyle Xcap Y=emptyset }
,
X
{displaystyle X}
和
Y
{displaystyle Y}
分别称为关联规则的先导(antecedent或left-hand-side, LHS)和后继(consequent或right-hand-side, RHS) 。关联规则
X
⇒
Y
{displaystyle XRightarrow Y}
在D中的支持度(support)是D中事务包含
X
∪
Y
{displaystyle Xcup Y}
的百分比,即概率
P
(
X
∪
Y
)
{displaystyle P(Xcup Y)}
;置信度(confidence)是包含X的事务中同时包含Y的百分比,即条件概率
P
(
Y
|
X
)
{displaystyle Pleft(Y|Xright)}
。如果同时满足最小支持度阈值和最小置信度阈值,则认为关联规则是有趣的。这些阈值由用户或者专家设定。用一个简单的例子说明。表1是顾客购买记录的数据库D,包含6个事务。项集I={网球拍,网球,运动鞋,羽毛球}。考虑关联规则:网球拍
⇒
{displaystyle Rightarrow }
网球,事务1,2,3,4,6包含网球拍,事务1,2,6同时包含网球拍和网球,支持度
s
u
p
p
o
r
t
=
3
6
=
0.5
{displaystyle support={frac {3}{6}}=0.5}
,置信度
c
o
n
f
i
d
e
n
t
=
3
5
=
0.6
{displaystyle confident={frac {3}{5}}=0.6}
。若给定最小支持度
α
=
0.5
{displaystyle alpha =0.5}
,最小置信度
β
=
0.6
{displaystyle beta =0.6}
,关联规则网球拍
⇒
{displaystyle Rightarrow }
网球是有趣的,认为购买网球拍和购买网球之间存在强关联。关联规则有以下常见分类:根据关联规则所处理的值的类型根据关联规则所涉及的数据维数根据关联规则所涉及的抽象层次Apriori算法所使用的前置统计量包括:
相关
- 医学微生物学医学微生物学(clinical microbiology)是的一个医学分支,主要关注传染病的预防、诊断和治疗。此外,科学这一领域的研究微生物对健康的改善各种临床应用。有四种微生物是会导致传
- 尼克尔·奥里斯姆尼克尔·奥里斯姆(Nicole Oresme,又称Nicolas Oresme、Nicholas Oresme或Nicolas d'Oresme ?-1382年7月11日)是中古晚期最知名、最具影响力哲学家之一。本身是经济学家、数学家
- 鼻行动物†单鼻亚目 Monorrhina (虚构) †多鼻亚目 Polyrrhina (虚构)鼻行动物(原文Snouters或Rhinogrades)是一个由德国动物学家Gerolf Steiner化名为Harald Stümpke所描述的虚构哺
- 博赛纳湖博赛纳湖 (意大利文: Lago di Bolsena) 是一个位于意大利中部的湖。它是在约300,000年前,因为威西尼山脉(Vulsini mountain range)的一些火山口爆发而形成的。博赛纳湖呈椭圆形
- (NHsub4/sub)sub2/subS硫化铵,化学式为(NH4)2S。通常使用的是它的水溶液,固态不稳定,曝露在空气中会形成多硫化物和硫代硫酸盐。可用于摄影显色剂等。硫化铵溶液,更准确地讲是硫氢化铵溶液,可由硫化氢
- 碲化氢碲化氢是化学式为H2Te的化合物。它是碲的氢化物中结构最简单的。许多Te-H键的化合物都不稳定,易释放出H2,H2Te也是如此。H2Te的化学性质与硒化氢类似,都是易起反应的酸性气体,H-
- 金属晶体金属是一种具有光泽(对可见光强烈反射)、富有延展性、容易导电、传热等性质的物质。金属的上述特质都跟金属晶体内含有自由电子有关。由于金属的电子倾向脱离,因此具有良好的导
- 丁国瑜丁国瑜(1931年9月18日-),中国地质学家。1931年出生于河北高阳。1952年北京大学地质系毕业。1959年获苏联莫斯科地质勘探学院副博士学位。1980年当选为中国科学院学部委员(院士)
- 紧急状态紧急状态是指一个国家陷入或即将陷入危机,有可能会影响国家的发展及存亡,由国家元首使出超过平常法治范围的特别措施。现在多数先进国家会将权力下放至国会,让国会通过实施紧急
- 碳氧血红蛋白碳氧血红蛋白为血红蛋白与一氧化碳分子的稳定化合物,当一氧化碳气体被生物吸入或在代谢过程中产生时形成。血红蛋白有与一氧化碳结合的倾向,高于它和氧气的亲和力约240倍,当碳