首页 >
关系规则学习
✍ dations ◷ 2025-12-04 16:51:13 #关系规则学习
关联规则学习(英语:Association rule learning)是一种在大型数据库中发现变量之间的有趣性关系的方法。它的目的是利用一些有趣性的量度来识别数据库中发现的强规则。 基于强规则的概念,Rakesh Agrawal等人引入了关联规则以发现由超市的POS系统记录的大批交易数据中产品之间的规律性。例如,从销售数据中发现的规则 {洋葱, 土豆}→{汉堡} 会表明如果顾客一起买洋葱和土豆,他们也有可能买汉堡的肉。此类信息可以作为做出促销定价或产品植入等营销活动决定的根据。除了上面购物篮分析(英语:market basket analysis)中的例子以外, 关联规则如今还被用在许多应用领域中,包括网络用法挖掘(英语:Web usage mining)、入侵检测、连续生产(英语:Continuous production)及生物信息学中。与序列挖掘(英语:sequence mining)相比,关联规则学习通常不考虑在事务中、或事务间的项目的顺序。根据韩家炜等,关联规则定义为:假设
I
=
{
I
1
,
I
2
,
…
,
I
m
}
{displaystyle I={I_{1},I_{2},ldots ,I_{m}}}
是项的集合。给定一个交易数据库
D
=
{
t
1
,
t
2
,
…
,
t
n
}
{displaystyle D={t_{1},t_{2},ldots ,t_{n}}}
,其中每个事务(Transaction)t是I的非空子集,即
t
⊆
I
{displaystyle tsubseteq I}
,每一个交易都与一个唯一的标识符TID(Transaction ID)对应。关联规则是形如
X
⇒
Y
{displaystyle XRightarrow Y}
的蕴涵式,其中
X
,
Y
⊆
I
{displaystyle X,Ysubseteq I}
且
X
∩
Y
=
∅
{displaystyle Xcap Y=emptyset }
,
X
{displaystyle X}
和
Y
{displaystyle Y}
分别称为关联规则的先导(antecedent或left-hand-side, LHS)和后继(consequent或right-hand-side, RHS) 。关联规则
X
⇒
Y
{displaystyle XRightarrow Y}
在D中的支持度(support)是D中事务包含
X
∪
Y
{displaystyle Xcup Y}
的百分比,即概率
P
(
X
∪
Y
)
{displaystyle P(Xcup Y)}
;置信度(confidence)是包含X的事务中同时包含Y的百分比,即条件概率
P
(
Y
|
X
)
{displaystyle Pleft(Y|Xright)}
。如果同时满足最小支持度阈值和最小置信度阈值,则认为关联规则是有趣的。这些阈值由用户或者专家设定。用一个简单的例子说明。表1是顾客购买记录的数据库D,包含6个事务。项集I={网球拍,网球,运动鞋,羽毛球}。考虑关联规则:网球拍
⇒
{displaystyle Rightarrow }
网球,事务1,2,3,4,6包含网球拍,事务1,2,6同时包含网球拍和网球,支持度
s
u
p
p
o
r
t
=
3
6
=
0.5
{displaystyle support={frac {3}{6}}=0.5}
,置信度
c
o
n
f
i
d
e
n
t
=
3
5
=
0.6
{displaystyle confident={frac {3}{5}}=0.6}
。若给定最小支持度
α
=
0.5
{displaystyle alpha =0.5}
,最小置信度
β
=
0.6
{displaystyle beta =0.6}
,关联规则网球拍
⇒
{displaystyle Rightarrow }
网球是有趣的,认为购买网球拍和购买网球之间存在强关联。关联规则有以下常见分类:根据关联规则所处理的值的类型根据关联规则所涉及的数据维数根据关联规则所涉及的抽象层次Apriori算法所使用的前置统计量包括:
相关
- 疫苗接种疫苗接种,是将疫苗制剂接种到人或动物体内的技术,使接受方获得抵抗某一特定或与疫苗相似病原的免疫力,借由免疫系统对外来物的辨认,进行抗体的筛选和制造,以产生对抗该病原或相似
- 柏林柏林(德语:Berlin,德语发音:.mw-parser-output .IPA{font-family:"Charis SIL","Doulos SIL","Linux Libertine","Segoe UI","Lucida Sans Unicode","Code2000","Gentium","Gent
- 工业与组织心理学异常心理学 行为遗传学 生物心理学 心理药物学 认知心理学 比较心理学 跨文化心理学 文化心理学 差异心理学(英语:Differential psychology) 发展心理学 演化心理学 实验心理学
- 西西里王国西西里王国是一个在1130年至1816年曾存在于现意大利的国家,创立者为西西里的鲁杰罗二世。广义上西西里王国领土不仅只包含西西里岛,亦包括整个南意大利,1530年以前还包含马耳他
- FeBrsub3/sub溴化铁,化学式为FeBr3,棕黄色或深红棕色固体。易溶于水,溶于水略显酸性,其水溶液可以结晶出暗绿色的FeBr3·6H2O。可溶于给电子溶剂(如乙醚、乙醇)中。固体溴化铁具有和氯化铁相似
- 有机化学命名法IUPAC有机物命名法是一种有系统命名有机化合物的方法。该命名法是由国际纯粹与应用化学联合会(IUPAC)规定的,最近一次修订是在1993年。其前身是1892年日内瓦国际化学会的“系统
- 西班牙承认独立明斯特和约(Vrede van Münster),签定于1648年,和约中西班牙国王费利佩四世正式承认荷兰为主权国家。明斯特和约被视为威斯特伐利亚和约的一部分,三十年战争和八十年战争结束的里
- 贝利萨里奥·贝坦库尔·夸尔塔斯贝利萨里奥·贝坦库尔·夸尔塔斯(西班牙语:Belisario Betancur Cuartas,1923年2月4日-2018年12月7日), 哥伦比亚政治家,哥伦比亚总统(1982年至1986年)。贝坦库尔1947年在麦德林玻利瓦
- 伊里奥特弗六世伊里奥特弗六世,又译因提夫六世。是埃及第十七王朝的一位国王,他在位期间正值第二中间期,当时埃及有第十七王朝和埃及第十五王朝共存。
- 葡萄酒之路德国葡萄酒之路(德语:Deutsche Weinstraße)是德国第一条旅游路线,1935年开放,位于莱茵兰-普法尔茨州,全长85公里。这条路线的标志是黄色背景上的一串十个葡萄和路线的名称。为了
