首页 >
关系规则学习
✍ dations ◷ 2025-08-02 21:07:32 #关系规则学习
关联规则学习(英语:Association rule learning)是一种在大型数据库中发现变量之间的有趣性关系的方法。它的目的是利用一些有趣性的量度来识别数据库中发现的强规则。 基于强规则的概念,Rakesh Agrawal等人引入了关联规则以发现由超市的POS系统记录的大批交易数据中产品之间的规律性。例如,从销售数据中发现的规则 {洋葱, 土豆}→{汉堡} 会表明如果顾客一起买洋葱和土豆,他们也有可能买汉堡的肉。此类信息可以作为做出促销定价或产品植入等营销活动决定的根据。除了上面购物篮分析(英语:market basket analysis)中的例子以外, 关联规则如今还被用在许多应用领域中,包括网络用法挖掘(英语:Web usage mining)、入侵检测、连续生产(英语:Continuous production)及生物信息学中。与序列挖掘(英语:sequence mining)相比,关联规则学习通常不考虑在事务中、或事务间的项目的顺序。根据韩家炜等,关联规则定义为:假设
I
=
{
I
1
,
I
2
,
…
,
I
m
}
{displaystyle I={I_{1},I_{2},ldots ,I_{m}}}
是项的集合。给定一个交易数据库
D
=
{
t
1
,
t
2
,
…
,
t
n
}
{displaystyle D={t_{1},t_{2},ldots ,t_{n}}}
,其中每个事务(Transaction)t是I的非空子集,即
t
⊆
I
{displaystyle tsubseteq I}
,每一个交易都与一个唯一的标识符TID(Transaction ID)对应。关联规则是形如
X
⇒
Y
{displaystyle XRightarrow Y}
的蕴涵式,其中
X
,
Y
⊆
I
{displaystyle X,Ysubseteq I}
且
X
∩
Y
=
∅
{displaystyle Xcap Y=emptyset }
,
X
{displaystyle X}
和
Y
{displaystyle Y}
分别称为关联规则的先导(antecedent或left-hand-side, LHS)和后继(consequent或right-hand-side, RHS) 。关联规则
X
⇒
Y
{displaystyle XRightarrow Y}
在D中的支持度(support)是D中事务包含
X
∪
Y
{displaystyle Xcup Y}
的百分比,即概率
P
(
X
∪
Y
)
{displaystyle P(Xcup Y)}
;置信度(confidence)是包含X的事务中同时包含Y的百分比,即条件概率
P
(
Y
|
X
)
{displaystyle Pleft(Y|Xright)}
。如果同时满足最小支持度阈值和最小置信度阈值,则认为关联规则是有趣的。这些阈值由用户或者专家设定。用一个简单的例子说明。表1是顾客购买记录的数据库D,包含6个事务。项集I={网球拍,网球,运动鞋,羽毛球}。考虑关联规则:网球拍
⇒
{displaystyle Rightarrow }
网球,事务1,2,3,4,6包含网球拍,事务1,2,6同时包含网球拍和网球,支持度
s
u
p
p
o
r
t
=
3
6
=
0.5
{displaystyle support={frac {3}{6}}=0.5}
,置信度
c
o
n
f
i
d
e
n
t
=
3
5
=
0.6
{displaystyle confident={frac {3}{5}}=0.6}
。若给定最小支持度
α
=
0.5
{displaystyle alpha =0.5}
,最小置信度
β
=
0.6
{displaystyle beta =0.6}
,关联规则网球拍
⇒
{displaystyle Rightarrow }
网球是有趣的,认为购买网球拍和购买网球之间存在强关联。关联规则有以下常见分类:根据关联规则所处理的值的类型根据关联规则所涉及的数据维数根据关联规则所涉及的抽象层次Apriori算法所使用的前置统计量包括:
相关
- 便秘便秘是指因粪便会太硬或是太干而排便不顺或难以排出的状况。一般而言,正常排便的频率约在每日三次到每周三次之间,便秘的并发症包含痔疮、肛裂、粪便阻塞。不同患者对便秘的描
- 狼狼(学名:Canis lupus),或称为灰狼,哺乳纲,犬科,在生物学上与狗为同一物种,为现生犬科动物中体型最大的物种。狼这个物种曾是地球上分布地区最广的哺乳动物,包括北美和欧亚大陆,但如今
- 双清区双清区是中国湖南省邵阳市所辖的一个市辖区。总面积139.6平方公里,总人口25.4万人。双清区辖6个街道、2个镇、4个乡:兴隆街道、龙须塘街道、汽车站街道、小江湖街道、东风路街
- 喙喙是鸟类上下颌包被的硬角质鞘,相当于哺乳动物吻突、唇和齿的功能。喙的主要功能是取食和梳理羽毛。某些恐龙也有类似的构造,不过不一定与鸟类同源。达尔文正是研究了加拉帕戈
- 布若卡区布洛卡区(英文:Broca's area)也译为布罗卡区是大脑的一区,它主管语言讯息的处理、话语的产生。与韦尼克区共同形成语言系统。布若卡氏区与韦尼克区通常位于脑部的优势半脑(通常位
- 甲氟喹美尔奎宁(Mefloquine),常见商品名疟宁(Lariam),为一种治疗及预防疟疾的药物。当用于预防时,需在暴露疟原虫前一至二周开始用药,每周一次。暴露后则须维持四周,每周一次。本品可用于治
- 疋疋部,为汉字索引中的部首之一,康熙字典214个部首中的第一百〇三个(五划的则为第九个)。就繁体及简体中文中,疋部归于五划部首。疋部通常是从上、下、左方均可为部字。当上、下方
- 寄生曲霉寄生曲霉(学名:Aspergillus parasiticus)是属于散囊菌目发菌科曲霉属的一种真菌,可生长在土壤、稻谷等基物上。该种分布于中国、美国、阿根廷、巴西、荷兰、印度、印度尼西亚、
- 艾克曼克里斯蒂安·艾克曼(Christiaan Eijkman,1858年8月11日-1930年11月5日),荷兰医生、病理学家。艾克曼研究并显示出脚气病是由于不良的饮食习惯造成,这导致他发现维生素。他与弗雷德
- 忒提斯忒提斯(希腊语:Θέτις)为古希腊神话中的海洋女神,是珀琉斯的妻子,阿基里斯的母亲。忒提斯是一名宁芙仙女但却嫁给一个凡人(珀琉斯),而生下了特洛伊战争的英雄阿基里斯。忒提斯做