关系规则学习

✍ dations ◷ 2024-12-22 16:50:25 #关系规则学习
关联规则学习(英语:Association rule learning)是一种在大型数据库中发现变量之间的有趣性关系的方法。它的目的是利用一些有趣性的量度来识别数据库中发现的强规则。 基于强规则的概念,Rakesh Agrawal等人引入了关联规则以发现由超市的POS系统记录的大批交易数据中产品之间的规律性。例如,从销售数据中发现的规则 {洋葱, 土豆}→{汉堡} 会表明如果顾客一起买洋葱和土豆,他们也有可能买汉堡的肉。此类信息可以作为做出促销定价或产品植入等营销活动决定的根据。除了上面购物篮分析(英语:market basket analysis)中的例子以外, 关联规则如今还被用在许多应用领域中,包括网络用法挖掘(英语:Web usage mining)、入侵检测、连续生产(英语:Continuous production)及生物信息学中。与序列挖掘(英语:sequence mining)相比,关联规则学习通常不考虑在事务中、或事务间的项目的顺序。根据韩家炜等,关联规则定义为:假设 I = { I 1 , I 2 , … , I m } {displaystyle I={I_{1},I_{2},ldots ,I_{m}}} 是项的集合。给定一个交易数据库 D = { t 1 , t 2 , … , t n } {displaystyle D={t_{1},t_{2},ldots ,t_{n}}} ,其中每个事务(Transaction)t是I的非空子集,即 t ⊆ I {displaystyle tsubseteq I} ,每一个交易都与一个唯一的标识符TID(Transaction ID)对应。关联规则是形如 X ⇒ Y {displaystyle XRightarrow Y} 的蕴涵式,其中 X , Y ⊆ I {displaystyle X,Ysubseteq I} 且 X ∩ Y = ∅ {displaystyle Xcap Y=emptyset } , X {displaystyle X} 和 Y {displaystyle Y} 分别称为关联规则的先导(antecedent或left-hand-side, LHS)和后继(consequent或right-hand-side, RHS) 。关联规则 X ⇒ Y {displaystyle XRightarrow Y} 在D中的支持度(support)是D中事务包含 X ∪ Y {displaystyle Xcup Y} 的百分比,即概率 P ( X ∪ Y ) {displaystyle P(Xcup Y)} ;置信度(confidence)是包含X的事务中同时包含Y的百分比,即条件概率 P ( Y | X ) {displaystyle Pleft(Y|Xright)} 。如果同时满足最小支持度阈值和最小置信度阈值,则认为关联规则是有趣的。这些阈值由用户或者专家设定。用一个简单的例子说明。表1是顾客购买记录的数据库D,包含6个事务。项集I={网球拍,网球,运动鞋,羽毛球}。考虑关联规则:网球拍 ⇒ {displaystyle Rightarrow } 网球,事务1,2,3,4,6包含网球拍,事务1,2,6同时包含网球拍和网球,支持度 s u p p o r t = 3 6 = 0.5 {displaystyle support={frac {3}{6}}=0.5} ,置信度 c o n f i d e n t = 3 5 = 0.6 {displaystyle confident={frac {3}{5}}=0.6} 。若给定最小支持度 α = 0.5 {displaystyle alpha =0.5} ,最小置信度 β = 0.6 {displaystyle beta =0.6} ,关联规则网球拍 ⇒ {displaystyle Rightarrow } 网球是有趣的,认为购买网球拍和购买网球之间存在强关联。关联规则有以下常见分类:根据关联规则所处理的值的类型根据关联规则所涉及的数据维数根据关联规则所涉及的抽象层次Apriori算法所使用的前置统计量包括:

相关

  • 乙型流感嗜血杆菌流感嗜血杆菌(学名:Haemophilus influenzae),简称嗜血杆菌,前称费佛氏杆菌(或译拜菲尔氏菌)或流感杆菌,是一种没有运动力的革兰氏阴性杆菌。它是于1892年由费佛(英语:Richard Friedric
  • 同化同化作用,又称为合成代谢,是指生物体利用能量将小分子合成为大分子的一系列代谢途径。这些反应需要能量,也被称为吸能过程(endergonic process)。将代谢过程分类的一种方式,无论是
  • 哥伦比亚大陆哥伦比亚大陆(Columbia supercontinent,或称为Nuna、Hudsonland)是地球历史上最古老的几个超大陆。2002年由约翰·罗杰斯和Santosh Madhava Warrier 提出。一般认为哥伦比亚大
  • 弗朗兹·迈恩弗兰茨·尤利乌斯·费迪南德·迈恩(Franz Julius Ferdinand Meyen,1804年6月28日-1840年9月2日)是一位德国医师、植物学家与鸟类学家。出生于东普鲁士蒂尔西特(Tilsit,现在的苏维
  • 张英张英可以指:
  • 弗雷德里克·格里菲斯弗雷德里克·格里菲斯(Frederick Griffith,1879年-1941年)是一位英国医生,他在1928年进行了一项“格里菲斯实验”,发现了转型定律,后来其他人发现其中原理为DNA的转移。
  • 不可微在微积分学中,可微函数是指那些在定义域中所有点都存在导数的函数。可微函数的图像在定义域内的每一点上必存在非垂直切线。因此,可微函数的图像是相对光滑的,没有间断点、尖点
  • 里克·奥卡西克里克·奥卡西克(英语:Ric Ocasek,1944年3月23日-2019年9月15日),美国摇滚音乐家、创作歌手以及作曲家,前汽车合唱团乐队歌手兼节奏吉他手/词曲作者。 2018年,他被加入摇滚名人堂。作
  • 华姓(阴平音或去声韵,作姓氏使用时不作阳平音。ㄏㄨㄚˋ,不念作ㄏㄨㄚˊ、ㄏㄨㄚ,粤语读waa6(话))为汉字姓氏之一,在《百家姓》中排名第28位。在当代中国姓氏中排名第196位,人数约
  • 哈维·库兴哈维·威廉斯·库兴(Harvey Williams Cushing,1869年4月8日-1939年10月7日)是美国的神经外科名医、美国陆军退役军医上校。他是脑外科学的先驱、最早提出库兴氏症候群的学者,后世