关系规则学习

✍ dations ◷ 2025-07-09 15:07:58 #关系规则学习
关联规则学习(英语:Association rule learning)是一种在大型数据库中发现变量之间的有趣性关系的方法。它的目的是利用一些有趣性的量度来识别数据库中发现的强规则。 基于强规则的概念,Rakesh Agrawal等人引入了关联规则以发现由超市的POS系统记录的大批交易数据中产品之间的规律性。例如,从销售数据中发现的规则 {洋葱, 土豆}→{汉堡} 会表明如果顾客一起买洋葱和土豆,他们也有可能买汉堡的肉。此类信息可以作为做出促销定价或产品植入等营销活动决定的根据。除了上面购物篮分析(英语:market basket analysis)中的例子以外, 关联规则如今还被用在许多应用领域中,包括网络用法挖掘(英语:Web usage mining)、入侵检测、连续生产(英语:Continuous production)及生物信息学中。与序列挖掘(英语:sequence mining)相比,关联规则学习通常不考虑在事务中、或事务间的项目的顺序。根据韩家炜等,关联规则定义为:假设 I = { I 1 , I 2 , … , I m } {displaystyle I={I_{1},I_{2},ldots ,I_{m}}} 是项的集合。给定一个交易数据库 D = { t 1 , t 2 , … , t n } {displaystyle D={t_{1},t_{2},ldots ,t_{n}}} ,其中每个事务(Transaction)t是I的非空子集,即 t ⊆ I {displaystyle tsubseteq I} ,每一个交易都与一个唯一的标识符TID(Transaction ID)对应。关联规则是形如 X ⇒ Y {displaystyle XRightarrow Y} 的蕴涵式,其中 X , Y ⊆ I {displaystyle X,Ysubseteq I} 且 X ∩ Y = ∅ {displaystyle Xcap Y=emptyset } , X {displaystyle X} 和 Y {displaystyle Y} 分别称为关联规则的先导(antecedent或left-hand-side, LHS)和后继(consequent或right-hand-side, RHS) 。关联规则 X ⇒ Y {displaystyle XRightarrow Y} 在D中的支持度(support)是D中事务包含 X ∪ Y {displaystyle Xcup Y} 的百分比,即概率 P ( X ∪ Y ) {displaystyle P(Xcup Y)} ;置信度(confidence)是包含X的事务中同时包含Y的百分比,即条件概率 P ( Y | X ) {displaystyle Pleft(Y|Xright)} 。如果同时满足最小支持度阈值和最小置信度阈值,则认为关联规则是有趣的。这些阈值由用户或者专家设定。用一个简单的例子说明。表1是顾客购买记录的数据库D,包含6个事务。项集I={网球拍,网球,运动鞋,羽毛球}。考虑关联规则:网球拍 ⇒ {displaystyle Rightarrow } 网球,事务1,2,3,4,6包含网球拍,事务1,2,6同时包含网球拍和网球,支持度 s u p p o r t = 3 6 = 0.5 {displaystyle support={frac {3}{6}}=0.5} ,置信度 c o n f i d e n t = 3 5 = 0.6 {displaystyle confident={frac {3}{5}}=0.6} 。若给定最小支持度 α = 0.5 {displaystyle alpha =0.5} ,最小置信度 β = 0.6 {displaystyle beta =0.6} ,关联规则网球拍 ⇒ {displaystyle Rightarrow } 网球是有趣的,认为购买网球拍和购买网球之间存在强关联。关联规则有以下常见分类:根据关联规则所处理的值的类型根据关联规则所涉及的数据维数根据关联规则所涉及的抽象层次Apriori算法所使用的前置统计量包括:

相关

  • Population MattersPopulation Matters(双关语,可理解为人口事情或人口至关重要或人口控制运动)是一个注册于英国的慈善组织、智库及倡导团体,前身为“理想人口信托”("Optimum Population Trust")。
  • 二十世纪1901年1月1日至2000年12月31日的这一段期间被称为20世纪。该世纪最初属于“不列颠治世”后期,是工业革命大爆发的年代,识字率大量提升,科学研究一日千里,人类学会了制造航天器与
  • 托伦托伦(波兰语:Toruń ;德语:Thorn,托恩)是波兰的一个城市,是1233年由条顿骑士团所建立。属库亚维-波美拉尼亚省。托伦曾是托伦省的省会。托伦的旧市区也是世界文化遗产。托伦在瓜分
  • 消化器官消化系统(英语:digestive system)是多细胞生物用以进食、消化食物、获取能量和营养、排遗剩余废物的一组器官,其主要功能为摄食、消化、吸收、同化和排遗。其中有关排遗的部分,也
  • 氰化物氰化物是特指带有氰离子(CN−)或氰基(-CN)的化合物,其中的碳原子和氮原子通过叁键相连接。这一叁键给予氰基以相当高的稳定性,使之在通常的化学反应中都以一个整体存在。因该基团
  • 海绵动物多孔动物门(学名:Porifera)为原始的多细胞生物,也称海绵动物门(Spongiatia或Spongia),一般称为海绵。海绵没有神经元/神经系统、消化和循环系统,相反,它们大多依靠海水流过自己的身体
  • 英国电信英国电信(BT Group plc,以BT为商标,前身为British Telecom,简称BT),原为英国国营电信公用事业,由英国邮政总局管理,1981年10月1日脱离英国皇家邮政,变成独立的国营事业。在英国保守党
  • 肌小节肌小节(英语:sarcomere,即肌节、肌原纤维节)是肌原纤维(英语:myofibril)的基本单位。肌节由三种不同肌丝系统组成。二头肌的一个肌细胞可以有100000个肌节。平滑肌的肌原纤维不排列
  • 葵花子葵花籽,是指向日葵的果实 (连壳)或种子(去壳后)。颜色有黑色、白色和褐色,大部分种子都是多色于一体。可以做为零食,也可以榨油,葵花籽油可以用来煮菜,而且含有不饱和脂肪酸约90%,也是
  • 恋内衣恋内衣是指与内衣相关的恋物癖,这些恋物癖者会从观看、穿脱、嗅闻某些类型的贴身衣物(包括胸罩、内裤、丝袜、裤袜)等而产生性兴奋,无论是实体的、或是描绘其内容的图像皆然。某