关系规则学习

✍ dations ◷ 2025-06-06 21:33:50 #关系规则学习
关联规则学习(英语:Association rule learning)是一种在大型数据库中发现变量之间的有趣性关系的方法。它的目的是利用一些有趣性的量度来识别数据库中发现的强规则。 基于强规则的概念,Rakesh Agrawal等人引入了关联规则以发现由超市的POS系统记录的大批交易数据中产品之间的规律性。例如,从销售数据中发现的规则 {洋葱, 土豆}→{汉堡} 会表明如果顾客一起买洋葱和土豆,他们也有可能买汉堡的肉。此类信息可以作为做出促销定价或产品植入等营销活动决定的根据。除了上面购物篮分析(英语:market basket analysis)中的例子以外, 关联规则如今还被用在许多应用领域中,包括网络用法挖掘(英语:Web usage mining)、入侵检测、连续生产(英语:Continuous production)及生物信息学中。与序列挖掘(英语:sequence mining)相比,关联规则学习通常不考虑在事务中、或事务间的项目的顺序。根据韩家炜等,关联规则定义为:假设 I = { I 1 , I 2 , … , I m } {displaystyle I={I_{1},I_{2},ldots ,I_{m}}} 是项的集合。给定一个交易数据库 D = { t 1 , t 2 , … , t n } {displaystyle D={t_{1},t_{2},ldots ,t_{n}}} ,其中每个事务(Transaction)t是I的非空子集,即 t ⊆ I {displaystyle tsubseteq I} ,每一个交易都与一个唯一的标识符TID(Transaction ID)对应。关联规则是形如 X ⇒ Y {displaystyle XRightarrow Y} 的蕴涵式,其中 X , Y ⊆ I {displaystyle X,Ysubseteq I} 且 X ∩ Y = ∅ {displaystyle Xcap Y=emptyset } , X {displaystyle X} 和 Y {displaystyle Y} 分别称为关联规则的先导(antecedent或left-hand-side, LHS)和后继(consequent或right-hand-side, RHS) 。关联规则 X ⇒ Y {displaystyle XRightarrow Y} 在D中的支持度(support)是D中事务包含 X ∪ Y {displaystyle Xcup Y} 的百分比,即概率 P ( X ∪ Y ) {displaystyle P(Xcup Y)} ;置信度(confidence)是包含X的事务中同时包含Y的百分比,即条件概率 P ( Y | X ) {displaystyle Pleft(Y|Xright)} 。如果同时满足最小支持度阈值和最小置信度阈值,则认为关联规则是有趣的。这些阈值由用户或者专家设定。用一个简单的例子说明。表1是顾客购买记录的数据库D,包含6个事务。项集I={网球拍,网球,运动鞋,羽毛球}。考虑关联规则:网球拍 ⇒ {displaystyle Rightarrow } 网球,事务1,2,3,4,6包含网球拍,事务1,2,6同时包含网球拍和网球,支持度 s u p p o r t = 3 6 = 0.5 {displaystyle support={frac {3}{6}}=0.5} ,置信度 c o n f i d e n t = 3 5 = 0.6 {displaystyle confident={frac {3}{5}}=0.6} 。若给定最小支持度 α = 0.5 {displaystyle alpha =0.5} ,最小置信度 β = 0.6 {displaystyle beta =0.6} ,关联规则网球拍 ⇒ {displaystyle Rightarrow } 网球是有趣的,认为购买网球拍和购买网球之间存在强关联。关联规则有以下常见分类:根据关联规则所处理的值的类型根据关联规则所涉及的数据维数根据关联规则所涉及的抽象层次Apriori算法所使用的前置统计量包括:

相关

  • 犬小病毒犬细小病毒2型(Canine parvovirus type 2 ,CPV2)是一种主要感染犬的传染性病毒。该病传染性强。犬之间通过对于其粪便的直接或间接接触而传播该病。没有母源抗体或疫苗保护的幼
  • 空气空气是指地球大气层中的气体混合。它主要由78%的氮气、21%氧气、还有1%的稀有气体和杂质组成的混合物。空气的成分不是固定的,随着高度的改变、气压的改变,空气的组成比例也会
  • 古典物理经典物理学所涉及的物理学领域通常是一些在量子力学与相对论之前发展出来的理论。经典物理学所概括的精确范围必须依上下文而定。当研讨狭义相对论时,经典物理学指的是在相对
  • 最早的水地球上水的来源,或者说地球上的液态水明显比太阳系其他类地行星多的原因,目前尚不清楚。过去45亿年来,水如何在地球表面不断积累并形成大洋,存在着许多假设。对锆石的一项研究发
  • 杰夫·默克利杰弗里·艾伦·“杰夫”·默克利(英语:Jeffrey Alan "Jeff" Merkley ;1956年10月24日-),是一位美国民主党政治人物,自2009年成为俄勒冈州联邦参议院议员。此前他曾是俄勒冈州众议院
  • 趋向性趋性(英语:taxis,或称为趋向性)是一生物(或细胞)天生的行为反应,指其对一指向性刺激(由特定方向给的刺激),而会有趋进(正趋性)或远离(负趋性)刺激源的动作。趋性和向性不同,生物的
  • DNA聚合酶Ⅲ全酶DNA聚合酶III(英语:DNA polymerase III holoenzyme),是原核生物进行DNA复制时主要使用的一种酶。该酶于1970年由托马斯·科恩伯格(英语:Thomas B. Kornberg)发现。这种酶复合物具有
  • 细胞因子诱导的杀伤细胞细胞因子诱导的杀伤细胞(Cytokine-induced killer cells, CIK),又称细胞因子激活杀伤细胞,是一组T细胞-自然杀伤细胞(NK)样表型的适应免疫细胞混合体。医生通过向外周血单核细胞或
  • 马尔代夫议会联合政府 (44)在野党 (35)人民议会(迪维希语:ރައްޔިތުންގެ މަޖިލިސް,拉丁转写:Rayyithunge Majilis)是马尔代夫的国家立法机关。人民议会实行一院制,由85名议
  • 毕达哥拉斯学派毕达哥拉斯主义是一个用于描述毕达哥拉斯和他的追随者所持的秘教和形而上学的思想学说的术语。他们都深受数学所影响。毕达哥拉斯主义起源于公元前5世纪,对柏拉图主义有重要