关系规则学习

✍ dations ◷ 2024-11-06 05:00:41 #关系规则学习
关联规则学习(英语:Association rule learning)是一种在大型数据库中发现变量之间的有趣性关系的方法。它的目的是利用一些有趣性的量度来识别数据库中发现的强规则。 基于强规则的概念,Rakesh Agrawal等人引入了关联规则以发现由超市的POS系统记录的大批交易数据中产品之间的规律性。例如,从销售数据中发现的规则 {洋葱, 土豆}→{汉堡} 会表明如果顾客一起买洋葱和土豆,他们也有可能买汉堡的肉。此类信息可以作为做出促销定价或产品植入等营销活动决定的根据。除了上面购物篮分析(英语:market basket analysis)中的例子以外, 关联规则如今还被用在许多应用领域中,包括网络用法挖掘(英语:Web usage mining)、入侵检测、连续生产(英语:Continuous production)及生物信息学中。与序列挖掘(英语:sequence mining)相比,关联规则学习通常不考虑在事务中、或事务间的项目的顺序。根据韩家炜等,关联规则定义为:假设 I = { I 1 , I 2 , … , I m } {displaystyle I={I_{1},I_{2},ldots ,I_{m}}} 是项的集合。给定一个交易数据库 D = { t 1 , t 2 , … , t n } {displaystyle D={t_{1},t_{2},ldots ,t_{n}}} ,其中每个事务(Transaction)t是I的非空子集,即 t ⊆ I {displaystyle tsubseteq I} ,每一个交易都与一个唯一的标识符TID(Transaction ID)对应。关联规则是形如 X ⇒ Y {displaystyle XRightarrow Y} 的蕴涵式,其中 X , Y ⊆ I {displaystyle X,Ysubseteq I} 且 X ∩ Y = ∅ {displaystyle Xcap Y=emptyset } , X {displaystyle X} 和 Y {displaystyle Y} 分别称为关联规则的先导(antecedent或left-hand-side, LHS)和后继(consequent或right-hand-side, RHS) 。关联规则 X ⇒ Y {displaystyle XRightarrow Y} 在D中的支持度(support)是D中事务包含 X ∪ Y {displaystyle Xcup Y} 的百分比,即概率 P ( X ∪ Y ) {displaystyle P(Xcup Y)} ;置信度(confidence)是包含X的事务中同时包含Y的百分比,即条件概率 P ( Y | X ) {displaystyle Pleft(Y|Xright)} 。如果同时满足最小支持度阈值和最小置信度阈值,则认为关联规则是有趣的。这些阈值由用户或者专家设定。用一个简单的例子说明。表1是顾客购买记录的数据库D,包含6个事务。项集I={网球拍,网球,运动鞋,羽毛球}。考虑关联规则:网球拍 ⇒ {displaystyle Rightarrow } 网球,事务1,2,3,4,6包含网球拍,事务1,2,6同时包含网球拍和网球,支持度 s u p p o r t = 3 6 = 0.5 {displaystyle support={frac {3}{6}}=0.5} ,置信度 c o n f i d e n t = 3 5 = 0.6 {displaystyle confident={frac {3}{5}}=0.6} 。若给定最小支持度 α = 0.5 {displaystyle alpha =0.5} ,最小置信度 β = 0.6 {displaystyle beta =0.6} ,关联规则网球拍 ⇒ {displaystyle Rightarrow } 网球是有趣的,认为购买网球拍和购买网球之间存在强关联。关联规则有以下常见分类:根据关联规则所处理的值的类型根据关联规则所涉及的数据维数根据关联规则所涉及的抽象层次Apriori算法所使用的前置统计量包括:

相关

  • 量子相干在物理学里,相干性(coherence)指的是,为了产生显著的干涉现象,波所需具备的性质。更广义地说,相干性描述波与自己、波与其它波之间对于某种内秉物理量的相关性质。当两个波彼此相
  • 卵生卵生(英语:Oviparity),是指在有性生殖中,母体的卵受精后形成为个体的动物,以此种方式进行生育的叫做卵生动物(Ovipara)。新个体从母体排放出来后,以卵内的蛋白、蛋黄提供营养,继续发育
  • 海马结构海马的组成(hippocampal formation)为大脑内侧颞叶的构造。有关该构造所包含的范围,学界并没有共识。有些学者认为海马结构包含齿状回(英语:dentate gyrus)、海马回本体,和岬下脚(英
  • 树液树液是指植物韧皮部输送的流体物质,这些物质提供了整株植物的生长所需的水分和养分。树液和乳胶、树脂不是同一物体。树液分为木质部树液和韧皮部树液两种。许多动物都以吸食
  • ④ 北塞浦路斯面积以下资讯是以2011年估计家用电源国家领袖国内生产总值(国际汇率) 以下资讯是以2014年估计立国历史北塞浦路斯土耳其共和国(Kuzey Kıbrıs Türk Cumhuriyeti,缩写为KKTC) 通
  • 水循环水循环是指水由地球不同的地方透过吸收太阳以来的能量转变存在的模式到地球中另一些地方,例如:地的水分被太阳蒸发成为空气中的水蒸气。而水在地球的存在模式包括有固态、液态
  • 脂双分子层磷脂双分子层(英语:lipid bilayer 或phospholipid bilayer)是由两层磷脂分子组成的薄膜。 几乎所有细胞生物的细胞膜和许多病毒的包膜都主要由磷脂双分子层构成,此外,核被膜和
  • 芦沟桥坐标:39°51′01″N 116°13′09″E / 39.8502497°N 116.2190658°E / 39.8502497; 116.2190658卢沟桥,原名广利桥,位于中华人民共和国北京市丰台区的永定河上,东距宛平城170米
  • 聚乙二醇聚乙二醇(PEG),也称为聚环氧乙烷(PEO)或聚氧乙烯(POE),是指环氧乙烷的寡聚物或聚合物。这三个名称现今一般为同义词,但历史上聚乙二醇往往是指分子质量低于20,000 g/mol的低聚物和聚
  • 天帝释帝释天(梵语:शक्र,Śakra,巴利语:Sakka),又称天帝释、帝释,全名为释提桓因陀罗(梵文:Śakro devānām indraḥ,巴利文:Sakko devānaṃ indo)或释提桓因达罗,简称释提桓因。原为印度