关系规则学习

✍ dations ◷ 2025-11-06 11:17:37 #关系规则学习
关联规则学习(英语:Association rule learning)是一种在大型数据库中发现变量之间的有趣性关系的方法。它的目的是利用一些有趣性的量度来识别数据库中发现的强规则。 基于强规则的概念,Rakesh Agrawal等人引入了关联规则以发现由超市的POS系统记录的大批交易数据中产品之间的规律性。例如,从销售数据中发现的规则 {洋葱, 土豆}→{汉堡} 会表明如果顾客一起买洋葱和土豆,他们也有可能买汉堡的肉。此类信息可以作为做出促销定价或产品植入等营销活动决定的根据。除了上面购物篮分析(英语:market basket analysis)中的例子以外, 关联规则如今还被用在许多应用领域中,包括网络用法挖掘(英语:Web usage mining)、入侵检测、连续生产(英语:Continuous production)及生物信息学中。与序列挖掘(英语:sequence mining)相比,关联规则学习通常不考虑在事务中、或事务间的项目的顺序。根据韩家炜等,关联规则定义为:假设 I = { I 1 , I 2 , … , I m } {displaystyle I={I_{1},I_{2},ldots ,I_{m}}} 是项的集合。给定一个交易数据库 D = { t 1 , t 2 , … , t n } {displaystyle D={t_{1},t_{2},ldots ,t_{n}}} ,其中每个事务(Transaction)t是I的非空子集,即 t ⊆ I {displaystyle tsubseteq I} ,每一个交易都与一个唯一的标识符TID(Transaction ID)对应。关联规则是形如 X ⇒ Y {displaystyle XRightarrow Y} 的蕴涵式,其中 X , Y ⊆ I {displaystyle X,Ysubseteq I} 且 X ∩ Y = ∅ {displaystyle Xcap Y=emptyset } , X {displaystyle X} 和 Y {displaystyle Y} 分别称为关联规则的先导(antecedent或left-hand-side, LHS)和后继(consequent或right-hand-side, RHS) 。关联规则 X ⇒ Y {displaystyle XRightarrow Y} 在D中的支持度(support)是D中事务包含 X ∪ Y {displaystyle Xcup Y} 的百分比,即概率 P ( X ∪ Y ) {displaystyle P(Xcup Y)} ;置信度(confidence)是包含X的事务中同时包含Y的百分比,即条件概率 P ( Y | X ) {displaystyle Pleft(Y|Xright)} 。如果同时满足最小支持度阈值和最小置信度阈值,则认为关联规则是有趣的。这些阈值由用户或者专家设定。用一个简单的例子说明。表1是顾客购买记录的数据库D,包含6个事务。项集I={网球拍,网球,运动鞋,羽毛球}。考虑关联规则:网球拍 ⇒ {displaystyle Rightarrow } 网球,事务1,2,3,4,6包含网球拍,事务1,2,6同时包含网球拍和网球,支持度 s u p p o r t = 3 6 = 0.5 {displaystyle support={frac {3}{6}}=0.5} ,置信度 c o n f i d e n t = 3 5 = 0.6 {displaystyle confident={frac {3}{5}}=0.6} 。若给定最小支持度 α = 0.5 {displaystyle alpha =0.5} ,最小置信度 β = 0.6 {displaystyle beta =0.6} ,关联规则网球拍 ⇒ {displaystyle Rightarrow } 网球是有趣的,认为购买网球拍和购买网球之间存在强关联。关联规则有以下常见分类:根据关联规则所处理的值的类型根据关联规则所涉及的数据维数根据关联规则所涉及的抽象层次Apriori算法所使用的前置统计量包括:

相关

  • 粮食安全粮食安全指的是能够稳定地让所有人取得足够食物的状态。联合国政府间气候变化专业委员会曾于2014年3月31日在日本横滨召开会议时发表了一份报告,报告中指出:“气候变迁正冲击
  • 1918年流感大流行1918年流感大流行(英语:1918 flu pandemic)是于1918年1月至1920年12月间爆发的全球性甲型H1N1流感疫情,此次疫情造成全世界5亿人感染,5千万到1亿人死亡,传播范围达到太平洋群岛及
  • IFNG1EKU, 1FG9, 1FYH, 1HIG, 3BES· extracellular space· negative regulation of transcription from RNA polymerase II promoter · neutrophil apoptotic process · r
  • 关于化学品注册、评估、许可和限制法案《关于化学品注册、评估、许可和限制法案》(REACH,Registration, Evaluation, Authorization, and Restriction of Chemicals)是欧洲联盟关于进入欧盟市场的所有化学品强制要求
  • 吉雷松吉雷松(Giresun)是土耳其的城市,也是吉雷松省的首府,位于该国北部,距离特拉布宗175公里,面积317平方公里,海拔高度10米,受副热带湿润气候影响,每年平均降雨量1,269毫米,2010年人口96,9
  • 手性辅助剂手性助剂是一种为了控制立体化学的合成结果而暂时加入到有机合成反应中的化合物或单元。手性作为一个辅助剂可以偏置一或更多后续反应(subsequent reactions)的立体选择性。通
  • 比尔-朗伯定律比尔-朗伯定律(Beer–Lambert law),又称比尔定律或比耳定律(Beer's law)、朗伯-比尔定律、布格-朗伯-比尔定律(Bouguer–Lambert–Beer law),是光吸收的基本定律,适用于所有的电磁辐
  • 忒提斯忒提斯(希腊语:Θέτις)为古希腊神话中的海洋女神,是珀琉斯的妻子,阿基里斯的母亲。忒提斯是一名宁芙仙女但却嫁给一个凡人(珀琉斯),而生下了特洛伊战争的英雄阿基里斯。忒提斯做
  • 家用电脑家用电脑是个人电脑的一种,于1977年投入市场,并在1980年代日益普及。其市场定位为更加贴近消费者,同时比游戏机功能更强的个人电脑。这些电脑的售价一般要较当时的为商业、科学
  • 咖啡牛奶咖啡牛奶(Coffee milk)是一种混合咖啡糖浆及牛奶的饮料,以类似巧克力牛奶的制作方式调制而成,它也是美国罗德岛州的官方饮料。咖啡糖浆则是一种加糖后的咖啡浓缩液体,将咖啡渣透