关系规则学习

✍ dations ◷ 2025-05-16 23:14:21 #关系规则学习
关联规则学习(英语:Association rule learning)是一种在大型数据库中发现变量之间的有趣性关系的方法。它的目的是利用一些有趣性的量度来识别数据库中发现的强规则。 基于强规则的概念,Rakesh Agrawal等人引入了关联规则以发现由超市的POS系统记录的大批交易数据中产品之间的规律性。例如,从销售数据中发现的规则 {洋葱, 土豆}→{汉堡} 会表明如果顾客一起买洋葱和土豆,他们也有可能买汉堡的肉。此类信息可以作为做出促销定价或产品植入等营销活动决定的根据。除了上面购物篮分析(英语:market basket analysis)中的例子以外, 关联规则如今还被用在许多应用领域中,包括网络用法挖掘(英语:Web usage mining)、入侵检测、连续生产(英语:Continuous production)及生物信息学中。与序列挖掘(英语:sequence mining)相比,关联规则学习通常不考虑在事务中、或事务间的项目的顺序。根据韩家炜等,关联规则定义为:假设 I = { I 1 , I 2 , … , I m } {displaystyle I={I_{1},I_{2},ldots ,I_{m}}} 是项的集合。给定一个交易数据库 D = { t 1 , t 2 , … , t n } {displaystyle D={t_{1},t_{2},ldots ,t_{n}}} ,其中每个事务(Transaction)t是I的非空子集,即 t ⊆ I {displaystyle tsubseteq I} ,每一个交易都与一个唯一的标识符TID(Transaction ID)对应。关联规则是形如 X ⇒ Y {displaystyle XRightarrow Y} 的蕴涵式,其中 X , Y ⊆ I {displaystyle X,Ysubseteq I} 且 X ∩ Y = ∅ {displaystyle Xcap Y=emptyset } , X {displaystyle X} 和 Y {displaystyle Y} 分别称为关联规则的先导(antecedent或left-hand-side, LHS)和后继(consequent或right-hand-side, RHS) 。关联规则 X ⇒ Y {displaystyle XRightarrow Y} 在D中的支持度(support)是D中事务包含 X ∪ Y {displaystyle Xcup Y} 的百分比,即概率 P ( X ∪ Y ) {displaystyle P(Xcup Y)} ;置信度(confidence)是包含X的事务中同时包含Y的百分比,即条件概率 P ( Y | X ) {displaystyle Pleft(Y|Xright)} 。如果同时满足最小支持度阈值和最小置信度阈值,则认为关联规则是有趣的。这些阈值由用户或者专家设定。用一个简单的例子说明。表1是顾客购买记录的数据库D,包含6个事务。项集I={网球拍,网球,运动鞋,羽毛球}。考虑关联规则:网球拍 ⇒ {displaystyle Rightarrow } 网球,事务1,2,3,4,6包含网球拍,事务1,2,6同时包含网球拍和网球,支持度 s u p p o r t = 3 6 = 0.5 {displaystyle support={frac {3}{6}}=0.5} ,置信度 c o n f i d e n t = 3 5 = 0.6 {displaystyle confident={frac {3}{5}}=0.6} 。若给定最小支持度 α = 0.5 {displaystyle alpha =0.5} ,最小置信度 β = 0.6 {displaystyle beta =0.6} ,关联规则网球拍 ⇒ {displaystyle Rightarrow } 网球是有趣的,认为购买网球拍和购买网球之间存在强关联。关联规则有以下常见分类:根据关联规则所处理的值的类型根据关联规则所涉及的数据维数根据关联规则所涉及的抽象层次Apriori算法所使用的前置统计量包括:

相关

  • 排版在固定版面内,排版摆置各种不同类型的数据,如数字、文字、表格、图形和影像等等,以最合适的方法呈现。印刷品中的版面安排,网页文案的编排,若要引人注意和阅读上的舒适,皆应留意排
  • 郝华德·洛斯克郝华德洛斯克,(Howard A. Rusk,1901年4月9日-1989年11月4日),国际公认的现代复健医学之父。洛斯克医师1923年毕业于密苏里大学,1925年毕业于宾州大学医学院。
  • 舒张压血压是指血管内的血液在单位面积上的侧压力,即压强。习惯以毫米汞柱(mmHg)为单位。而动脉血压则指的是血液对动脉血管的压力,一般指主动脉压。而平均血压则是 = (收缩压+ 2 x 舒
  • 芸萃分析统计学上来说,元分析(meta-analysis,或译作后设分析、整合分析、综合分析、统合分析、荟萃分析)是指将多个研究结果整合在一起的统计方法。就用途而言,它是文献回顾的新方法。文
  • 意式面食意式面食(意大利语:Pasta),泛指所有源自意大利的面食。在意大利,一般会用“Pasta”来称呼各种由面粉及水、有时或会加入鸡蛋。狭义的意式面体是由杜林面粉所制,广义则可包括由其他
  • 法布尔让-亨利·卡西米尔·法布尔(法语:Jean-Henri Casimir Fabre,1823年12月22日-1915年10月11日),法国博物学家、昆虫学家、科普作家,以《昆虫学回忆录》(Souvenirs entomologiques,或译
  • 鱼眼镜头鱼眼镜头指视角接近或等于180°的镜头,视角为众多镜头之冠。这类镜头一般焦距极短,在135底片格式下,16毫米或焦距更短的镜头通常即可认为是鱼眼镜头,绝大部分的鱼眼镜头均是定焦
  • 俄罗斯最高苏维埃俄罗斯最高苏维埃,在1938年—1991年称为俄罗斯苏维埃联邦社会主义共和国最高苏维埃(俄语:Верховный Совет РСФСР),1991年至1993年称俄罗斯联邦最高苏维埃(俄语
  • 多效性基因多效性(pleiotropy)一个基因可以影响与其无关的性状特征的现象,简单地说就是可以由一个基因影响多个蛋白质的表达。一个基因基本上控制一个性状,若一个基因的突变可使多种性
  • 速溶咖啡速溶咖啡是一种由咖啡豆制造的冲泡饮品。速溶咖啡在1890年由新西兰人 David Strang所发明并登记专利,1901年由一个在美国芝加哥工作的日本科学家加藤サトリ做改良。乔治·华