特征选择

✍ dations ◷ 2025-08-02 08:21:06 #特征选择

在机器学习和统计学中,特征选择(英语:feature selection)也被称为变量选择、属性选择 或变量子集选择 。它是指:为了构建模型而选择相关特征(即属性、指标)子集的过程。使用特征选择技术有三个原因:

要使用特征选择技术的关键假设是:训练数据包含许多 或 的特征,因而移除这些特征并不会导致丢失信息。 或 特征是两个不同的概念。如果一个特征本身有用,但如果这个特征与另一个有用特征强相关,且那个特征也出现在数据中,那么这个特征可能是的。

特征选择技术与特征提取有所不同。特征提取是从原有特征的功能中创造新的特征,而特征选择则只返回原有特征中的子集。特征选择技术的常常用于许多特征但样本(即数据点)相对较少的领域。特征选择应用的典型用例包括:解析书面文本和微阵列数据,这些场景下特征成千上万,但样本只有几十到几百个。

特征选择算法可以被视为搜索技术和评价指标的结合。前者提供候选的新特征子集,后者为不同的特征子集打分。最简单的算法是测试每个特征子集,找到究竟哪个子集的错误率最低。这种算法需要穷举搜索空间,难以算完所有的特征集,只能涵盖很少一部分特征子集。选择何种评价指标很大程度上影响了算法。而且,通过选择不同的评价指标,可以把特征选择算法分为三类:包装类、过滤类和嵌入类方法

传统的统计学中,特征选择的最普遍的形式是逐步回归,这是一个包装类技术。它属于贪心算法,每一轮添加该轮最优的特征或者删除最差的特征。主要的调控因素是决定何时停止算法。在机器学习领域,这个时间点通常通过交叉验证找出。在统计学中,某些条件已经优化。因而会导致嵌套引发问题。此外,还有更健壮的方法,如分支和约束和分段线性网络。

相关

  • I88-I89急性风湿热(I00-I09)高血压病(I10-I15)缺血性心脏病(I20-I25)肺原性心脏病和肺循环疾病(I26-I28)其他类型的心脏病(I30-I52)脑血管病(I60-I69)动脉、小动脉和毛细血管疾病(I70-I79)静脉、
  • 开化五族文明化五部族(英语:Five Civilized Tribes),指美国原住民中的五个部族。分别是奇克索人、切罗基人、乔克托人、克里克人以及塞米诺尔人。有时为了避免暗指其他族群较“野蛮”,“
  • 乔治·华盛顿·卡弗乔治·华盛顿·卡弗(George Washington Carver,1864年7月12日-1943年1月5日)是美国教育家、农业化学家、植物学家,第一个进入爱荷华州立大学并取得农业硕士学位的黑人。大约1864
  • 伊芙·安洁儿伊芙·安洁儿(英语:Eve Angel,1983年5月19日-),是一名匈牙利色情演员及成人模特儿。其他的艺名有 Eva Shine、Marina Mendoza、Katie、Daphne 和 Severine。安洁儿出生于匈牙利布
  • 七面天女七面天女(しちめんてんにょ)是日莲宗系佛教的守护法华经的女神,也称七面大明神(しちめんだいみょうじん)。原本作为日莲宗总本山身延山久远寺的守护神受到信仰,日莲宗弘传后,作为法
  • 艾玛纽欧·奥尔提加 (歌手)艾玛纽欧·奥尔提加(Emanuel Ortega,1977年-)是一个阿根廷流行音乐歌手。 他父亲拉蒙·奥尔提加也是该国歌手,他首先加入“盗贼中的盗贼”乐团,接着再开始他的独唱生涯。他1993年
  • 帕特里克·维埃拉帕特里克·维埃拉(法语:Patrick Vieira,1976年6月23日-),法国前足球运动员,世界足坛最佳法国巨星之一。司职防守中场。曾执教法甲球队尼斯。维埃拉曾是世上最出色的中场球员之一,他
  • 曹天祐曹天祐(?-?),字有卿,江西饶州府浮梁县人,民籍,明朝政治人物。江西乡试第七十一名。嘉靖二十九年(1550年)庚戌科进士。官至云南按察使。曾祖曹邦仁;祖父曹璥,封知县;父曹煜,按察司佥事。嫡母李氏(封孺人);生母胡氏。
  • 泰拉 (人造卫星)泰拉 (Terra,EOS AM-1 ) 是一颗由美国国家航空航天局负责发射的科学研究人造卫星,它位于地球周围的太阳同步轨道上,它同时负责监测地球的大气、陆地和水。 泰拉这个名字来自于地球的拉丁语词汇(Terra)。该卫星于1999年12月18日从范登堡空军基地发射 ,发射时的火箭为擎天神2号运载火箭。卫星于2000年2月24日开始收集数据。
  • 昆卡昆卡(西班牙语:Cuenca)可以指: