特征选择

✍ dations ◷ 2025-02-27 05:55:48 #特征选择

在机器学习和统计学中,特征选择(英语:feature selection)也被称为变量选择、属性选择 或变量子集选择 。它是指:为了构建模型而选择相关特征(即属性、指标)子集的过程。使用特征选择技术有三个原因:

要使用特征选择技术的关键假设是:训练数据包含许多 或 的特征,因而移除这些特征并不会导致丢失信息。 或 特征是两个不同的概念。如果一个特征本身有用,但如果这个特征与另一个有用特征强相关,且那个特征也出现在数据中,那么这个特征可能是的。

特征选择技术与特征提取有所不同。特征提取是从原有特征的功能中创造新的特征,而特征选择则只返回原有特征中的子集。特征选择技术的常常用于许多特征但样本(即数据点)相对较少的领域。特征选择应用的典型用例包括:解析书面文本和微阵列数据,这些场景下特征成千上万,但样本只有几十到几百个。

特征选择算法可以被视为搜索技术和评价指标的结合。前者提供候选的新特征子集,后者为不同的特征子集打分。最简单的算法是测试每个特征子集,找到究竟哪个子集的错误率最低。这种算法需要穷举搜索空间,难以算完所有的特征集,只能涵盖很少一部分特征子集。选择何种评价指标很大程度上影响了算法。而且,通过选择不同的评价指标,可以把特征选择算法分为三类:包装类、过滤类和嵌入类方法

传统的统计学中,特征选择的最普遍的形式是逐步回归,这是一个包装类技术。它属于贪心算法,每一轮添加该轮最优的特征或者删除最差的特征。主要的调控因素是决定何时停止算法。在机器学习领域,这个时间点通常通过交叉验证找出。在统计学中,某些条件已经优化。因而会导致嵌套引发问题。此外,还有更健壮的方法,如分支和约束和分段线性网络。

相关

  • 顺势疗法下面是以同治同疗法的介绍,于中文顺势二字无太多相关性,建议移除此条目。 同质疗法、同种疗法(英语:Homeopathy i/ˌhoʊmiˈɒpəθi/)为一
  • 帕提亚帕提亚是伊朗东北部的一个地区,最著名为历史上安息帝国的文化及政治中心。地理上,为大呼罗珊的西部。约存在至前3世纪至3世纪之间。
  • 石化燃料化石燃料(Fossil Fuel),亦称矿石燃料,是一种碳氢化合物或其衍生物,包括煤炭、石油和天然气等天然资源。其中原油通过石油化学工业精炼生产得到的产品也称为石化燃料。化石燃料之
  • 小头畸形小头畸形(Microcephaly),又称小头症,是一种神经发育障碍(neurodevelopmental disorder),它指的是一个人的头围相对于其年龄与性别的平均值小三个标准差以上的状况。小头畸形可能是
  • 检讨重大灾害应变机制暨跟进改善委员会检讨重大灾害应变机制暨跟进改善委员会(葡萄牙语:Comissão para a Revisão do Mecanismo de Resposta a Grandes Catástrofes e o seu Acompanhamento e Aperfeiçoamento),
  • 倒角 (几何)在几何学中,倒角是一种将棱替换为维面的操作,也可以视为切棱(又称裁边或截边)操作的一种。对多面体进行倒角操作之后会使多面体中原有的棱转变成六边形面。在康威多面体表示法中
  • 伯里都市自治市贝里都市自治市(英语:Metropolitan Borough of Bury),为大曼彻斯特郡的一个都市自治市、单一管理区在英国英格兰的西北部。贝里都市自治市是由贝里等数个市镇与周边村庄组成。
  • 加拉帕戈斯化加拉帕戈斯化(日语:ガラパゴス化、Galapagosization)是日本的商业用语,指在孤立的环境(日本市场)下,独自进行“最适化”,而丧失和区域外的互换性,面对来自外部(外国)适应性(汎用性)和生存
  • 梭罗河梭罗河(印尼语:Bengawan Solo)是印尼爪哇岛上最大的河流,在东部,全长约540公里。梭罗河是爪哇岛东部与北部的重要河流,其流域同时也是古人类学史上的著名地区;曾经在上游附近多处发
  • 郭家溍郭家溍(2000年3月26日-)是新加坡职业足球运动员,司职前锋,目前效力于新加坡足球超级联赛球队幼狮及新加坡国家足球队。郭家溍曾经是内政联U14的队长,后来加盟新加坡全国足球学院的U15梯队,在2015年郭家溍获得了多拉卡欣新秀奖的提名。2021赛季郭家溍加盟新加坡足球超级联赛球队幼狮。郭家溍在2021年4月17日幼狮对阵后港联的比赛中替补出场上演首秀,在出场三分钟后,他就打进了他职业生涯的处子球。。在2021赛季他获得10次上场机会,其中3次首发。郭家溍曾经是新加坡U15国家队成员。郭家溍在2022年