首页 >
异常检测
✍ dations ◷ 2024-12-22 18:09:33 #异常检测
在数据挖掘中,异常检测(英语:anomaly detection)对不符合预期模式或数据集(英语:dataset)中其他项目的项目、事件或观测值的识别。 通常异常项目会转变成银行欺诈(英语:bank fraud)、结构缺陷、医疗问题、文本错误等类型的问题。异常也被称为离群值、新奇、噪声、偏差和例外。特别是在检测滥用与网络入侵时,有趣性对象往往不是罕见对象,但却是超出预料的突发活动。这种模式不遵循通常统计定义中把异常点看作是罕见对象,于是许多异常检测方法(特别是无监督的方法)将对此类数据失效,除非进行了合适的聚集。相反,聚类分析算法可能可以检测出这些模式形成的微聚类。有三大类异常检测方法。 在假设数据集中大多数实例都是正常的前提下,无监督异常检测方法能通过寻找与其他数据最不匹配的实例来检测出未标记测试数据的异常。监督式异常检测方法需要一个已经被标记“正常”与“异常”的数据集,并涉及到训练分类器(与许多其他的统计分类问题的关键区别是异常检测的内在不均衡性)。半监督式异常检测方法根据一个给定的正常训练数据集创建一个表示正常行为的模型,然后检测由学习模型生成的测试实例的可能性。异常检测技术用于各种领域,如入侵检测、欺诈检测、故障检测、系统健康监测、传感器网络事件检测和生态系统干扰检测等。它通常用于在预处理中删除从数据集的异常数据。在监督式学习中,去除异常数据的数据集往往会在统计上显著提升准确性。文献中提出了几种异常检测方法。一些热门方法有:不同方法的性能在很大程度上取决于数据集和参数,比较许多数据集和参数时,各种方法与其他方法相比的系统优势不大。多萝西·丹宁(英语:Dorothy E. Denning)教授在1986年提出了入侵检测系统(IDS)的异常检测方法。入侵检测系统的异常检测通常是通过阈值和统计完成的,但也可以用软计算和归纳学习。 在1999年提出的统计类型包括检测用户、工作站、网络、远程主机与用户组的配置文件,以及基于频率、均值、方差、协方差和标准差的程序。 在入侵检测系统中,与异常检测模式相对应的还有误用检测(英语:misuse detection)模式。
相关
- 合体合体为一种汉字字体的结构,与独体概念相对。合体字其形体结构可拆解分析其读音或字义。六书中会意、形声多属此类。因而最早独体字称作文,衹有合体字才称为字,今日已不区分,统称
- 旅游地理学旅游地理学是研究人类旅行游览与地理环境关系的一门学科。旅游地理学不仅同地理学的许多分支学科的关系密切,而且与多门学科彼此渗透。如:社会学、民俗学、考古学、历史学、建
- 议会制议会制又称内阁制、议会民主制(英语:Parliamentary system),是一种政治制度,特点是“议会无上”,政府首脑(总理或首相)权力来自议会,授权有两种途径:第一是议会改选后的多数议席支持,第
- HNsub3/sub叠氮酸,分子式HN3,在常温常压下为一种无色、具挥发性、有刺激臭、高爆炸性的液体。叠氮酸主要用于保存贮存溶液(stock solution),以及作为一种试剂。叠氮酸在1890年首先由Theodor
- 密苏里植物园密苏里植物园(Missouri Botanical Garden)是一座位于美国密苏里州圣路易市的植物园,由美国慈善家亨利·萧所成立,因此有萧氏花园(Shaw's Garden)的别称。它是植物标本馆, 拥有超过
- 十法界十界(梵语:दस धातवः,转写:dasa-dhātavaḥ),又名十法界或十界为果,佛教术语,将众生分为十种界。分别是指:佛界、菩萨界、缘觉界、声闻界、天界、人界、阿修罗界、畜牲界、饿鬼
- 公共工程公共工程 是一个广泛类别的 基础设施 项目。通常是由政府 资助和建成的,用于社区 及其周边地区的娱乐、就业和健康和安全。 它们包括公共建筑(市政建筑物, 学校, 医院), 运输
- 内布拉斯加大学林肯分校内布拉斯加大学林肯分校(University of Nebraska–Lincoln,简称UNL、NU,又译内布拉斯加-林肯大学)于1869年根据《土地拨赠法案》创建。是内布拉斯加大学的最主要成员及最早的分
- 口腔期口腔期又称口欲期,是心理学名词,用来描述孩童成长过程中的一个时期。为佛洛伊德所提出的性心理发展中的第一个阶段。这个阶段约发生在在婴儿出生后0到12个月,在此期间,婴儿专注
- 虹吸式咖啡壶虹吸式咖啡壶,也称赛风壶(音译自siphon或syphon),它最早起源于德国。其借由加热下壶气体,增加压力,虹吸将水推至上壶萃取咖啡。虹吸壶在日本与台湾是很流行的咖啡冲调方法,但是手冲