离群点检测方法_异常检测最新综述 上篇
异常检测最新的综述文,全文较长,一些没啥用的介绍之类的就不看了,直接截图出来好了。I. 介绍由于异常检测在数据挖掘中的广泛应用,因此仍然是数据挖掘中必不可少且广泛的研究分支。通过识别异常值,研究人员可以获得重要的知识,有助于做出更好的数据决策。同样,在异常检测[1],[2],网络安全检测[3]和健康诊断[4]、网络入侵等广泛的应用中,检测离群值可转化为重要的可操作信息,尽管异常的概念在提供清晰的定
异常检测最新的综述文,
全文较长,一些没啥用的介绍之类的就不看了,直接截图出来好了。

I. 介绍
由于异常检测在数据挖掘中的广泛应用,因此仍然是数据挖掘中必不可少且广泛的研究分支。通过识别异常值,研究人员可以获得重要的知识,有助于做出更好的数据决策。同样,在异常检测[1],[2],网络安全检测[3]和健康诊断[4]、网络入侵等广泛的应用中,检测离群值可转化为重要的可操作信息,尽管异常的概念在提供清晰的定义方面存在歧义,但离群值(outliers)通常被认为是与其他数据点明显不同或不符合整体的代表的现象的预期正常模式的数据点。离群值检测技术致力于解决发现不符合预期行为的模式的问题,因此需要我们考虑要定义的通常行为和正常区域的情况。由于以下原因,这种情况可能会很复杂(异常检测问题中存在的难点):
1、异常行为和正常行为之间的边界的模糊;
2、当前的正常行为在未来不一定是正常行为,当前的异常行为在未来不一定是异常行为,即数据的变化是非常快的;
3、不同的应用方向和相互矛盾的概念使得很难将一个领域中应用的异常检测技术应用于另一领域,这也是为什么目前不同领域的欺诈检测,例如互联网内容反欺诈、广告反欺诈、准入反欺诈之间遵循的技术体系差异较大的主要原因;
4、异常值和噪声,有时候很难区分。
尽管离群值检测面临一些挑战,但目前已提出了几种离群值检测技术,这些技术使用不同的方法和算法来解决这些问题[5]。一些常见的困难 与输入数据的性质,离群值类型,数据标签,准确性以及就CPU时间和内存消耗而言的计算复杂性有关[6] – [9]。研究人员不断寻找更好的解决方案来应对这些挑战,以及与有效检测分布式数据流[10],RFID阅读流[11],大型多维数据[12],[13],无线传感器网络[14],有效轨迹[15]以及数据质量和清理[16]。
例如,考虑大型高维数据中存在的挑战,其中,无论数据相对较大还是非常大,数据始终包含一些异常值。在大多数情况下,随着数据数量的大小的增加,离群值的数量也会增加[17]。因此,对于大量数据,设计可伸缩的离群值检测技术以处理大型数据集至关重要。
随着数据大小的增加,这会成比例地影响计算成本,从而使处理过程缓慢且昂贵。
由于异常检测在各个领域都具有固有的重要性,因此在异常检测(OD)方法的调查中已进行了大量研究工作[22]-[34]。尽管存在越来越多的异常检测方面的评论,但它仍然是研究领域中一个无所不包的话题。仍然有新提出的方法和要解决的基本问题。因此,本文在使研究人员了解异常检测技术的最新进展方面起着至关重要的作用。据我们所知,迄今为止进行的大多数调查仅针对特定领域,而不是提供最新研究的深入报道和见解,如表1所示。

例如,仅[25]中的评论专注于数据流,[27]专注于高维数值数据,[23],[33]专注于动态网络,最新关注于深度学习[32]。最全面的方法[28],[33],[41]尽管包含很多见解,但并未回顾大多数主要的最新技术方法,而大多数方法至少在五年前就已发表。
近年来,进行了更多的当代研究,尤其是在深度学习[35],[36]和集成技术[37],[38]领域。因此,更多的这些近期研究和发现需要回顾。我们的调查对最突出的最新异常值检测方法进行了全面回顾,包括常规和新出现的挑战。这项调查与其他调查有所不同,因为它捕获并提出了有关最新文献的更全面的综述,并对异常检测领域中的现有研究进行了合并和补充。此外,我们进行了广泛的研究以提出重要类别的异常值检测方法,并严格讨论和评估它们。我们进一步讨论了常用的评估标准以及离群值检测技术的工具和可用的公共数据库。我们相信,这项调查将使研究人员和从业人员受益匪浅,因为它将全面了解各种优缺点,未解决的挑战以及与最新的异常值检测方法相关的差距。这将使他们对将来需要重点关注的问题有更好的了解。总而言之,该论文的新颖而重要的贡献是:
1、我们介绍了不同的最新异常值定义,不同的种类,原因,当代的检测和处理过程以及最新的挑战和应用领域。与其它的survey文不同,我们添加了需要更多关注的新应用领域;
2、我们对离群值检测算法的类别进行了扩展,并在以前的调查中采用了其他不同的方法。我们介绍最先进的算法,并通过突出它们的优缺点来讨论它们。我们主要引用并讨论在大多数重要调查之后所做的近期研究[26],[33];
3、与以往的调查相比,我们通过介绍近期方法的优缺点,未解决的挑战和不足,大大扩展了针对每个不同类别的讨论。我们还提供了一些最新算法的性能,已解决的问题,缺点和可能的解决方案的摘要;
4、我们提出了一些在评估异常值检测算法方面的当代开放性挑战。然后,我们介绍标准工具以及通常用于异常值检测研究中的一些基准数据集。我们通过讨论OD工具的选择来扩展我们的讨论,选择合适的数据集面临的挑战;
5、我们确定了一些新的挑战,最后为未来的研究提出一些可能的研究方向。
本文的组织结构如下:在第2节中,我们通过提供离群值检测的综合背景开始我们的研究。这是通过对它们最重要的概述功能和基础的详细说明来完成的:定义,特征,原因和应用领域。在第3节中,我们将异常值检测方法(OD)正式分类为不同的区域,然后简要讨论了这些技术。我们将这些方法的性能,所解决的问题和缺点与未解决的研究问题和未来工作的挑战结合在一起。第4节讨论离群值检测中的一些评估约束,用于OD的基本工具以及对基准数据集的一些分析。在第5节中,我们总结了本文,并对未来的工作提出了一些开放的挑战和建议。
二、背景
在本节中,我们介绍离群值的常用定义,讨论离群值的原因,有关如何识别和检测离群值的新技术,以及检测到离群值时的处理方法。最后,我们介绍了异常值检测的一些新应用领域,并为在这些应用领域中的进一步研究提供了更多参考。
outliers定义
自离群值检测研究开始以来,对离群值有很多定义。 2017年,Ayadi等人。 [14]从不同作者的角度给出了离群值的十二种不同解释。这证明了提供离群值的准确定义是多么复杂。尽管在定义异常值时存在模糊性和复杂性,但通常可以将其描述为与其他数据点明显不同的数据点,或者不同于其他点的预期典型行为的存在异常行为的点[5],下面用一个简单的二维数据集例子用来描述异常状态以进行说明,如下图所示:

数据包含两个部分S1和S2。 P1,P3,P4和具有很少数据点P2与两个大型聚类区域距离很远。因此,按照上面的定义,它们不符合数据的正常行为并且是不同的。因此,它们被称为离群值。(补充:欺诈检测和异常检测存在的最大的不同在于,欺诈样本不一定是异常样本,异常样本不一定是欺诈样本,以上图为例,欺诈样本可能存在于s2和s3中,此时我们面临的问题在于当前拥有的样本的特征对于欺诈用户的区分完全没有帮助,那么在这种条件下,无论使用什么技术都是无法判定出欺诈用户的,算法建立在数据上,更加准确来说,建立在数据的特征上;对于后者来说,仍旧是以上图为例,即使我们通过异常检测技术得到了p1~p4的异常点,这些异常点被挖掘出来的背后的逻辑(例如稀疏性,和聚类簇的远距离等),可能和欺诈没有任何关系)
一、异常产生的原因,识别过程和处理过程:
1)引起异常的原因以及如何识别外界的原因
有很多不同的问题促使出现异常值。异常值的一些最常见原因是由于机械故障,系统行为的更改,欺诈行为,恶意活动,人为错误,仪器错误,设置错误,采样错误,数据输入错误和环境变化造成的。例如,数据错误造成的异常值通常是人为错误造成的,例如在数据收集条目和记录中存在的人为错误。
确定存在异常值的下一个问题是如何识别和处理异常值。许多研究人员试图回答如何检测异常值的问题。同样重要的问题是需要考虑的必要功能和进行测试以识别异常值。即使对这一研究领域的兴趣日益浓厚,人们仍在进行不断的研究以找到这些问题的正确答案。
研究人员继续提出新颖和创新的想法来回答它们[28],[29]。多年来,离群值识别的过程在机器学习和数据挖掘中具有许多名称,例如离群值挖掘,新颖性检测,离群值建模,异常检测等。在检测和消除离群值的过程中,务必要小心。消除正确数据中的异常值可能会导致重要的隐藏信息丢失。在寻找异常值的过程中,了解需要考虑的特征数量(单变量或多变量情况)也至关重要。同样,对于基于统计的方法方案,所选特征是否可以假设参数或非参数情况下的值分布。
目前已经设计了许多技术来识别异常值,在第3节中,我们将介绍并进一步讨论最近提出的用于异常值检测的不同方法。在本文中,我们将这些异常值识别方法分为以下几种:
1、基于统计的方法
标记或识别异常值的基于统计技术的基本思想取决于与分布模型的关系。这些方法通常分为两大类-参数方法和非参数方法;
2、基于距离的方法
基于距离的检测算法的基本原理集中于观测值之间的距离计算。一个点被视为离其附近的邻居较远的离群值。
3、基于密度的方法
这些方法的核心原理是可以在低密度区域中找到离群值,而正常值则位于密集区域中。
4、基于聚类的方法
基于聚类的技术的关键思想是应用标准聚类技术从给定数据中检测离群值。离群值被视为不在任何大型或密集集群内或附近的观测值;
5、基于图的方法
基于图的方法基于图技术的使用,以有效地捕获互相连接的节点的相互依赖性以识别异常值。
6、基于集成的方法
集成方法的重点是将异类模型的结果组合起来以生成更健壮的模型以有效检测异常值的想法。它们有助于解决我们不知都离群值应该是基于线性模型,基于距离还是另一种基于模型的问题(反正都用就行了)。
7、基于复杂模型学习的方法
基于学习的方法(例如主动学习和深度学习)的基本思想是通过应用这些学习方法来检测异常值,从而学习不同的模型;
二、异常检测的应用领域
异常检测的兴趣日益浓厚,在广泛的领域中具有多个应用领域。应用离群值检测的应用领域是如此之多,由于空间限制,不可能仅在一次调查中彻底覆盖。因此,在本文中,我们列出并介绍了现有和最近的应用领域。我们将向读者介绍以前的一些调查,这些调查详尽地涵盖了使用OD方法的许多应用领域。
Chandola等[20]提供了异常检测应用领域的广泛概述和深入知识。此外,调查[5]还提供了详尽的清单,并对采用异常检测的应用程序进行了讨论。现有的一些应用领域包括信用卡欺诈检测[53],[54],入侵检测[55],工业机器行为模式的缺陷检测[56],传感器网络[14],在时序数据中发现异常模式[ 57],[58],轨迹[19],[59],电子商务[60],能耗[62],数据质量和清理[16],[45],文本离群值[61],大数据分析[12],[63],社交媒体[64],[65]等。最近,在这些应用领域中检测异常值已变得至关重要。我们仅作简短介绍,仅考虑几个感兴趣的新应用领域:
1)数据日志和过程日志
在处理日志时,需要一些自动化的数据挖掘技术来搜索大量日志中的异常模式[66]。这些日志为异常检测监视提供了很好的信息来源。
2)欺诈检测和入侵检测
在欺诈检测中,如果卡被盗,则卡用户的购买行为通常会发生变化;我们会注意到异常的购买模式。这同样适用于计算机网络中的未经授权的访问,这会导致异常模式[55]。检测这些异常(异常)模式对于安全性至关重要;
3)安全与监控
考虑网络安全领域的安全和监视。当我们考虑计算机网络时,确保安全日志记录和日志管理的过程非常重要,因为它们提高了可靠性和安全性。在监视视频中检测异常值是一个实用而令人兴奋的研究领域[239]。
4)假新闻和信息,社交网络
近年来,社交媒体为人们提供了一个不断传播假新闻的平台。有时,很难区分真实新闻与虚假新闻。然而,从可靠的来源来看,虚假新闻报道可以被视为离群值,因为它们脱颖而出[237]。虚假新闻的传播对整个人类和整个社会都具有负面影响,因此识别虚假新闻也至关重要。
5)保健分析与医学诊断
在医疗保健系统和医疗应用中,我们通常会从这些设备上获得异常图案或读数,这通常表明已诊断出疾病状况。对异常模式的检测和理解有助于正确诊断疾病及其潜在后果。它允许医生采取适当的措施。
6)交易数据源
金融交易的审核日志包含有关数据库操作的信息。审核日志有助于验证准确性,合法性并报告风险。持续监控审计日志以识别和报告异常行为至关重要[67]。
7)传感器网络和数据库
在无线传感器环境[68],[69],目标跟踪环境[70]和人体传感器网络[71]等传感器环境中检测异常值,有助于确保质量的网络路由并提供传感器的准确结果。它有助于监视计算机网络性能,例如,检测网络瓶颈。
8)数据质量和数据清洁
来自不同应用领域的数据可能包含并产生测量误差和脏数据。因此,异常值检测[16],[45]的过程可以提高数据质量和清除率。清理和校正数据的方法对于训练高质量模型以及快速计算和预测准确结果至关重要。
9)时间序列监控和数据流
检测时序数据[31],[57]中的异常值以及检测数据流中的异常模式[10],[25],[72]-[74]是必不可少的。这是因为异常模式将影响正确结果的快速计算和估计。
10)物联网(物联网)
物联网设备由许多不断感知环境参数的传感器组成。根据所需的任务,成功融合了这些传感器以获取有关特定区域或区域的信息。在执行此任务之前,必须检查数据的质量,因为数据可能会被异常值污染。重要的是识别或检测这些异常值,以免限制整体效率
三,异常检测方法
离群值检测方法已分为不同的技术,例如基于统计的方法,基于距离的方法,基于图形的方法,基于几何的方法,基于深度的方法,定性分析方法,基于模型的方法和基于密度的方法调查范围[23],[24]。在本文中,我们将离群值检测技术分为六个大类-基于统计的,基于距离的,基于密度的,基于聚类的,基于集成的和基于学习的技术。我们给出一个简要概述了以下类别中的不同方法和研究进展。此外,我们还介绍了各种方法的优缺点,挑战以及未来可能的研究方向。在某些方法中,我们以表格格式(表2-5)提供了各种方法性能和所解决问题的简明摘要。
A.基于密度的方法
将基于密度的方法应用于离群值检测是解决离群值检测问题的最早已知方法之一。基于密度的离群值检测方法的核心原理是可以在低密度区域中找到离群值,而假定非离群值出现在密集邻域中,将样本点的密度与样本点的邻居的密度进行比较。与基于距离的方法相比,在基于密度的离群值检测方法中,采用了更为复杂的机制对离群值进行建模。尽管如此,基于密度的方法的简单性和有效性已使其广泛用于检测异常值。使用这种方法设计的某些算法已成为许多新算法[76]-[78]的基准算法[8],[75]。 Breunig等。 [8]提出了局部离群值因子(LOF)方法,这是第一个基本的基于松散相关的基于密度的聚类离群值检测方法。该技术利用了k最近邻。在每个点的KNN集中,LOF使用局部可达性密度(lrd)并将其与该KNN集中的每个参与者的邻居的密度进行比较。对象p的局部可及性密度(降低可变性的密度估计);
LOF的原理后续在专栏中佛系更新:
在后来的一项研究中,唐等人介绍了对LOF[8]的改进和简化LOF[79]。 [80],他们称之为基于连接的离群因子(COF)。
COF的原理后续在专栏中佛系更新:
令人困惑的是,在lof中,哪些阈值分数可以被认为是一个离群点。 Kriegel等人。 [81],然后制定了一个更稳健的算法 一种称为局部离群概率(LOOP)的IER检测方法,它结合了提供离群点“分数”的思想和一种面向概率和统计的方法。
LOOP的原理后续在专栏中佛系更新:
在LOF[8]和COF[80]中,这些方法不能正确地处理多粒度问题。 Papadimitriou等人。 [82]提出了一种具有LOcal相关积分的技术,称为LOCI 以及它的离群点度量-多粒度偏差因子(MDEF),来处理这个缺点;
LOCI的原理后续在专栏中佛系更新:
Ren等人提出了另一种与现有方法LOF [8]和LOCI [82]相比较的技术,该技术由于对簇中较深的数据点具有修剪能力而可以更有效地执行。 [83]。 随着数据大小的增加,它显示出更好的可伸缩性。 他们提出了一种称为相对密度因子(RDF)方法的方法,该方法使用垂直数据模型(P-tree)进行检测离群值。 RDF是离群值的度量程度,离群点是具有高RDF值的点。 点p的RDF是点p的邻域密度因子除以其密度因子的比率
RDF的原理后续在专栏中佛系更新:
Jin等。 [75]提出了INFLuenced离群值(INFLO),这是另一种与LOF相似的局部离群值检测技术,它使用对称邻域关系来挖掘离群值。在LOF中,对于具有紧密相关的不同密度群集的数据集,未正确计算实例在群集边界处的得分。INFLO解决了这一缺点。它解决了LOF中空间表示不正确的问题。 INFLO对参考集和上下文集使用邻域的不同描述。 INFLO得分是同时使用k个最近邻居和反向最近邻居来计算的。为了增强对邻域密度分布的估计,同时考虑了数据点的最近邻(NN)和反向最近邻(RNN)。 INFLO被定义为“ ISk(p)中物体的平均密度与p0s局部密度的比率”:
INFLO的原理后续在专栏中更新:
在引入LOF [8]之后,已经建立了LOF的几种变体,例如COF [80],INFLO [75]和LOCI [82]。但是,这些算法面临着高维数据集的距离计算的挑战。凯勒等。 [85]提出了一种高对比度子空间方法(HiCS),以改进离群值紧密相关的离群值的评估和排名。 Campello等人将关注点扩展到不仅限于局部异常值,还包括全局异常值。 [86]提出了一种新的有效的离群值检测度量算法,称为“全局-局部离群值来自层次结构”(GLOSH)。它能够基于完整的统计解释同时检测全局和局部离群值类型。通常,即使GLOSH结果在所有情况下均不能比其他技术更好,但它仍然具有很好的扩展能力来完成不同任务。由于该研究是基于特定的k最近邻密度估计,因此它有一些局限性。未来的研究可能是调查其他密度估计如何改善这项工作。Momtaz等。 [87],在计算局部离群值时,偏离了大多数以前算法的中心焦点。他们引入了一种新颖的基于密度的离群值检测技术,该技术通过为每个对象提供一个称为动态窗口离群值因子(DWOF)的分数来检测排名靠前的离群值。该算法是Fan等人的改进和改进版本。 [88]-基于分辨率的离群因子(ROF)算法。 ROF克服了一些挫折,例如准确性低以及对数据集参数的高敏感性。随着大量高维数据的流动,新的研究动机与提高算法在检测大数据中异常值方面的有效性和效率相关联。 Wu等。 [89]提出了一种在大数据流中检测离群值的算法。他们使用称为RS-Forest的快速准确的密度估算器和半监督的one class classification机器学习算法。 Bai等。 [77]考虑了大数据中基于密度的离群值检测,并提出了一种分布式LOF计算(DLC)方法,该方法可以并行检测离群值。这里的主要思想是双重的。最初,预处理阶段对异常值检测阶段使用基于网格的分区(GBP)算法和DLC。但是,尽管性能有所提高,但与Lozano等人相比,它仍无法很好地扩展。 [90]-并行LOF算法(PLOFA)。改进算法的可扩展性可能是一个有趣的研究方向。
Tang和He [78]提出了一种使用局部KDE的离群值检测方法。为了测量局部离群值,使用了基于相对密度的离群值(RDOS)。在这里,使用扩展了对象最近邻居的局部KDE方法来估计对象位置处的密度分布。他们更加注重反向和共享最近邻,而不是对象的k最近邻,以进行密度分布估计。在他们的方法中,仅应用了欧几里德距离度量,类似于[84]中的UDLO。随着对未来研究的相关扩展,需要涉及其他距离方法以研究其效果,并扩展其在实际应用中的工作。
Vázquez等。 [91]提出了一种基于稀疏数据的稀疏数据观测器(SDO)来检测离群值的新算法。 SDO降低了大多数懒惰学习者OD算法所经历的二次复杂度。它是一个快速的学习器,并大大降低了计算成本,与其他排名最佳的异常值检测算法相比,它的表现出色。
宁等。 [92]提出了一种基于相对密度的OD方法,该方法使用一种新技术来测量物体的邻域密度。 [93]提出了一种有效的基于密度的方案,该方案基于局部OD方法用于分散数据,称为E2DLOS。他们利用对象分布和邻居分布的全部好处来重命名局部离群因子,并将其称为局部偏离系数(LDC)。然后,他们提出了一种安全的非异常对象删除方法,以对数据集进行预处理,以删除所有非异常对象。此过程称为基于多级查询(RCMLQ)的粗略群集。这有助于减少需要为局部离群因子计算的数据量。该方法基于LDC和RCMLQ,并通过实验对现有的局部离群值检测方法进行了改进,提高了检测精度和时间效率。
我们在表2中提供了一个摘要,显示了针对上述某些关键算法使用此技术的进展。在我们的概述中,有必要注意的是,当我们说这种方法优于另一种方法时,并不一定意味着它在所有场景和数据集中都优于另一种方法。如作者报告的那样,此处提供的分析和总结是基于这些论文中进行的实验。尽管一种方法可能胜过另一种方法,但这可能是针对一组参数,实验中使用的场景或假设的。我们不能声称一种方法在所有情况下都优于另一种方法,因为我们没有在相同的参数设置和环境下进行实验。对于本文下面的所有表(表2-5)都是如此。


1)基于密度的方法-优点,缺点,挑战和差距
a:优点
在基于密度的方法中,使用的密度估计是非参数的;他们不依赖假定的分布来拟合数据。一些基于密度的技术[8],[75],[81],[82]已作为许多后续算法的基本基准。实验证明,它们适用于现代方法,通常优于某些现有的基于统计和基于距离的方法[39],[94],[95]。由于这些方法中的异常值通常是通过对象的邻域密度[8],[82]进行分析的,因此,这在识别大多数其他基于异常值检测的方法所遗漏的关键异常值方面具有更大的优势。这些方法有助于有效地排除一些密集邻居附近的异常值。他们只需要最少的先验知识(例如概率分布)和单个参数调整。他们还以有效计算局部离群值的能力而闻名。
b:缺点,挑战和差距
即使显示出某些基于密度的方法具有改进的性能,但与大多数情况下的统计方法相比,它们更复杂且计算量更大[96]。它们对参数设置很敏感,例如确定邻居的大小。他们需要谨慎考虑几个因素,因此导致昂贵的计算。对于变化的密度区域,它变得更加复杂并导致较差的性能。基于密度的方法由于其固有的复杂性和缺乏更新的异常值度量,因此其中某些算法(例如INFLO和MDEF)无法有效地处理数据流。此外,对于数据流方案中的异常检测而言,它们可能不是一个好的选择。当离群值彼此紧密相关时,对于高维数据也具有挑战性。
为了进一步讨论,在表2中,我们概述了随机挑选的(由于空间限制)众所周知的基于密度的离群值检测算法。我们介绍了标准算法的性能,已解决的问题和缺点,并展示了这些算法的发展过程。在最流行的基于密度的方法之一LOF [8]中,需要特别注意的是,在离群值检测过程中,局部离群值并不重要,该算法会产生许多错误警报。通常,由于基于密度的方法是非参数的,因此对于高维数据空间,样本大小被认为太小[27]。可以进行其他重新采样以构造新样本集合来增强性能。
我们还注意到,由于大多数基于密度的方法都依赖于最近邻计算,因此k的选择对于评估这些算法非常重要。通常,在最近邻居离群点检测算法中找到最近邻居,计算成本约为O(n2)。罕见的情况是在LOCI中,其中半径r扩展了,因此将其复杂度求和为O(n3)。这对于大量的数据集来说非常慢。改进的版本是aLOCI,它显示了更快的运行时间,具体取决于所使用的四叉树的数量。Goldstein等。 [97]将COF和LOF进行了比较,发现LOF对于球面密度估计进行检测离群值是一个糟糕的选择。 COF通过将常规记录相互连接以解决上述缺陷,从而估计了其局部密度。当密度不同的簇彼此相距不远时,INFLO显示出更高的离群值得分。表2给出了其余的摘要不同算法的关键点。
B.基于统计的方法
(注意这里说的统计是广义的统计,而不是直观上认为的3sigma这样简单的统计指标的计算的方法)使用统计技术检测异常值可以使用监督,半监督和无监督样式来完成。在基于统计的OD方法中,有时使用随机分布对数据点进行建模,根据与分布模型的关系,可以将某些数据点标记为离群值。根据数据分布模型声明离群值和离群值。基于统计的方法通常分为两大类-参数方法和非参数方法。两种方法之间的主要区别在于,前一种方法假定了给定数据中的基础分布模型,而根据已知数据,它估计了分布模型的参数。后一种方法没有对分布模型的先验知识的任何假设[98]。
在本文中,我们将使用统计方法将异常值检测到的三类当前分类为三类:参数方法,非参数方法和其他类型的统计技术。
1)参数方法
对于这种假设潜在分布模型的方法,采用了两种众所周知的方法用于离群检测的是高斯混合模型和回归模型。
a:高斯混合模型方法
高斯模型是用于检测离群值的最流行的统计方法之一。在该模型中,训练阶段使用最大似然估计(MLE)方法[100]进行高斯分布的均值和方差估计。在测试阶段,应用了一些统计不一致检验(箱线图,均方差检验)。杨等。 [101],介绍了一种基于全局最优的基于样本的GMM(高斯混合模型)的无监督离群值检测方法。在他们的技术中,他们首先实现了全局最优期望最大化(EM)算法,以将GMM拟合到给定的数据集。每个数据点的离群因子都被视为加权混合比例之和,权重表示与其他数据点的关系。
GMM高斯混合模型,这个倒是挺常用的,另外多元高斯分布也会用得到,后续佛系更新:
2015年,Tang等人提出了一种更健壮的离群值检测方法,该方法将GMM与局部保留投影一起使用。 [102]。他们结合了GMM和子空间学习的使用,以在能量分解中进行可靠的异常值检测。在他们的方法中,子空间学习的局部性保留投影(LPP)用于有效地保留邻域结构,然后揭示数据的固有流形结构。离群值离正常样本较远,与Saha等人的样本相比,恰好相反。 [103]主成分分析(PCA)方法。本研究解决了LOF [8]和Tang等人以前方法的研究空白。 [80],即无法检测到多个状态过程和多个高斯状态中的异常值。从实验评估来看,即使所提出的方法表现出更好的性能(真阳性率从93.8%降至97%,假阳性率从35.48%降至25.8%)。
b:回归方法
使用回归模型检测异常值是解决异常值检测问题的最直接方法之一。用户选择的模型可以是线性的,也可以是非线性的,具体取决于需要解决的问题。
通常,采用此技术时,第一阶段(即训练阶段)涉及构建适合数据的回归模型。然后,测试阶段通过针对模型评估每个数据实例来测试回归模型。当回归模型产生的实际值和预期值之间出现明显偏差的数据点时,此处标记为异常值。多年来,使用回归技术进行离群值检测的一些标准方法包括使用马氏距离进行阈值处理,具有双平方权重的鲁棒最小二乘法,混合模型
然后使用另一种振动贝叶斯方法进行回归分析[26]。这些技术使用回归模型来检测离群值,相反,Satman [104]提出了另一种方法来检测线性回归中的离群值。该算法以非交互式协方差矩阵为中心,并在最小修整平方估计中应用了集中步骤。该算法具有在短时间内检测到多个离群值的优点,这使得计算时间具有成本效益。但是,为了获得更好的模型效果,未来的研究可能是最小化截距估计量的偏差和方差,因为回归模型有时会表现出细微的偏好。
Park等。 [105]提出了另一种基于回归的离群值检测技术,但是这次,它的重点是检测传感器测量中的离群值。所提出的技术利用加权求和方法从观测值中建立一个合成的独立变量。由于该方法仅在单个环境中进行了测试,因此我们认为提出能够针对不同传感器设置和情况进行精确模型估计的技术将是一个有趣的未来研究。最近,在2017年,Dalatu等人。 [106]通过分析接收器工作特征曲线(ROC)的误分类率和准确度,对用于离群值检测的线性和非线性回归模型进行了比较研究。该研究为研究人员提供了两种检测异常值的回归模型的预测结果的见解。对于离群值检测,非线性模型(准确度为93%)比线性模型(准确度为68%)更适合,这为研究人员提供了更好的理由,为什么在更一般的情况下采用非线性模型会更有效。
2)非参数方法
内核密度估计方法:内核密度估计(KDE)是一种用于检测异常值的常见非参数方法[107]。 Latecki等人在[108]中提出了一种使用内核函数的异常值检测方法。通过将每个点的局部密度与邻居的局部密度进行比较来执行异常值检测过程。建议的实验评估与某些流行的基于密度的方法相比[8],[82]在大多数情况下可提供更好的检测性能。但是,该方法在大型和高维的现实数据库中仍然缺乏适用性。这可以是当前研究对未来的扩展。后来,高等。 [109]提出了一种更好的方法来解决以前的一些缺点。与LOF和Latecki等人相比,使用基于内核的技术,该方法显示出改进的性能,并为广泛的数据集提供了良好的可伸缩性,并且计算时间更少。 [108]提出了方法。为了解决复杂和大型数据集中异常值检测不准确的问题,他们采用了可变核密度估计来解决此问题。要解决的另一个问题与LOF有关,这就是参数k的可靠性–它测量了本地邻域的权重。为了解决这个问题,他们采用了加权邻域密度估计。总体而言,该方法显示了针对大型数据集的改进的性能和良好的可伸缩性,而计算时间却更少。 Kumar和Verma [110]使用KDE估计传感器数据分布以检测恶意节点。
由于复杂性高以及数据更新的不可预测性,现有工作不足以解决当前的高速数据流。 他们设计了KELOS,这是一种在流数据上不断识别基于KDE的前N个局部异常值的方法。 总而言之,大多数KDE方法的一大挫折是它们通常遭受高昂的计算成本和维度诅咒,这使其在实践中非常不可靠。 尽管与其他非参数OD方法相比,KDE的性能更好,但采用基于KDE的现象解决此问题的报告相对较少。
3)其他统计方法
已经提出了许多统计方法,但是用于识别异常值的更直接的统计方法是直方图[116]和其他统计检验[40],例如Boxplot,修整均值,极端学生偏差和Dixon型检验[40]。 。除其他外,Trimmed均值对离群值的抵抗力相对较高,而要识别单个离群值,则极端学生化偏差测试是正确的选择。 Dixon型测试的优点是样本量小,表现良好,因为不需要假设数据的正态性。
Barnett等。 [39]讨论了优化不同分布模型以有效检测离群值的几种测试。优化可能取决于符合分布的实际参数,即离群值的预期空间和离群数。 Rousseeuw和Hubert [117]也对离群值检测的统计技术进行了更广泛的讨论。 Goldstein和Dengel [116]使用基于直方图的方法,提出了一种基于直方图的离群值(HBOS)检测算法,该算法使用静态和动态bin宽度直方图对单变量特征密度进行建模。
然后,这些直方图用于计算每个数据实例的离群值。虽然与其他流行的OD方法(例如LOF [8],COF [80]和INFLO [75])相比,该算法在某些性能指标(如计算速度)上显示出改进的性能,但是,它在局部离群值检测问题上还是不足的因为该算法无法使用建议的密度估计对局部离群值建模。
Hido等。 [95]提出了一种新的统计方法,通过使用定向密度比估计来解决基于离群值的离群值检测问题。主要思想是利用训练和测试数据密度的比率作为离群值。
之所以使用无约束最小二乘重要性拟合(uLSIF)方法,是因为它更适合于自然的交叉验证措施,从而可以准确地优化调整参数的值。例如内核宽度和正则化参数。与非参数KDE相比,所提出的技术更具优势,因为它可以避免硬密度估计计算。即使并非在所有情况下,该方法都显示出更高的准确度性能,尽管它们显示出比其他方法更好的性能。不过,
它证明了这种方法从更广泛的角度来看更加有效。考虑这种方法,提高密度比估计的准确性可能是一项重要的未来工作。杜等。 [118]提出了另一种具有统计参数的鲁棒技术,以解决局部离群值检测问题,称为鲁棒局部离群值检测(RLOD)。
这项研究的动机是,大多数OD方法都专注于识别全局离群值,并且这些方法中的大多数[119],[120]对参数变化非常敏感。该框架的整个想法分为三个阶段。在第一阶段,作者提出了一种使用3σ标准在数据集中初步找到密度峰的方法。在第二阶段中,在数据集中,每个剩余的数据对象然后被分配到其相同的群集,以更高密度被标记为其最近的邻居。在最后阶段,他们使用切比雪夫不等式,然后使用密度峰值可达性来识别每组中的局部离群值。如Campello等人所述,该方法支持检测局部和全局离群值。 [86]技术,他们实验证明该方法在运行时间和检测率方面优于其他方法[8],[26]。作者建议进行进一步的实验,以研究如何通过使用健壮的分布式和并行计算方法来提高效率。已经使用统计方法计算离群值进行了其他研究。在表3中,我们提供了一个摘要,显示了针对上述某些关键算法使用此技术的进展。


)基于统计的方法优点,缺点,挑战和差距
优点
I。一旦建立模型,它们在数学上是可以接受的,并且具有快速的评估过程。这是因为大多数模型都是以压缩形式制成的,并且考虑到概率模型,它们显示出了改进的性能。
ii。这些模型通常适合定量实值数据集或某些定量序数数据分布。可以将顺序数据更改为适当的值以进行处理,这可以缩短复杂数据的处理时间。
iii。它们更易于实现
缺点,挑战和差距:
i。由于它们的依赖性以及参数模型中分布模型的假设,由于缺乏有关基础分布的先验知识,所产生的结果的质量在实际情况和应用中大多不可靠。
ii。大多数模型都适用于单变量特征空间,
它们通常不适用于多维方案。当处理多元数据时,它们会产生高昂的计算成本,这反过来又使大多数统计非参数模型成为实时应用程序的不佳选择。
iii。在直方图技术中,多元数据的一个基本缺点是无法捕获不同属性之间的交互。这是因为他们不能同时分析多个功能。通常,某些流行的统计方法不适用于处理非常高的维数数据。需要设计统计技术以支持能够同时分析多个特征的高维数据。
iv。面对维数增加的问题,统计技术采用了不同的方法。这导致处理时间增加和数据分布的错误表述。
从更全局的角度进一步讨论,统计方法具有很多优点和缺点。在异常值检测问题中,非异常值数据的重要性对于构建可靠的系统至关重要。这是因为异常值可能会对系统效率产生巨大影响,因此,谨慎地识别并删除那些会影响系统准确性的因素。统计方法的大多数缺点都集中在异常检测精度,缺乏用于非常高的数据集的有效技术,维数的诅咒和计算成本上。
当捕获正确的分布模型时,基于统计的方法可以在异常值检测过程中有效。在某些现实情况下,例如在传感器流分配中,没有先验知识可用来学习。在这种情况下,当数据不遵循预定的分布时,它可能会变成不切实际的。因此,非参数方法最有吸引力,因为它们不依赖于分布特性的假设。对于无法假定数据分布的大数据流也是如此。对于数据集中异常分散的异常值,使用统计技术变得很复杂。因此,参数方法不适用于大数据流,但适用于非参数方法。另外,定义标准分布的阈值以区分异常值具有较高的不准确标记可能性。
对于参数情况,使用高斯混合模型,值得注意的是采用高斯技术在高维数据子空间和数据流中计算离群值的艰巨任务。杨等。例如,[101]方法具有很高的复杂性。可以减少这种计算复杂度的算法可以起到更大的可扩展性。回归技术也不适合支持高维子空间数据。对于寻找和发现异常值的更有效,更健壮的解决方案,更适合应用稳健的回归而不是普通回归,因为异常值会影响后者。对于非参数情况,尽管KDE对异常值非常敏感,而且在确定污染数据集中标称数据密度的良好估计方面也很复杂,但在大多数情况下KDE的性能都更好。在多元数据中,它们可以很好地缩放并且计算上不昂贵。直方图模型适用于单变量数据,但不适用于多元数据。这是因为它无法捕获不同属性之间的关系。
C.基于距离的方法
基于距离的方法通过计算点之间的距离来检测离群值,离最近邻很远的数据点被视为离群点。 最常用的基于距离的离群点检测方法是以局部邻域、k-最近邻(KNN)[121]和传统距离阈值的概念为中心。 Knorr和Ng计算基于距离的异常值的研究之一[122]将基于距离的异常值定义为:“在数据集T中,如果数据集中对象p位于离O的距离D之外,则对象O是DB(p,D)-离群点”
其他众所周知的基于距离的离群值的定义给出了特征空间的距离度量,将离群值定义为:
1、在距离d内的样本数量小于p;
2、与最近的k个邻居的距离最大的n个点;
3、与最近的k个邻居的平均距离最大的n个点
基于距离的离群点检测方法是一种折中的非参数方法,对于具有中高维度的大型数据集具有很好的尺度。 与统计技术相比,它们往往具有更健壮的基础,并且更灵活,计算效率更高。 在接下来的一节中,我们将基于距离的方法分类为以下几组-基于距离的计算方法,使用k近邻计算、剪枝技术和数据流相关的工作。 一些最常用的基于距离的方法:
1、knn
使用这类方法计算离群值一直是许多研究人员用来检测离群值的最流行的方法之一, 与k近邻分类器不一样,这些方法主要用于检测局部异常值。
(补充:全局异常和局部异常的概念:
全局异常的参考集包括了整个数据集,基本假设是正常样本只有一种正常的模式,例如典型的oneclasssvm,认为正常样本的分布是包含在一个球体内的,而球体外的一律当作异常样本处理
局部异常的参考集仅包括数据集的子集,对正常数据没有任何假设,例如典型的局部密度lof,这是另外一种异常检测算法的分类方法)
最初,搜索每个记录的k近邻,然后使用这些邻居来计算离群点分数。 它们主要检查给定对象邻域信息的性质,以确定它们是否接近邻居,关键概念是利用邻域信息来检测异常值;
然后就是介绍了这一领域的发展,太多了,截图好了:


2、剪枝
Bay等人[132],提出了一种基于嵌套循环的算法,该算法使用随机化和剪枝规则。 通过修改嵌套循环算法,该算法性能较好,它们能够在先前方法[122]中显示二次性能的大多数数据集上获得 近线性时间。 然而,该算法做出了大量的假设,从而导致效果交差由于大多数以前的研究[99],[122],[123]无法同时满足CPU成本和最小化I/O成本的需求,后续又提出了一种新的算法,将Liers PusHing数据检测到索引(DOLPH IN),以解决这些挑战,在所提出的算法中,只对数据集进行两次顺序扫描,而[132]的扫描则对磁盘页进行分块循环分析,从而产生二次输入和输出成本。 Ren等人。 [134],介绍了Ramaswamy等人的改进版本。 技术[123],一种基于垂直距离的离群点检测方法,通过应用剪枝法和“旁邻”标记技术来检测大数据集中的离群点。 在他们的研究中,作为过时的水平结构的替代,垂直结构被采用,以方便有效地检测异常值。 该技术分为两个阶段(有和不剪枝)与P-树进行离群点检测。 作者认为,未来的研究可以发现P-树在其他OD方法中的应用,如基于密度的方法。 在另一项工作中,Vu等人。 [135]介绍了采用与[134]相似的技术的MultI-Rule离群点(MIRO),采用剪枝技术加快了异常点的检测过程。

(这个。。。完全不懂是什么方法)
3、数据流方法
这类方法主要是针对于时间序列数据和流数据这类特殊的数据形式提出的,该论文中总结的并不是非常充分,这里就不继续看了,具体的可以研究一下时间序列预测的异常检测的相关文章,实在太多了。。。
基于距离的方法-优势、劣势、挑战和差距
优点:i. 它们是直截了当的,易于理解,因为它们大多不依赖假定的分布来拟合数据。
ii. 在可伸缩性方面,它们在多维空间中的尺度更好,因为它们具有稳健的理论基础,并且与统计方法相比,它们在计算上是更高效的。
缺点、挑战和差距:
i. 在高维空间方面,它们与基于统计和密度的方法有着相似的缺点,因为它们的性能由于维数的诅咒而下降。 数据中的对象通常具有离散属性,这使得定义这些对象之间的距离具有挑战性(例如knn无法直接计算类别之间的距离);
ii. 在高维空间中使用基于距离的方法进行邻域搜索和KNN搜索等搜索技术是一项昂贵的任务。 在大数据集中,可伸缩性也不具有成本效益。
iii.建议。 现有的基于距离的方法大多不能处理数据流,因为它们很难在局部邻域内保持数据分布,也很难在数据流中找到k个最近邻,专门为处理数据流而设计的方法例外;
进一步讨论, 我们总结了不同的技术的计算复杂性(运行时间和内存消耗),解决的问题,以及它们的缺点。 基于距离的方法是广泛采用的方法,因为它们具有很强的理论基础和计算效率。 然而,他们面临一些挑战。 大多数基于距离的方法的关键缺陷之一是它们无法很好地缩放非常高维数据集[144]。 维度诅咒这样的问题仍然是一个不断变化的挑战。 当数据维度增加时,这会影响距离度量的描述能力,并使应用索引技术搜索邻居变得相当棘手。 在多元数据集中,计算数据实例之间的距离可能在计算上要求很高,从而导致缺乏可伸缩性。 尽管研究人员一直专注于解决这些问题,但我们仍然相信可以设计出更好的算法可以同时解决低内存成本和计算时间的问题。 为了解决二次复杂性问题,研究人员重点提出了几种重要的算法和优化技术,如[124]、[145]、使用剪枝和随机化[132]等。 另一个值得注意的挑战是基于距离的技术无法识别局部异常值。 基于距离的计算往往是针对全局信息进行的。 对于K近邻方法,数据集在确定完美KNN评分中起着至关重要的作用。 从所提到的大多数算法中,在需要时选择合适的阈值是最复杂的任务之一。在这些离群点检测过程中获得的结果也会受到另一个重要的影响,那就是选择k和选择合适的输入参数;
此外,在检测数据流中的异常值方面,其基本要求与其计算速度有关。 我们认为,使用基于距离的技术设计能够支持单个和多个数据流中快速计算的算法将是未来方向的一个令人兴奋的挑战。 对于当前日益增长的兴趣研究领域,如大数据,需要计算更多的海量数据集,必须使用基于距离的技术设计健壮的算法,这些技术可以在较低的计算成本(运行时间和内存)下对批量和流流程的大型最新真实数据集进行很好的缩放。
基于聚类的方法
基于聚类的技术通常依赖于使用聚类方法来描述数据的行为。 为了做到这一点,包含比其他集群少得多的数据点的较小的大小的集群被标记为异常值。 需要注意的是,聚类方法不同于孤立点检测过程。 聚类方法的主要目的是识别聚类,而离群点检测则是检测离群点。基于聚类的技术的性能在很大程度上取决于聚类算法在捕获正常实例[146]的聚类结构方面的有效性。 基于聚类的方法是无监督的,因为它们不需要任何先验知识。 到目前为止,许多研究都在使用基于聚类的技术,其中一些研究提供了最小化异常值的不利影响的机制。 张[26]在工作中介绍了许多基于聚类的算法,并将其划分为不同的组:
i.分区聚类方法:也称为基于距离的聚类算法。 在这里,集群的数量要么是随机选择的,要么是最初给出的。 属于这一组的算法的一些例子包括PAM[147]、CLARANS[148]、K-Means[149]、CLARA[147]等。
ii.层次聚类方法:它们将对象集划分为不同层次的组,形成树状结构。 要分组到不同的级别,它们通常需要最大数量的集群。 一些例子包括MST[150]、CURE[151]、CHAMELEON[152]
三. 基于密度的聚类方法:它们不需要像分区方法那样最初给出聚类的数量,它们将聚类建模为密集区域。 密度聚类方法的一些例子包括DBSCAN[153]和DENCLUE[154]。
四.其它
基于网格的聚类方法:STING[94],Wavecluster[155],DCluster[156]
高维数据的聚类方法:CLIQUE [157], HPStream [158]
累死了。。。太长了,分个上下篇吧

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐
所有评论(0)