【机器学习】正态分布数据异常值检测处理(Python)

正态分布异常值检测

卷心菜小温

1907人浏览 · 2024-04-29 11:08:17

卷心菜小温 · 2024-04-29 11:08:17 发布

0.前言

五一之前浮躁的心......以前上高中是这样，读了大学也这样，研究生了还这样，一临近放假心就飞的远远的~

1.数据准备

import numpy as np

mu, sigma = 0, 1 # 设置均值和标准差
normal_distribution_data = np.random.normal(mu, sigma, 30)   # 随机生成一组符合正态分布的数据
unnormal_distribution_data = np.random.randint(0,30,(30))    # 随机生成一组不符合正态分布的数据

2.正态分布检验（Shapiro-Wilk检验）

正态分布（Normal Distribution），又名高斯分布（Gaussian Distribution）。若随机变量X服从一个数学期望为 $\mu$ 、方差为 $\sigma ^{2}$ 的正态分布，记为 N( $\mu$ ， $\sigma ^{2}$ )。其概率密度函数为正态分布的期望值μ决定了其位置，其标准差 $\sigma$ 决定了分布的幅度。当 $\mu$ = 0， $\sigma$ = 1 时的正态分布是标准正态分布。

而对于我们所拿到的一个连续型数值数据，判断其是否符合正态分布，可以采用Shapiro-Wilk检验。

前提条件：数据是连续型的，并且样本量通常不宜太小。

1.假设样本数据是从一个正态分布中随机抽取的。

2.将样本值按照大小顺序排列，进行统计量W的计算，公式如下：

$m = (m_{1}, ..., m_{n})^{T}$

其中， $\overline{X}$ 是样本数据的均值，𝑎𝑖 是由样本大小、样本均值和方差等参数计算得到的常数， $m_{1}, ..., m_{n}$ 是从一个标准的正态分布随机变量上采样的有序独立同分布的统计量的期望值。
V是这些有序统计量的协方差。

统计量W的取值范围在0到1之间，越接近1表示样本数据越可能来自于正态分布。

3.P值表示观察到的统计量W或更极端情况的概率。如果p值小于设定的显著性水平（通常是0.05），则拒绝原假设，即认为样本数据不服从正态分布。(这里其实看的不是很懂，大概就是做了很多次实验，然后该样本数据起码有95%及以上都符合正态分布吧......)

from scipy.stats import shapiro

alpha = 0.05
data_dict = {'normal_distribution_data': normal_distribution_data, 'unnormal_distribution_data': unnormal_distribution_data}
for i in data_dict.keys():
    statistic, p_value = shapiro(data_dict[i])
    if p_value > alpha:
        print(f"{i}符合正态分布")
        print(f"统计量为：{statistic}")
    else:
        print(f"{i}不符合正态分布")
        print(f"统计量为：{statistic}")

3.异常值检测（3σ原则检测）

先为符合正态分布的数据添加一个异常值。

normal_distribution_data = np.append(normal_distribution_data, 2000000000)

利用3σ原则检测异常值，从上图可知，横轴区间（μ-σ, μ+σ）内的面积为68.27%，横轴区间（μ-2σ, μ+2σ）内的面积为95.45%，横轴区间（μ-3σ,μ+3σ）内的面积99.73%。

由于“小概率事件(<5%)”和假设检验的基本思想，样本数据 X 落在（μ-3σ,μ+3σ）以外的概率小于千分之三，在实际问题中常认为相应的事件是不会发生的，基本上可以把区间（μ-3σ,μ+3σ）看作是随机变量X实际可能的取值区间，超过这个区间的就属于异常值。

import numpy as np

def three_sigma(sample_data):
    """
    3-sigma法则异常值判定
    """
    data_mean = sample_data.mean()           # 计算均值
    data_std = sample_data.std()             # 计算标准差
    data_max = data_mean + 3 * data_std         # μ+3σ
    data_min = data_mean - 3 * data_std         # μ-3σ
    rule = (data_min > sample_data) | (data_max < sample_data)  # 选择 小于μ-3σ 或 大于 μ+3σ的数据，也就是异常值
    index = np.arange(sample_data.shape[0])[rule]               # 得到异常值索引
    out_range = sample_data[index]                              # 获取异常数据
    return out_range

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

全家桶集齐！Qwen3.5四款小模型上线魔乐社区，附昇腾全套实践教程

魔乐社区

Pont - 搭建前后端之桥：高效、灵活的接口管理工具

Pont 是一款强大的数据服务层解决方案，它能够帮助开发者快速搭建前后端之间的桥梁，实现接口的高效管理和代码自动生成。无论是新手还是有经验的开发者，都能通过 Pont 轻松处理接口文档、生成类型安全的 API 代码，从而显著提升开发效率。[![Pont 工具标志](https://raw.gitcode.com/gh_mirrors/po/pont/raw/3f1b7d4bbba3fd2dda

魔乐社区

如何快速上手 hvac：HashiCorp Vault Python 客户端零基础入门指南

**hvac** 是 HashiCorp Vault 的 Python 3.X 客户端库，专为开发者提供简单高效的 Vault 交互方式。无论你是需要管理密钥、配置身份验证，还是实现安全的秘密数据存储，hvac 都能帮助你轻松搞定 Vault 的各项操作。本文将带你零基础快速入门，从安装到基础操作，让你在几分钟内即可上手使用这个强大的工具。[![hvac 客户端 Logo](https://r