异常检测2——PCA异常检测

文章目录算法思想PCA推导示例代码算法思想对原始数据标准化（均值0方差1）PCA有两种计算方法：最大投影方差与最小重构代价（可以查看下面的PCA推导）在异常检测中，使用的逻辑是：对训练集做特征值分解：特征向量代表方向，对应的特征值是空间中这个方向的方差，特征值越大，方差越大我们可以把特征向量所指的方向，看做正常样本点的方向（因为训练集中绝大多数是正常样本点），而计算出的特征值越大，意味着异常点在这

呆萌的代Ma

3721人浏览 · 2022-03-22 15:48:40

呆萌的代Ma · 2022-03-22 15:48:40 发布

文章目录

算法思想
PCA推导
示例代码

算法思想

对原始数据标准化（均值0方差1）
PCA有两种计算方法：最大投影方差与最小重构代价（可以查看下面的PCA推导）

在异常检测中，使用的逻辑是：

对训练集做特征值分解：特征向量代表方向，对应的特征值是空间中这个方向的方差，特征值越大，方差越大
我们可以把特征向量所指的方向，看做正常样本点的方向（因为训练集中绝大多数是正常样本点），而计算出的特征值越大，意味着异常点在这个方向上与正常样本的差异越大
所以接下来，我们只要把跟正常样本不是一路人的点找到就行，它们是异常点，
以 特征值作为权重，计算样本点与特征值对应的特征向量的距离差（点乘后平方）就计算出X与这个方向的偏差程度
累加X与每个方向的偏差程度就是X与所有方向的偏差程度
有特征值加权的偏差程度累加到一定程度就是异常点了，这个阈值有PCA训练得出

PCA推导

在这里插入图片描述

示例代码

from pyod.utils.data import generate_data
from pyod.models.pca import PCA


def get_data():
    """生成数据"""
    X_train, X_test, y_train, y_test = generate_data(n_features=6, contamination=0.2, behaviour='new')  # 这里生产数据
    return X_train, X_test, y_train, y_test


def get_score(true_data, result_prediction):
    """
    分类问题的得分辅助函数
    :param true_data: 真实值，是要预测的目标
    :param result_prediction: 预测值，用模型预测出来的值
    :return:准确率，精确率，召回率，F1
    :rtype:list
    """
    from sklearn.metrics import accuracy_score
    from sklearn.metrics import precision_score
    from sklearn.metrics import recall_score, f1_score

    acc = accuracy_score(true_data, result_prediction)  # 准确率
    prec = precision_score(true_data, result_prediction)  # 精确率
    recall = recall_score(true_data, result_prediction)  # 召回率
    f1 = f1_score(true_data, result_prediction)  # F1
    score_list = [acc, prec, recall, f1]
    return score_list


def main():
    x_train, x_test, y_train, y_test = get_data()
    pca_model = PCA(contamination=0.2)  # 这里指定原始数据有多少是异常点
    pca_model.fit(x_train)  # 训练数据
    # pca_model.decision_scores_  # 检测参考的分值
    score_list = get_score(y_test, pca_model.predict(x_test))
    print("准确率:{}，精确率:{}，召回率:{}，F1:{}".format(score_list[0], score_list[1], score_list[2], score_list[3]))


if __name__ == '__main__':
    main()

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

全家桶集齐！Qwen3.5四款小模型上线魔乐社区，附昇腾全套实践教程

魔乐社区

Pont - 搭建前后端之桥：高效、灵活的接口管理工具

Pont 是一款强大的数据服务层解决方案，它能够帮助开发者快速搭建前后端之间的桥梁，实现接口的高效管理和代码自动生成。无论是新手还是有经验的开发者，都能通过 Pont 轻松处理接口文档、生成类型安全的 API 代码，从而显著提升开发效率。[![Pont 工具标志](https://raw.gitcode.com/gh_mirrors/po/pont/raw/3f1b7d4bbba3fd2dda

魔乐社区

如何快速上手 hvac：HashiCorp Vault Python 客户端零基础入门指南

**hvac** 是 HashiCorp Vault 的 Python 3.X 客户端库，专为开发者提供简单高效的 Vault 交互方式。无论你是需要管理密钥、配置身份验证，还是实现安全的秘密数据存储，hvac 都能帮助你轻松搞定 Vault 的各项操作。本文将带你零基础快速入门，从安装到基础操作，让你在几分钟内即可上手使用这个强大的工具。[![hvac 客户端 Logo](https://r