鲁棒核典型相关分析(Robust Kernel Canonical Correlation Analysis, Robust KCCA)是经典典型相关分析(CCA)的扩展,它结合了核方法以处理非线性数据并引入了鲁棒性以减少异常值和噪声的影响

Robust KCCA旨在当数据集中存在异常点或者噪声时,仍能有效地发现两组数据之间的内在关联性。

经典CCA回顾

CCA是一种统计方法,用于寻找两个随机变量集合(如两个数据集)之间的线性相关性

如果数据集为 X\mathbf{X}XY\mathbf{Y}Y ,CCA的目标是找到投影向量 wX\mathbf{w}_XwXwY\mathbf{w}_YwY ,使得投影后的数据 XwX\mathbf{X}\mathbf{w}_XXwXYwY\mathbf{Y}\mathbf{w}_YYwY相关性最大化。

核CCA(KCCA)

核CCA通过使用核函数将数据映射到高维特征空间,从而能够处理非线性相关性。这通常通过构造核矩阵来实现,其中每个元素表示数据点之间的相似度或内积。在KCCA中,我们通常寻找最大化以下目标函数的投影向量:

max⁡wX,wYwX⊤KXYwYwX⊤KXXwX⋅wY⊤KYYwY \max_{\mathbf{w}_X, \mathbf{w}_Y} \frac{\mathbf{w}_X^\top \mathbf{K}_{XY} \mathbf{w}_Y}{\sqrt{\mathbf{w}_X^\top \mathbf{K}_{XX} \mathbf{w}_X \cdot \mathbf{w}_Y^\top \mathbf{K}_{YY} \mathbf{w}_Y}} wX,wYmaxwXKXXwXwYKYYwY wXKXYwY

  • KXX\mathbf{K}_{XX}KXXKYY\mathbf{K}_{YY}KYY 是数据集 X\mathbf{X}XY\mathbf{Y}Y 的自身核矩阵
  • KXY\mathbf{K}_{XY}KXY 是数据集 X\mathbf{X}XY\mathbf{Y}Y 之间的交叉核矩阵

引入鲁棒性

在Robust KCCA中,我们希望在存在噪声或异常值的情况下,仍然能够找到两个数据集之间的强相关性

这通常通过修改目标函数来实现,以降低异常值的影响。

一种常见的方法是使用M估计器,它基于一些鲁棒损失函数(如Huber损失、Tukey损失等)来替代标准的平方损失。

Robust KCCA公式

在鲁棒KCCA中,我们通常优化以下形式的目标函数:

min⁡wX,wY∑i=1nρ((wX⊤ϕ(xi))(wY⊤ϕ(yi))−riσ)+λ(wX⊤KXXwX+wY⊤KYYwY) \min_{\mathbf{w}_X, \mathbf{w}_Y} \sum_{i=1}^{n} \rho \left( \frac{(\mathbf{w}_X^\top \phi(\mathbf{x}_i))(\mathbf{w}_Y^\top \phi(\mathbf{y}_i)) - r_i}{\sigma} \right) + \lambda (\mathbf{w}_X^\top \mathbf{K}_{XX} \mathbf{w}_X + \mathbf{w}_Y^\top \mathbf{K}_{YY} \mathbf{w}_Y) wX,wYmini=1nρ(σ(wXϕ(xi))(wYϕ(yi))ri)+λ(wXKXXwX+wYKYYwY)

  • ρ(⋅)\rho(\cdot)ρ() 是一个鲁棒损失函数
  • σ\sigmaσ尺度参数
  • λ\lambdaλ正则化参数
  • xi\mathbf{x}_ixiyi\mathbf{y}_iyi 是数据集 X\mathbf{X}XY\mathbf{Y}Y 中的第 iii 个样本
  • ϕ(⋅)\phi(\cdot)ϕ()映射函数
  • KXX\mathbf{K}_{XX}KXXKYY\mathbf{K}_{YY}KYY 是相应的核矩阵
  • KXY\mathbf{K}_{XY}KXY 未直接出现,但其信息隐含在 ρ\rhoρ 函数中。

对公式的解释

  • ρ(⋅)\rho(\cdot)ρ() :鲁棒损失函数,它相对于平方损失更能抵抗异常值的影响。
  • σ\sigmaσ :尺度参数,用于调整损失函数的敏感度。
  • λ\lambdaλ :正则化参数,用于控制模型复杂度,防止过拟合。
  • wX\mathbf{w}_XwXwY\mathbf{w}_YwY :投影向量,我们要优化的参数。
  • ϕ(xi)\phi(\mathbf{x}_i)ϕ(xi)ϕ(yi)\phi(\mathbf{y}_i)ϕ(yi) :数据点在特征空间中的映射。
  • KXX\mathbf{K}_{XX}KXXKYY\mathbf{K}_{YY}KYY :自身核矩阵,用于计算投影向量的正则化项。

结论

鲁棒核典型相关分析(Robust KCCA)通过在经典CCA的基础上加入核方法和鲁棒性,能够在处理非线性数据的同时,有效减少异常值和噪声对结果的影响,从而在实际应用中提供更稳定和可靠的性能。

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐