基于典型相关性分析的多视图学习方法(基于核技术的 CCA)——鲁棒核典型相关分析(Robust KCCA)
鲁棒核典型相关分析(Robust Kernel Canonical Correlation Analysis, Robust KCCA)是经典典型相关分析(CCA)的扩展,它。Robust KCCA旨在当数据集中存在异常点或者噪声时,
鲁棒核典型相关分析(Robust Kernel Canonical Correlation Analysis, Robust KCCA)是经典典型相关分析(CCA)的扩展,它结合了核方法以处理非线性数据
,并引入了鲁棒性以减少异常值和噪声的影响
。
Robust KCCA旨在当数据集中存在异常点或者噪声时,仍能有效地发现两组数据之间的内在关联性。
经典CCA回顾
CCA是一种统计方法,用于寻找两个随机变量集合(如两个数据集)之间的线性相关性
。
如果数据集为 X\mathbf{X}X 和 Y\mathbf{Y}Y ,CCA的目标是找到投影向量
wX\mathbf{w}_XwX 和 wY\mathbf{w}_YwY ,使得投影后的数据 XwX\mathbf{X}\mathbf{w}_XXwX 和 YwY\mathbf{Y}\mathbf{w}_YYwY 的相关性最大化。
核CCA(KCCA)
核CCA通过使用核函数
将数据映射到高维特征空间,从而能够处理非线性相关性
。这通常通过构造核矩阵
来实现,其中每个元素表示数据点之间的相似度或内积
。在KCCA中,我们通常寻找最大化以下目标函数的投影向量:
maxwX,wYwX⊤KXYwYwX⊤KXXwX⋅wY⊤KYYwY \max_{\mathbf{w}_X, \mathbf{w}_Y} \frac{\mathbf{w}_X^\top \mathbf{K}_{XY} \mathbf{w}_Y}{\sqrt{\mathbf{w}_X^\top \mathbf{K}_{XX} \mathbf{w}_X \cdot \mathbf{w}_Y^\top \mathbf{K}_{YY} \mathbf{w}_Y}} wX,wYmaxwX⊤KXXwX⋅wY⊤KYYwYwX⊤KXYwY
- KXX\mathbf{K}_{XX}KXX 、 KYY\mathbf{K}_{YY}KYY 是数据集 X\mathbf{X}X 、Y\mathbf{Y}Y 的自身核矩阵
- KXY\mathbf{K}_{XY}KXY 是数据集 X\mathbf{X}X 和 Y\mathbf{Y}Y 之间的
交叉核矩阵
。
引入鲁棒性
在Robust KCCA中,我们希望在存在噪声或异常值的情况下,仍然能够找到两个数据集之间的强相关性
。
这通常通过修改目标函数来实现,以降低异常值的影响。
一种常见的方法是使用M估计器
,它基于一些鲁棒损失函数(如Huber损失、Tukey损失等)来替代标准的平方损失。
Robust KCCA公式
在鲁棒KCCA中,我们通常优化以下形式的目标函数:
minwX,wY∑i=1nρ((wX⊤ϕ(xi))(wY⊤ϕ(yi))−riσ)+λ(wX⊤KXXwX+wY⊤KYYwY) \min_{\mathbf{w}_X, \mathbf{w}_Y} \sum_{i=1}^{n} \rho \left( \frac{(\mathbf{w}_X^\top \phi(\mathbf{x}_i))(\mathbf{w}_Y^\top \phi(\mathbf{y}_i)) - r_i}{\sigma} \right) + \lambda (\mathbf{w}_X^\top \mathbf{K}_{XX} \mathbf{w}_X + \mathbf{w}_Y^\top \mathbf{K}_{YY} \mathbf{w}_Y) wX,wYmini=1∑nρ(σ(wX⊤ϕ(xi))(wY⊤ϕ(yi))−ri)+λ(wX⊤KXXwX+wY⊤KYYwY)
- ρ(⋅)\rho(\cdot)ρ(⋅) 是一个
鲁棒损失函数
- σ\sigmaσ 是
尺度参数
- λ\lambdaλ 是
正则化参数
- xi\mathbf{x}_ixi 和 yi\mathbf{y}_iyi 是数据集 X\mathbf{X}X 和 Y\mathbf{Y}Y 中的第 iii 个样本
- ϕ(⋅)\phi(\cdot)ϕ(⋅) 是
映射函数
- KXX\mathbf{K}_{XX}KXX 和 KYY\mathbf{K}_{YY}KYY 是相应的
核矩阵
- 而 KXY\mathbf{K}_{XY}KXY 未直接出现,但其信息隐含在 ρ\rhoρ 函数中。
对公式的解释
- ρ(⋅)\rho(\cdot)ρ(⋅) :鲁棒损失函数,它相对于平方损失更能抵抗异常值的影响。
- σ\sigmaσ :尺度参数,用于调整损失函数的敏感度。
- λ\lambdaλ :正则化参数,用于控制模型复杂度,防止过拟合。
- wX\mathbf{w}_XwX 和 wY\mathbf{w}_YwY :投影向量,我们要优化的参数。
- ϕ(xi)\phi(\mathbf{x}_i)ϕ(xi) 和 ϕ(yi)\phi(\mathbf{y}_i)ϕ(yi) :数据点在特征空间中的映射。
- KXX\mathbf{K}_{XX}KXX 和 KYY\mathbf{K}_{YY}KYY :自身核矩阵,用于计算投影向量的正则化项。
结论
鲁棒核典型相关分析(Robust KCCA)通过在经典CCA的基础上加入核方法和鲁棒性,能够在处理非线性数据的同时,有效减少异常值和噪声对结果的影响
,从而在实际应用中提供更稳定和可靠的性能。

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐
所有评论(0)