基于典型相关性分析的多视图学习方法(基于核技术的 CCA)——核广义典型相关分析(KGCCA)
KGCCA通过在高维特征空间中执行CCA来寻找多个数据集之间的非线性关系。它使用核函数来避免直接在高维空间中操作数据,这不仅减少了计算成本,还使得分析能够捕捉到更复杂的模式。
核广义典型相关分析(Kernel Generalized Canonical Correlation Analysis, KGCCA)是一种用于多视图数据的分析方法
,它结合了核方法
(Kernel Methods)和广义典型相关分析
(Generalized Canonical Correlation Analysis, GCCA)的优点。
KGCCA主要用于分析多个数据集之间的关系
,尤其是当这些数据集是从同一对象的不同视角获取时。
通过使用核函数,KGCCA能够在高维甚至无限维
的空间中执行线性CCA
,从而捕捉到数据的非线性结构。
基本概念
在传统的CCA中,目标是找到两个数据集
X\mathbf{X}X 和 Y\mathbf{Y}Y 之间的线性组合
,使得这两个组合之间的相关性最大化
。
GCCA是CCA的扩展,可以处理多个数据集
的情况,而KGCCA进一步扩展了GCCA,使其能够处理非线性关系。
公式
假设我们有 mmm 个视图的数据集 X1,X2,…,Xm\mathbf{X}_1, \mathbf{X}_2, \ldots, \mathbf{X}_mX1,X2,…,Xm ,其中每个数据集都包含相同的样本
,但可能有
不同的特征表示。
KGCCA的目标是找到一系列投影
w1,w2,…,wm\mathbf{w}_1, \mathbf{w}_2, \ldots, \mathbf{w}_mw1,w2,…,wm ,使得每个数据集投影到一个共享的低维空间
中,从而最大化这些投影之间的相关性。
最大化相关性的公式
在KGCCA中,我们尝试最大化以下表达式:
maxw1,w2,…,wm∑i<jmρij \max_{\mathbf{w}_1, \mathbf{w}_2, \ldots, \mathbf{w}_m} \sum_{i<j}^m \rho_{ij} w1,w2,…,wmmaxi<j∑mρij
其中,
ρij=wi⊤Kijwjwi⊤Kiiwi⋅wj⊤Kjjwj \rho_{ij} = \frac{\mathbf{w}_i^\top \mathbf{K}_{ij} \mathbf{w}_j}{\sqrt{\mathbf{w}_i^\top \mathbf{K}_{ii} \mathbf{w}_i \cdot \mathbf{w}_j^\top \mathbf{K}_{jj} \mathbf{w}_j}} ρij=wi⊤Kiiwi⋅wj⊤Kjjwjwi⊤Kijwj
- ρij\rho_{ij}ρij 表示第 iii 个视图和第 jjj 个视图
投影之后的典型相关性系数。
- Kij\mathbf{K}_{ij}Kij 是 Xi\mathbf{X}_iXi 和 Xj\mathbf{X}_jXj
之间的交叉核矩阵
- Kii\mathbf{K}_{ii}Kii 和 Kjj\mathbf{K}_{jj}Kjj 分别是 Xi\mathbf{X}_iXi 和 Xj\mathbf{X}_jXj
自身的核矩阵。
- 这些核矩阵是由
核函数
k(⋅,⋅)k(\cdot,\cdot)k(⋅,⋅) 生成的,它将原始数据映射到高维空间
,使得在该空间中的线性运算相当于原始空间中的非线性运算。
解决方案
为了找到最佳的投影
w1,w2,…,wm\mathbf{w}_1, \mathbf{w}_2, \ldots, \mathbf{w}_mw1,w2,…,wm ,KGCCA通过求解一个广义特征值问题来实现
。
具体而言,它寻找 w1,w2,…,wm\mathbf{w}_1, \mathbf{w}_2, \ldots, \mathbf{w}_mw1,w2,…,wm 使得下面的广义特征值
问题成立:
K11w1+K12w2+⋯+K1mwm=λK11w1K21w1+K22w2+⋯+K2mwm=λK22w2⋮Km1w1+Km2w2+⋯+Kmmwm=λKmmwm \mathbf{K}_{11} \mathbf{w}_1 + \mathbf{K}_{12} \mathbf{w}_2 + \cdots + \mathbf{K}_{1m} \mathbf{w}_m = \lambda \mathbf{K}_{11} \mathbf{w}_1 \\ \mathbf{K}_{21} \mathbf{w}_1 + \mathbf{K}_{22} \mathbf{w}_2 + \cdots + \mathbf{K}_{2m} \mathbf{w}_m = \lambda \mathbf{K}_{22} \mathbf{w}_2 \\ \vdots \\ \mathbf{K}_{m1} \mathbf{w}_1 + \mathbf{K}_{m2} \mathbf{w}_2 + \cdots + \mathbf{K}_{mm} \mathbf{w}_m = \lambda \mathbf{K}_{mm} \mathbf{w}_m K11w1+K12w2+⋯+K1mwm=λK11w1K21w1+K22w2+⋯+K2mwm=λK22w2⋮Km1w1+Km2w2+⋯+Kmmwm=λKmmwm
其中
- λ\lambdaλ 是
特征值
- w1,w2,…,wm\mathbf{w}_1, \mathbf{w}_2, \ldots, \mathbf{w}_mw1,w2,…,wm 是
相应的特征向量
,它们定义了数据集 X1,X2,…,Xm\mathbf{X}_1, \mathbf{X}_2, \ldots, \mathbf{X}_mX1,X2,…,Xm 的投影方向。
总结
KGCCA通过在高维特征空间中执行CCA来寻找多个数据集之间的非线性关系。
它使用核函数来避免直接在高维空间中操作数据
,这不仅减少了计算成本,还使得分析能够捕捉到更复杂的模式。

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐
所有评论(0)