横向联邦学习、纵向联邦学习与联邦迁移学习是联邦学习的三大主要分支

横向联邦学习、纵向联邦学习与联邦迁移学习是联邦学习的三大主要分支，它们的核心区别在于数据分布特征和参与方的数据重叠关系

☆天边夏月

1019人浏览 · 2025-05-26 20:37:56

☆天边夏月 · 2025-05-26 20:37:56 发布

1. 横向联邦学习（Horizontal Federated Learning, HFL）

核心特征：

数据分布：各参与方的数据特征空间相同，样本ID不同（即特征重叠，样本不重叠）。
例如：不同地区的银行拥有相同的用户特征（年龄、收入），但用户群体不同。
训练方式：各参与方训练相同的模型结构，服务器聚合模型参数（如FedAvg）。

适用场景：

跨机构同构数据：如多个手机厂商用各自用户的输入行为数据联合训练输入法模型。
边缘设备协作：智能手机、IoT设备等数据分散但特征一致的场景。

优点：

实现简单，可直接应用传统联邦平均（FedAvg）算法。
适合大规模分布式设备（如Google的Gboard输入法）。

使用频率：

最常用，尤其是C端场景（移动端、物联网）。

2. 纵向联邦学习（Vertical Federated Learning, VFL）

核心特征：

数据分布：各参与方的数据样本ID相同，特征空间不同（即样本重叠，特征不重叠）。
例如：医院和保险公司拥有同一批患者，但医院有体检数据，保险公司有理赔记录。
训练方式：需先对齐样本（如PSI协议），再联合训练（如分割模型：部分层在各方本地，部分层协同计算）。

适用场景：

跨行业数据互补：如金融+电商联合反欺诈（电商提供行为数据，银行提供信用数据）。
隐私敏感领域：医疗、金融等需保护垂直特征数据的场景。

优点：

能利用多维度特征提升模型效果。

挑战：

样本对齐需加密计算（计算开销大）。
模型结构复杂（需设计分割网络）。

使用频率：

增长快，尤其在B端跨行业合作中（如微众银行的FATE框架支持VFL）。

3. 联邦迁移学习（Federated Transfer Learning, FTL）

核心特征：

数据分布：各参与方的数据样本ID和特征空间均不同（即样本和特征均不重叠）。
例如：中文电商和英文社交平台的数据完全异构。
训练方式：通过迁移学习（如特征映射、域适应）在联邦框架下共享知识。

适用场景：

跨域异构数据：如不同语言、不同业务领域的机构协作（医疗影像+病理报告）。
小数据方辅助训练：数据量极少的参与方借助其他域数据提升模型。

优点：

解决数据完全异构的极端场景。

挑战：

需设计复杂的迁移机制（如对抗训练、共享隐空间）。
训练稳定性差，易受负迁移影响。

使用频率：

较少，仅在特定需求下使用（如跨国企业合作）。

三对比总结

维度	横向联邦学习（HFL）	纵向联邦学习（VFL）	联邦迁移学习（FTL）
数据重叠	特征重叠，样本不重叠	样本重叠，特征不重叠	样本和特征均不重叠
典型场景	多手机厂商联合训练模型	医院+保险公司联合建模	跨国电商+社交平台合作
技术难点	非IID数据优化	样本对齐、分割模型设计	跨域知识迁移
使用频率	★★★★★（最常用）	★★★☆（B端增长快）	★★☆（小众场景）

四、如何选择？

优先横向联邦学习：
- 如果参与方的数据特征相似（如都是用户行为数据），且样本不同（如不同地区用户）。
- 案例：Google联合数百万手机训练下一词预测模型。
选择纵向联邦学习：
- 如果参与方拥有同一批实体的不同特征（如医院有体检数据，药企有用药记录）。
- 案例：银行与电商平台联合反欺诈（电商提供购物行为，银行提供交易流水）。
考虑联邦迁移学习：
- 仅在数据完全异构且必须协作时使用（如跨语言、跨模态数据）。
- 案例：中文医疗文本模型迁移到英文临床数据。
  
  五、行业应用现状
- 横向联邦学习占据主流（约70%应用），因其适合C端海量设备场景（手机、IoT）。
- 纵向联邦学习在金融、医疗等B端领域快速普及（如微众银行FATE框架）。
- 联邦迁移学习仍处于研究探索阶段，实际落地较少。
  
  六、未来趋势
- 横向联邦：继续主导边缘计算场景（5G/6G时代更多终端设备参与）。
- 纵向联邦：随着隐私计算技术（如MPC）成熟，将成为跨行业数据合作的核心方案。
- 联邦迁移：需突破跨模态对齐技术（如文本→图像的联邦迁移）。
  
  七. 横向联邦学习的深挖方向——隐私-效率权衡
  
  7.1研究价值
- （1）现实瓶颈：横向联邦虽成熟，但在隐私保护（DP/SMPC）与模型性能的平衡上仍有挑战。
- （2）关键问题：
  - 如何降低差分隐私（DP）引入的噪声对模型精度的影响？
  - 如何设计轻量级加密协议（如部分同态加密）以减少计算开销？
  - 7.2推荐课题
  - 自适应差分隐私算法
    - 动态调整隐私预算（ε）分配，优先保护敏感层梯度。
  - 联邦学习的稀疏化训练
    - 通过梯度稀疏化（如Top-k选择）减少通信量，同时增强隐私。
    - 工具：PySyft中的稀疏梯度聚合模块。