1. 横向联邦学习(Horizontal Federated Learning, HFL)

核心特征
  • 数据分布:各参与方的数据特征空间相同,样本ID不同(即特征重叠,样本不重叠)。
    例如:不同地区的银行拥有相同的用户特征(年龄、收入),但用户群体不同。

  • 训练方式:各参与方训练相同的模型结构,服务器聚合模型参数(如FedAvg)。

适用场景
  • 跨机构同构数据:如多个手机厂商用各自用户的输入行为数据联合训练输入法模型。

  • 边缘设备协作:智能手机、IoT设备等数据分散但特征一致的场景。

优点
  • 实现简单,可直接应用传统联邦平均(FedAvg)算法。

  • 适合大规模分布式设备(如Google的Gboard输入法)。

使用频率
  • 最常用,尤其是C端场景(移动端、物联网)。


2. 纵向联邦学习(Vertical Federated Learning, VFL)

核心特征
  • 数据分布:各参与方的数据样本ID相同,特征空间不同(即样本重叠,特征不重叠)。
    例如:医院和保险公司拥有同一批患者,但医院有体检数据,保险公司有理赔记录。

  • 训练方式:需先对齐样本(如PSI协议),再联合训练(如分割模型:部分层在各方本地,部分层协同计算)。

适用场景
  • 跨行业数据互补:如金融+电商联合反欺诈(电商提供行为数据,银行提供信用数据)。

  • 隐私敏感领域:医疗、金融等需保护垂直特征数据的场景。

优点
  • 能利用多维度特征提升模型效果。

挑战
  • 样本对齐需加密计算(计算开销大)。

  • 模型结构复杂(需设计分割网络)。

使用频率
  • 增长快,尤其在B端跨行业合作中(如微众银行的FATE框架支持VFL)。


3. 联邦迁移学习(Federated Transfer Learning, FTL)

核心特征
  • 数据分布:各参与方的数据样本ID和特征空间均不同(即样本和特征均不重叠)。
    例如:中文电商和英文社交平台的数据完全异构。

  • 训练方式:通过迁移学习(如特征映射、域适应)在联邦框架下共享知识。

适用场景
  • 跨域异构数据:如不同语言、不同业务领域的机构协作(医疗影像+病理报告)。

  • 小数据方辅助训练:数据量极少的参与方借助其他域数据提升模型。

优点
  • 解决数据完全异构的极端场景。

挑战
  • 需设计复杂的迁移机制(如对抗训练、共享隐空间)。

  • 训练稳定性差,易受负迁移影响。

使用频率
  • 较少,仅在特定需求下使用(如跨国企业合作)。

    三 对比总结

    维度 横向联邦学习(HFL) 纵向联邦学习(VFL) 联邦迁移学习(FTL)
    数据重叠 特征重叠,样本不重叠 样本重叠,特征不重叠 样本和特征均不重叠
    典型场景 多手机厂商联合训练模型 医院+保险公司联合建模 跨国电商+社交平台合作
    技术难点 非IID数据优化 样本对齐、分割模型设计 跨域知识迁移
    使用频率 ★★★★★(最常用) ★★★☆(B端增长快) ★★☆(小众场景)

    四、如何选择?

  • 优先横向联邦学习

    • 如果参与方的数据特征相似(如都是用户行为数据),且样本不同(如不同地区用户)。

    • 案例:Google联合数百万手机训练下一词预测模型。

  • 选择纵向联邦学习

    • 如果参与方拥有同一批实体的不同特征(如医院有体检数据,药企有用药记录)。

    • 案例:银行与电商平台联合反欺诈(电商提供购物行为,银行提供交易流水)。

  • 考虑联邦迁移学习

    • 仅在数据完全异构且必须协作时使用(如跨语言、跨模态数据)。

    • 案例:中文医疗文本模型迁移到英文临床数据。

      五、行业应用现状

    • 横向联邦学习占据主流(约70%应用),因其适合C端海量设备场景(手机、IoT)。

    • 纵向联邦学习在金融、医疗等B端领域快速普及(如微众银行FATE框架)。

    • 联邦迁移学习仍处于研究探索阶段,实际落地较少。

      六、未来趋势

    • 横向联邦:继续主导边缘计算场景(5G/6G时代更多终端设备参与)。

    • 纵向联邦:随着隐私计算技术(如MPC)成熟,将成为跨行业数据合作的核心方案。

    • 联邦迁移:需突破跨模态对齐技术(如文本→图像的联邦迁移)。

      七. 横向联邦学习的深挖方向——隐私-效率权衡

      7.1研究价值
    • (1)现实瓶颈:横向联邦虽成熟,但在隐私保护(DP/SMPC)与模型性能的平衡上仍有挑战。

    • (2)关键问题

      • 如何降低差分隐私(DP)引入的噪声对模型精度的影响?

      • 如何设计轻量级加密协议(如部分同态加密)以减少计算开销?

      • 7.2推荐课题
      • 自适应差分隐私算法

        • 动态调整隐私预算(ε)分配,优先保护敏感层梯度。

      • 联邦学习的稀疏化训练

        • 通过梯度稀疏化(如Top-k选择)减少通信量,同时增强隐私。

        • 工具:PySyft中的稀疏梯度聚合模块。

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐