联邦学习的基础概念
1、联邦学习的背景与定义联邦学习(Federated Learning,FL)也称为联盟学习,一个新兴的人工智能技术,最初由谷歌在2016年提出,用以解决个人数据在安卓手机端的隐私问题。在国内,微众银行的首席人工智能官、香港科技大学教授杨强针对金融风控领域,对联邦学习进行了相关技术的开发和应用。在当下的人工智能时代,不能说各个领域相关的应用算法已经发展成熟,但也至少在稳步推进,但技术的底层依然是数
1、联邦学习的背景与定义
联邦学习(Federated Learning,FL)也称为联盟学习,一个新兴的人工智能技术,最初由谷歌在2016年提出,用以解决个人数据在安卓手机端的隐私问题。在国内,微众银行的首席人工智能官、香港科技大学教授杨强针对金融风控领域,对联邦学习进行了相关技术的开发和应用。在当下的人工智能时代,不能说各个领域相关的应用算法已经发展成熟,但也至少在稳步推进,但技术的底层依然是数据,数据量的多少、数据质量的好坏、数据维度的丰富已经成为制约人工智能发展的一个重要因素。联邦学习的发展,其目的则是为了解决数据孤岛、数据隐私问题。
联邦学习可以看成是一种分布式机器学习框架,而与我们常见的分布式机器学习框架不同的是,联邦学习中使用了加密技术,并且各方数据保存在本地。
以下以展示了谷歌基于用户安卓手机端进行的联邦学习过程,各个用户使用手机训练自己的本地模型,并将模型相关参数回传给一个聚合中心节点,聚合中心节点聚合各方参数后,得到一个共享模型,将共享模型发送给各个用户手机,用户手机再基于自身的数据进行模型训练。如此反复,直至收敛。
2、联邦学习分类
考虑到各方数据的特征维度和样本差异,联邦学习可分为三类:横向联邦学习、纵向联邦学习、联邦迁移学习。
2.1横向联邦学习
在数据集共享相同特征空间但样本不同的情况下引入了横向联邦学习或基于样本的联邦学习。例如,两个区域银行可能具有与其各自区域不同的用户组,并且它们的用户的交集非常小。但是,它们的业务非常相似,因此要素空间相同。
- step1:参与方各自从服务器A下载最新模型;
- step2:每个参与方利用本地数据训练模型,加密梯度上传给服务器A,服务器A聚合各用户的梯度更新模型参数;
- step3:服务器A返回更新后的模型给各参与方;
- step4:各参与方更新各自模型。
总结横向联邦学习如下:
2.3.2纵向联邦学习。
针对纵向划分的数据,提出了保护隐私的机器学习算法,包括合作统计分析,关联规则挖掘,安全线性回归,分类和梯度下降。纵向联邦学习或基于特征的联邦学习适用于两个数据集共享相同的样本ID空间但特征空间不同的情况。
纵向联邦学习是聚合这些不同特征并以保护隐私的方式计算训练损失和梯度的过程,以利用双方的数据共同构建模型。 在这种联邦机制下,每个参与方的身份和地位都是相同的,联邦系统帮助每个人建立“共同财富”策略,这就是为什么该系统被称为“联邦学习”。
- step1:由第三方C向A和B发送公钥,用来加密需要传输的数据;
- step2:A和B分别计算和自己相关的特征中间结果,并加密交互,用来求得各自梯度和损失;
- step3:A和B分别计算各自加密后的梯度并添加掩码发送给C,同时B计算加密后的损失发送给C;
- step4:C解密梯度和损失后回传给A和B,A、B去除掩码并更新模型
在这样的系统中,有:
2.3.3联邦迁移学习(FTL)。
联邦迁移学习适用于两个数据集不仅在样本上而且在特征空间上都不同的情况。考虑两个机构,一个是位于中国的银行,另一个是位于美国的电子商务公司。由于地理位置的限制,两个机构的用户群体之间的交叉点很小。另一方面,由于业务不同,双方的特征空间只有一小部分重叠。在这种情况下,可以应用迁移学习技术为联邦之下的整个样本和特征空间提供解决方案。特别地,使用有限的公共样本集学习两个特征空间之间的共同表示,然后将其应用于获得仅具有一侧特征的样本的预测。 FTL是现有联邦学习系统的重要扩展,因为它可以解决问题,超出了现有联邦学习算法的范围:
3、应用
作为一种创新的建模机制,它可以针对来自多方的数据训练统一模型而又不损害这些数据的隐私和安全性,因此联邦学习在销售,金融和许多其他行业中很有前途的应用,在这些行业中,不能直接聚合数据进行训练 由于诸如知识产权,隐私保护和数据安全之类的因素而导致的机器学习模型。
以智能零售为例。其目的是使用机器学习技术为客户提供个性化服务,主要包括产品推荐和销售服务。
智能零售业务涉及的数据特征主要包括用户购买力,用户个人喜好和产品特征。在实际应用中,这三个数据特征可能分散在三个不同的部门或企业中。例如,用户的购买力可以从她的银行储蓄中推断出来,而她的个人喜好可以从她的社交网络中进行分析,而产品的特征则由电子商店来记录。
在这种情况下,我们面临两个问题。首先,为了保护数据隐私和数据安全,很难打破银行,社交网站和电子购物网站之间的数据障碍。结果,数据不能直接聚合以训练模型。其次,存储在三方中的数据通常是异构的,并且传统的机器学习模型无法直接在异构数据上工作。目前,这些问题尚未通过传统的机器学习方法得到有效解决,这阻碍了人工智能在更多领域的普及和应用。
联邦学习和迁移学习是解决这些问题的关键。 首先,通过利用联邦学习的特征,我们可以为三方构建机器学习模型而无需导出企业数据,不仅可以充分保护数据隐私和数据安全,还可以为客户提供个性化和针对性的服务,从而实现 互惠互利。 同时,我们可以利用迁移学习来解决数据异质性问题,并突破传统人工智能技术的局限性。 因此,联合学习为我们构建大数据和人工智能的跨企业,跨数据和跨域生态圈提供了良好的技术支持。
来源:
https://arxiv.org/pdf/1902.04885.pdf——论文
#4 联邦学习(Federated Learning)简介 - 知乎
让数百万台手机训练同一个模型?Google把这套框架开源了 - 云+社区 - 腾讯云
什么是联邦学习,谷歌为你画了部漫画 ——漫画解读,推荐:☆☆☆☆☆
联邦学习:概念与应用 - 知乎 ——论文解读,推荐:☆☆☆☆☆

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐
所有评论(0)