隐私计算之浅谈联邦学习

天翼云开发者社区
• 阅读 479

本文分享自天翼云开发者社区《隐私计算之浅谈联邦学习》 作者:l****n

一、背景 “数据孤岛”简单的讲,各组织都持有各自的数据,这些数据之间互有关系但又独立存储于各组织。出于安全性、合规性等方面考虑,各组织只能查询、使用己方数据,无法交换其它组织的数据。在联邦学习出现前,针对数据隐私保护的密码学已应用于本地数据机器学习,随着“数据孤岛”问题的浮现,联邦学习的概念出现并发展的日益成熟。

二、联邦学习的概念 联邦学习的术语最早是McMahan等提出的,即“我们把我们的方法称为联邦学习,因为学习任务是由一个松散的联邦参与设备(我们称之为客户端)来解决的,而这个联邦设备是由一个中央服务器来协调的”。在比较权威的论文中有关于它的进一步定义便于我们理解:

联邦学习是一种机器学习设置,在中央服务器或服务提供商的协调下,多个实体(客户端)协作解决机器学习问题。每个客户的原始数据都存储在本地,不进行交换和传输;作为替代,通过特定的中间运算结果的传输和聚合来达到机器学习模型训练的目标。

而根据数据的分布形式,联邦学习可以分为三种:纵向联邦学习、横向联邦学习和迁移学习。纵向联邦限定各个联邦成员提供的数据集样本有足够大的交集,特征具有互补性,模型参数分别存放于对应的联邦成员内,并通过联邦梯度下降等技术进行优化。横向联邦限定各个联邦成员提供的数据集特征含义相同、模型参数结构相同,并使用联邦平均等隐私保护技术生成联邦模型。迁移学习既不限定数据集的特征含义相同,也不需要样本有交集,是一种在相似任务上传播知识的方法。

三、解决“数据孤岛”问题的难点与联邦学习的优势 难点: 1、数据安全保护。将不同组织的数据共享,除了数据泄露问题,还要考虑数据投毒攻/击等。 2、数据传输速度与成本。 3、数据定价难。 优势: 1、安全性:通过引入密码算法和其它多方安全计算方案,保证了在多方交互过程中只用到交集部分,差集部分不会出现数据泄露。 2、无损性:采用的同态加密技术保证了各方原始数据不会被传输,且加密的数据具有可计算性。 3、公平性:保证了参与方的公平性,让各参与方在数据独立的条件下建立联合训练模型。

点赞
收藏
评论区
推荐文章
Wesley13 Wesley13
3年前
SAP PP顾问面试题及资料
SAPPP顾问面试试题及资料1。主数据组织架构•SAP中主要的组织架构有哪些?哪些用于PP的组织架构?•成本控制范围、公司代码、估价范围、工厂、库存地点之间的关系物料主数据•不同的物料主数据视图的作用?•你们公司用到了哪些视图,哪些视图主要用在PP模块?•物料主数据视图与组织架构之间有哪些联系?
联邦GNN综述与经典算法介绍
联邦学习和GNN都是当前AI领域的研究热点。联邦学习的多个参与方可以在不泄露原始数据的情况下,安全合规地联合训练业务模型,目前已在诸多领域取得了较好的结果。GNN在应对非欧数据结构时通常有较好的表现,因为它不仅考虑节点本身的特征还考虑节点之间的链接关系及强度,在诸如:异常个体识别、链接预测、分子性质预测、地理拓扑图预测交通拥堵等领域均有不俗表现。
AF_XDP技术简介
本文分享自天翼云开发者社区@《》,作者:ln一.概述AFXDP是一项新增的,针对高性能数据包处理进行优化的地址族协议。本文档假设读者已经熟悉BPF和XDP。如果没有,可以参考开源Cilium项目在(http://cilium.readthedocs.io/
初探集群联邦
本文分享自天翼云开发者社区《》,作者:echooo一.什么是集群联邦?集群联邦(Federation)是将多个kubenetes集群注册到统一的控制平面,为用户提供统一API入口的多集群解决方案。集群联邦设计的核心是提供在全局层面对应用的描述能力,并将联邦
数据治理的长效机制
本文分享自天翼云开发者社区《》,作者:徐东数据治理遇到的困难数据治理是一个复杂而又富有挑战性的工作,需要各级管理人员和业务部门的积极参与和协作。虽然数据治理的目标“协同、降本、提效、创新”看似简单明了,但在实际操作中却会遇到各种各样的问题。问题1:组织运行
数据治理之数据分类分级
本文分享自天翼云开发者社区《》,作者:徐东为了更好地保护数据安全、提高数据管理效率、确保数据合规性,企业需要对数据进行分类分级,根据数据的密级和敏感程度制定不同的管理和使用策略,尽可能做到有差别和针对性的防护,避免敏感数据的防护不足,非敏感数据的过度防护。
数据治理之数据资产健康度量
本文分享自天翼云开发者社区《》,作者:徐东随着数据量的不断增加,数据治理已经成为了企业管理里不可或缺的一环。数据治理可以帮助我们更好地进行数据的管理和使用,从而提升数据的质量和价值,同时也能够保证数据的安全和合规。一、数据治理面临的问题数据治理中主要面临的
Flink 与Flink可视化平台StreamPark教程(CDC功能)
本文分享自天翼云开发者社区《》,作者:ln基本概念flinkCDC功能是面向binlog进行同步、对数据的增删改进行同步的工具,能够实现对数据的动态监听。目前其实现原理主要为监听数据源的binlog对数据的变化有所感知。在这里,我们只需引入相关依赖即可进行
Flink 与Flink可视化平台StreamPark教程(时间相关 1)
本文分享自天翼云开发者社区《》,作者:ln水位线与窗口对于流式数据,时间是一个重要的标识。在flink的事件时间语义下,我们不依赖系统时间,而是基于数据自带的时间戳去定义了一个时钟,用来表示当前时间的进展。于是每个并行子任务都会有一个自己的逻辑时钟,它的前
天翼云开发者社区
天翼云开发者社区
Lv1
天翼云是中国电信倾力打造的云服务品牌,致力于成为领先的云计算服务提供商。提供云主机、CDN、云电脑、大数据及AI等全线产品和场景化解决方案。
文章
933
粉丝
16
获赞
40