同盾科技李晓林：可信ai生态系统，将成为下一代ai医疗的「基础设施」 | 雷峰网-米乐m6平台

隐私计算

作者：吴彤

2022/04/19 10:56

隐私计算，能否让医疗数据释放应有的价值？

4月12日-15日，雷峰网《医健ai掘金志》以《隐私计算，让ai释放医疗数据的价值》为话题，邀请了四位隐私计算企业cxo，以线上云峰会的形式，讨论隐私计算的技术路线和在医疗场景下的实际应用前景，以及推演该产业的未来趋势。

此次医疗隐私计算云峰会中，同盾科技合伙人，中科院医学所首席科学家兼知识联邦产学研联盟理事长李晓林教授，做了首期分享。

他以《可信ai赋能医疗：让数据流通，让知识共享》为题，依次分享了可信ai平台建设的背景、可信ai平台架构，理论及实践、可信ai平台产品、可信ai平台在医药场景下的应用等四个方面。

他表示，数据已经成为医疗数字化转型升级的核心要素，但在隐私计算的商业化落地中，由于不同厂商技术方案和平台产品的差异，数据呈现出类似“联盟a”和“联盟b”的分裂，原本的“数据孤岛”成为了新的“数据群岛”。

目前，不同行业和领域都亟需一个通用的可信ai平台，在保护数据隐私、合法合规、保护数据价值的前提下，打通一个个数据群岛。

以下为李晓林的分享内容，雷峰网&《医健ai掘金志》作了不改变原意的编辑及整理。

可信ai平台建设的背景

医疗领域有各种各样的场景，不同场景下的医疗数据应运而生。

具体来看，医疗数据可分为组学数据库、药物化学数据库、疾病数据库，电子病历数据库、医学影像数据库，穿戴设备数据库等六类。

这些医疗数据被很多平台收集和使用，但在价值产生的过程中，它们也需要被严格保护。如今，数据隐私保护已经成为法律、政策文件的关注重点。从去年开始，数据安全法，个人信息保护法相继出台，数据隐私保护逐渐被社会所重视。

与此同时，数据隐私保护也加剧了医疗行业数据共享难、数据分析难的困境。

如今，我们一方面要保护数据隐私，另一方面也要打破数据屏障，尤其在以深入学习所引领的新一代人工智能的背景下，数据已经成为医疗数字化转型升级的核心要素。

但问题是，医疗数据不仅面临数据隐私难题，同时也面临门槛高、数据异构、类型复杂等问题。我们要将每一个医疗领域积累多年的组学、基因、 dna、影像等数据集合起来，难度非常大。

此外，在整合过程中，不同病人、不同医院之间涉及到多方数据权益和多重数据标准，也让数据共享变得更具挑战。

那么隐私计算如何解决数据共享和数据流通的问题？

为了保护数据隐私，还要发挥数据价值，实现数据的安全合规流通，70年代开始，业界已经推出了一系列的隐私计算技术手段，比如同态加密、秘密分享等一系列数据“可用不可见”的思想。80年代，则衍生出多方安全计算、mpc等思想。

而在近几年，又出现了三种新思想，比如可信执行环境（tee，trusted execution environment），联邦学习（fl，federated learning），知识联邦（kf，knowledge federation）。它们共同把隐私计算推到了下一代可信ai的高度。

但与此同时，在隐私计算的商业化落地中，因为不同厂商技术方案和平台产品的差异，数据呈现出类似“联盟a”和“联盟b”的分裂，原本的“数据孤岛”又成为了新的“数据群岛”。

因此，各行各业亟需建设一个可信ai平台。在保护数据隐私、合法合规、保护数据价值的前提下，连通数据群岛。

目前，市场中的开源框架、主流研究聚焦在联邦算法层级的研发，并不能彻底解决“群岛”割裂的瓶颈。

想要充分地共享数据，共享知识，保持数据流通，首要问题是要有“一致性的保障”。

即联邦中的多个成员节点，在约定协议的保障下，对一系列操作的处理结果达成“某种程度”的认同。比如连接上保持任务、节点、状态一致；流通上保持参数、算法、模型、加密、应用、监管日志一致。

可信ai平台架构、理论及实践

为解决不同联邦系统的互联互通问题，以及在更大范围内建立联邦生态网络，同盾科技打造了基于隐私计算的开放ai平台。

首先是这个平台的架构。

为充分发挥数据流通的价值，同盾科技打造了一套基于隐私计算的开放共享智能平台，其核心是智邦平台ibond，底层是智邦的内核icore。

此外，同盾科技还打造了全面互联互通参考模型firm模型（open federated system interconnection/referencemodel，即图右框架）。

这是一个多层次的互联互通参考模型，把互联互通分为四个层次，包括通信层（ionic）、数据交换层（flex）、算法层（caffeine）、应用层（safe）。其中，通信层、数据交换层，是参与方进行安全数据交换的基础。

理论上，firm中每一层都建立在它的下层之上，向它的上一层提供一定的服务，并把如何实现这一服务的细节对上一层加以屏蔽。

为此，需要针对每一层定义标准化的协议规范，并在协议中详细描述该层所提供的服务和动作，以保证提供有效的服务。

而且，每层的功能定义与实现细节相区分，从而使得模型具有普遍的适应能力。

其次是这个平台的理论--知识联邦。

知识联邦的理论框架包括4个层次：

底层是信息层，从数据提炼成信息，可以通过一定的计算或者查询，甚至是一些密文的相对简单的统计信息；
模型层可以做一些联合建模，做一些相对复杂的一些机器学习模型，或者深度学习的模型；
认知层是一个中间状态的集合层，可以支持迁移学习，集成学习，知识蒸馏等等；
知识层可以做一些知识推理和知识的发现表达。

这四层全方位融合了多方安全计算（mpc）、联邦学习（fl）、可信执行环境（tee）等多种技术，实现了数据可用不可见、知识共创可共享，并首次将认知和知识引入隐私计算范畴，目标是实现下一代可信、可解释、可推理、可决策的人工智能。

目前，知识联邦支持安全多方查询、计算、学习、推理等多种功能。从技术上看，知识联邦在借鉴一些相关技术的同时，也具有一定的独创性，尤其是认知层和知识层联邦都属于国内自主创新，超越了国外的初级联邦学习。

最后是该平台的实践--数据安全交换协议flex。

数据安全交换协议的flex(federated learning exchange）是一套开源的标准化联邦协议。

flex协议约定了联邦过程中参与方之间数据交换顺序，以及在交换前后采用的数据加解密方法。就像http协议承载了我们今天看到的极度丰富的互联网应用一样，联邦协议也是建立联邦学习应用所必不可少的基础协议。

有了这个协议才能使得联邦学习应用得以标准化，使得联邦学习过程中的数据安全、模型性能得到有效的保障。

它的实现方式是通过约定联邦过程中参与方之间数据交换顺序，以及在交换前后采用地数据加解密方法，从而打破平台孤岛。

目前我们已发布《知识联邦数据安全交换（flex）白皮书》，体现了两层协议：

一是应用协议，面向联邦算法的，为联邦算法提供多方数据交换的应用支撑。联邦过程中采用的通信协议也会被封装在这里。

二是公共组件，是上层应用协议所依赖的基础密码算法和安全协议，比如同态加密、秘密分享等。

可信ai平台产品

首先，为了让知识联邦得到更好地应用，我们基于知识联邦理论框架和flex交换协议，打造了平台产品--智邦ibond。

它包括一系列的工业界应用场景，都以数据可用不可见的方式执行，比如发起联邦和mpc、调度任务、注册数据等。

对于用户来说，既可以从算法库里面直接调用简单算法，也可以自己定制。接下来，用户可以把任务递交给智邦平台做调度和执行，并对输出的结果做出评测，比如性能评测，功能评测，日志检查等。

此外，用户也可以递交应用、数据、算法、通讯协议到我们的数据要素市场，用于替换我们的底层数据通信层。

其次，基于合规的互联互通，我们进一步打造出数据的要素市场，即智邦idata。

各方数据可以在这个统一平台上，以安全合规的方式做交换、交易，共享。

以数据交易举例，智邦idata将不用的用户划分为数据提供方、数据使用方；应用开发者、应用提供方、使用方。各方将数据、应用发布在idata上，按照贡献度、使用量或者市场机制给予数据定价，从而实现数据价值变现。

比如在国内医罕见病的治疗上，就可以将全国各地医院和科研小组的罕见病数据都放到idata数据要素市场，从而极大提高某一罕见病的医疗数据，从而进一步提高疾病诊疗模型。

在这些工作的基础上，我们希望能够建成一个真正的医疗可信ai平台：国内各种医疗机构能够安全、合法合规地共享医疗数据，最大化生产资料的潜力，促进新的诊断算法和新的医疗生态诞生。

可信ai平台在医药场景下的应用

在智慧医疗、普惠医疗和药物创新领域，可信ai平台能够提供哪些帮助？

第一个应用案例是用密文计算做医疗辅助诊断。

对人工智能辅助诊疗来说，根本上是以大数据作为训练基础，不仅需要丰富多元的医疗大数据，还需要打上大量的数据标注。对小型医疗机构或者偏远地区的医疗机构来说，它们并不具备模型训练能力。

但对于很多大型医疗机构，它们既有能力采购高精设备，还拥有丰富的患者病例，从而沉淀出高质量标记数据和ai辅助诊断模型。

小型医院就可以通过智邦平台将加密数据提供给大型医疗机构，利用大型医疗机构的数据优势提升ai模型的诊断能力。

无论是通过同态加密、mpc、联邦学习，还是大模型的共享模型做数据共享，小型医疗结构都可以获得相当高的数据精度，而不会受限于小数据或者小模型的难题。

第二个应用案例是通过安全sql来查询，做健康险风险等级评估。

在对投保人的健康做风险评估中，查询方为保险机构，被查询方是持有投保意向用户的id信息医疗的大数据机构。

当评估风险时，一般需要在保护用户隐私且保证数据安全的前提下综合分析bmi和年龄。当“投保人bmi ≤25且年龄＜50岁”，则被认为是具有较高信用的投保人。

在实际操作中，我们就可以用到隐私计算，通过sql语句和psi对投保人进行风险评估。这样既不会泄露用户隐私，又能够得到精确评估结果，是一举双得的结果。

同样，也可以通过联邦建模对某种疾病患者的社会行为做出风险评估。比如公安局或者卫健委，通过多方联合建模实现对重性酒精依赖疾病患者肇事肇祸动态风险评估，从而分级分类监管，精准预判，提升居民公共安全等级。

第三个案例是通过联邦建模，实现个性化智能诊疗。

比如很多有基础病的老年人确诊新冠，这时候他们会出现什么并发症，每种并发症出现的可能性有多大？

现如今，通过机器学习对患者手术前后做出个性化的并发症预测，是一种显著提高患者可救性的一种方式。通过对真实临床大数据进行联邦建模，在数据清洗、临床特征提取和结构化数据基础上构建预测模型，具有强大的风险预测能力，且能够准确分类不同风险级的患者，帮助医生科学决策。

此外，隐私计算也能适应于罕见病的治疗上。

比如每个医院在一些罕见病数据上有一定的保密，病人信息也会涉及到个人隐私，那么我们可以通过多家医院协同共创一个隐私计算大模型来共享数据，从而提高罕见病的治疗能力。

目前我们已经推出医生专家与可信ai平台协同互补（人机协同，human in the loop）的诊断模式，医生专家可以在辅助诊断的基础上对病人做出一些判断，同时提升可信ai平台上的算法或者模型的预测精度。

第四个案例是认知层的联邦学习，通过知识蒸馏，协作药物发现。

制药领域也通常面临非常复杂的知识产权和经济利益问题，使得制药机构之间进行数据直接共享和合作几乎不可能。但同时，基于神经网络的药物发现模型所需的参数量较大，在进行参数聚合时，模型训练时间随着数据量成指数倍增。

因此，药物发现过程的数据变得极为珍贵和稀缺。

那么有什么方式能够共享药物发现数据？

一是通过联邦学习，解决多个制药机构利用nn模型进行协作药物发现的问题，效果显著优于单机构仅使用私有数据本地nn建模；

二是通过蒸馏学习，解决参与聚合的模型参数量过大的问题，并获得与直接整合各机构药物分子结构数据进行nn建模相同/近似的模型效果；

三是采用认知层联邦，对各参与方的知识进行迁移学习，可在保护药物分子结构隐私的前提条件下，解决领域适应和数据集偏移问题。

而且，针对一些药物失败的案例，这部分数据也能做资源共享，从而避免广谱地、随机地选择药物试验病人。

整体来讲，通过可信ai的平台能够解决多个制药机构、药物研发机构，研究院所或者研究小组的数据问题，帮助各方提升自己本地的药物发现的精度和成功率，甚至提高药物临床表现。

第五个案例是通过fpga，高效隐私保护机器学习。

多方联合建模时，往往通过同态加密技术对传输/聚合的参数进行保护。但密文加解密及基于密文上的运算，计算速度常常是建模的瓶颈问题之一。

如果采用软件硬件(如: fpga、 gpu、加密卡等)复合技术，构建基于加解密芯片的聚合器，把fpga嵌入到联邦学习系统，则能够显著提高加密算法(如paillier) 的执行速度和并行度，从而提高数据加密和解密的效率，减少训练的迭代时间。

这一方法可用于可信ai平台在医疗领域的使用，比如医疗影像的数据非常庞大，如果能够通过硬件加速来全方位提升运算效率，那么将很大程度地推进医疗隐私计算和数据安全交换等应用。

以上就是我的分享，谢谢大家。

此外，医健ai掘金志也上线了李晓林教授的演讲视频，感兴趣的朋友可以关注公众号医健ai掘金志，对话框回复关键词“李晓林”，即可回看。

雷峰网雷峰网(公众号：雷峰网)