「郑义」当数据成为市场化要素,区块链技术如何保护隐私?

原创 时光默念  |  文章来源:币圈达人发布时间:2020-05-24 01:53  阅读 113 次 评论 0 条
众人帮 趣闲赚 牛帮
摘要:

近日,国务院关于市场要素改革中专门增加了一项条例,将数据作为生产要素的一部分。它本质上为了加强整个市场化配置,并且向新旧动能转换,向新经济靠拢,把数据作为一种生产要素必然存在着对数据的确权,数据确权以后才能交易。
在过去十年中,大数据已经逐

近日,国务院关于市场要素改革中专门增加了一项条例,将数据作为生产要素的一部分。它本质上为了加强整个市场化配置,并且向新旧动能转换,向新经济靠拢,把数据作为一种生产要素必然存在着对数据的确权,数据确权以后才能交易。

在过去十年中,大数据已经逐步渗透到人们的日常生活,但仍旧面临着许多问题,其中最重要的问题当属数据隐私。2020年4月14日, Qtum隐私计算负责人郑义接受国盛区块链采访,对话聚焦隐私保护,详细阐述了隐私技术的发展,并进一步深入讨论了在大数据行业内,隐私技术将如何落地解决行业痛点。

以下为访谈文字实录:

Q 目前在大数据行业里面痛点是什么,数据隐私保护是怎么做的?

郑义:我是区块链项目Qtum的核心开发人员。我们对数据隐私包括区块链上的数据隐私,是很少地能够掌握这一领域技术的团队。这一领域确实比较复杂,比较困难,尤其是密码学在整个理工科里面都是属于比较难啃的硬骨头。

现在在数据确权领域,无论是区块链里面还是区块链外面,最基本的做法是做电子签名。我们在普通的电子交易里面经常会有签名、证书,我们访问一些网站,大家会看到证书这个东西。区块链里面叫私钥,一个非对称加密技术。基本原理是你自己会有一个密码,对应有一个公钥,你可以理解这个密码是一对组合,有一个公钥,一个是私钥,私钥是自己知道的,公钥是发出去所有人都知道,这是你的公钥。在金融领域就叫证书,证书是公钥,所有人都能知道的,私钥是只有自己本人所保存的。

我们有了这样一个公私钥密码对两个数据之后,我们自己手里唯一的密码来对要确权的数据生成电子签名。任何人拿着这个电子签名、数据,公钥三个东西可以通过验证,说这个签名确实是我生成的,大家可以发现签名和我们普通场景下手写的签名非常像,这个东西只有我才能够生成,我签在这份文件上,我向公众确认这份文件我确权了。

在区块链里面受到一些限制,比如说希望我们签名尽可能的小、希望多个人对同一份文件进行签名。这会衍生出很多算法。比如ECDSA、Schnorr、BLS,基本上都是从性能的角度来考虑的。

Q 什么计算场景用到了隐私计算?

郑义:隐私计算是面对这样一个场景的,比如说我自己是一个数据的生产者,我自己是运营商,我手里有很多数据,第三方需要我的数据计算得出一个结论,比如说用户征信、资产水平。我不想把原始数据完整给你,这样会面临很大的风险,你有可能拿着我的原始数据进行二次贩卖、泄露。所以痛点在于我既想让你用我的数据做计算得出你想要的结论,我又不想把原始数据给你。

去年国家提倡发展区块链技术之后,很多传统企业都想围绕着这个场景做一些事情,我们接触的是电力行业,它们有每个用户用电数据,这个数据非常准确,特别是能够反应一个企业的经营状况,它想做一个系统,但它不想把数据给你,你又可以拿数据做计算得出你想要的结果。

针对这样场景最开始的解决方法,我们会经常听到一些名词,一个叫同态加密,一个是可信计算。

真正能落地的,大家都知道加减法的隐私计算是比较好做的,我不给你原始数据,而是给你加密后的数据,你拿加密后数据做加减乘除,最后得到一个结果找我要原始数据。有一个问题,加减法以外的计算能够做到答案是可以做到的,但是计算量会增加很多,原本可能做的计算是很快,计算量很小,但是为了做隐私计算会加上很多计算量,导致现在计算过程中特别缓慢。

这个技术叫ZK-SNARK技术,这已经用在区块链领域了,但是性能不太理想。现在区块链能够做到十秒生成一份加密后的交易数据,交易数据无非是交易地址和交易金额。为了生成一份隐私后能够参与计算的加密后数据,要花十秒钟时间,这个代价非常大。技术最初由微软研究院2013年提出的,一开始的算法更加复杂,计算量更加大,2014、2015年的时候改了两版,改完之后立刻用到区块链领域里面,可以做任意复杂的隐私计算,不涉及加减乘除范围内,这是复杂计算的隐私计算技术第一次真正应用在我们的现实场景中,以前都是概念和理论阶段,这是我个人认为的第一次应用。

全世界领域做的比较好的是英国的伦敦大学、牛津大学和美国斯坦福这几个学校,后续大多数技术由它们提出的,一直演变到今天,这个又经过很多迭代,最后性能问题还是没有完全解决,但是已经是可用的状态了,这也是目前业内最主流的广义的复杂计算的隐私计算的技术方法,已经成熟应用到区块链领域了。

Q 为什么隐私计算中计算量和效率会大打折扣?

郑义:技术领域数据同态加密算法比较有限,最常用的是RSA和椭圆曲线的方式,加解密方式不难,难的是拿到加密后数据的用户要对加密数据做加减乘除运算,不是原本的加减乘除,而是另外一种计算方式,技术领域叫做原本空间的数据映射到另外一个空间的数据。

Q 这中间信任的过程需要用计算来弥补对吗?又是如何实现加密的呢?

郑义:是的,过程中需要用计算来弥补。目前加密技术主流就两种,一种是RSA,一种是椭圆曲线,这两种已经成熟应用到日常的领域中,包括网站上面的HTTPS加密和电子签名。国内还会有一套国密系统,底层基本上都基于这两个方式。

加密要求把原文通过密码变成密文,没有密码不能从密文推倒出原文。在数学上是拿了密文,我理论上可以拿原文试,我穷尽所有原文可能来试出密文,我在数学上保证概率很小,所有的加密系统、算法都有这样的前提假设,就是不是完全不可以解密,而是解密概率小到一定程度。

怎么实现这个系统呢?主要的两种方法,RSA是基于素数的,就是不能被分解的数。椭圆曲线定义了椭圆形函数,它在函数上定义了一套加减法,可以定义这个点加那个点等于第三个点。

Q 数据的拥有者目前参与隐私计算意愿到底怎么样,或者会有什么顾虑呢?

郑义:据我们接触,目前我拿电力系统举例,这也是我们参与比较深度的项目,它们拥有的电力数据本身是非常敏感的,但是它们又有强烈的变现需求。我们目前运营商数据变现较早,你打一个电话,各种推销业务来了。之前P2P比较火,它可以通过各种数据知道你的信息,从而进行征信上的评定。

我们接触到电力系统的时候,它们也有非常强烈的变现需求,它们的这份数据之前尝试拿出去过,拿完之后立刻被使用者泄露了,这个泄露概率非常大。它们数据用来给银行做贷款是非常好的,银行给企业做借贷,在评估征信的时候拿用电数据可以非常准确评估企业经营状况,而它通过企业纳税,包括交的社保,很多都是有水分的,但是用电是骗不了别人。最后还是难以落地,卡在了两个环节,第一,隐私这项技术还是非常小众,国内能够掌握的人比较少,包括我们出去交流的时候不论和高校讲还是和企业讲,国内关注度都不高。隐私计算很多技术来自于国外,国内这项技术不够普及的,理论上都是知道的很少,应用就更少了,最后在真正立项的时候还是会有所顾忌,它们更多的希望有一些高校,会有一些学者来给它们做背书或者把关。

我还是以电力系统举例,它们自己虽然有意愿,因为这个东西是一个千古无人,后无来者的东西,之前没有任何人尝试过,任何人也没有去做第一个吃螃蟹的打算,它们会顾忌这里面的风险和复杂的问题,因为它们没有办法掌握这项技术,对这个有畏惧的心理,谁也不愿意第一个来做尝试。

总结一下,这个尝试代价太大,代价和风险很大,这就是目前行业里面的现状。

Q 技术上还是比较难?

郑义:我个人认为最好是重要的行业或者重要人物去尝试一下这个技术,稍微落地一下,后面才会跟上。每个领域都是需要一个带头者,比如无人驾驶带头者是特斯拉。中国的企业更多地愿意拷贝一个成功经验,很少愿意走出第一步,所以整个隐私计算还是等待第一个先驱迈出第一步才会有后面的事情。

Q 隐私计算怎么做审计?

郑义:这项技术也是比较成熟的。原理和之前的加密是一样的,除了给你结果之外,还会给你一个证明,你拿着密码和结果可以判断这个数据的真实性和准确性。

最好的方法是直接把加密的密码交给监管机构,让它来完全看隐私数据,你没有办法只暴露部分数据,或者加密一部分、暴露一部分,也没有办法说防止拿到密码之后不再泄露给第三方。

Q 假设作为电力系统的客户,有这样的一个审计需求,我们该怎么样实现对接,又该怎么样把数据给你,是开个接口在线访问,还是用一个物理介质?整个过程中会不会有数据泄露?

郑义:在目前技术背景下能够做到可实现,我们设计了一个方案。数据的供应方,比如电力系统,它提供一个平台,用户通过这个平台来查看数据,只能看部分,来做计算。用户如果想要把计算用到所有的数据上,平台提供者就把计算的过程应用到所有数据上,最后得出结果,反馈给用户,同时提交一份证明,表示这份数据确实是通过某一个原始数据计算得到的。

Q 平台提供方的盈利模式是什么?是怎么衡量数据价值的?

郑义:目前我们仍在技术探索和研究阶段,这个东西无论是国内还是国外都是比较新的,还没真正落地。大家觉得相对可行的方案就是以甲方乙方的方式,直接交付一套系统,提供几年服务。电力系统会有一些固定的IT解决方案供应商,我们也是跟它们联合,最后系统交付了之后真正维护的人是由它们提供的。作为数据的拥有者,去搭建了这一套系统,怎么向用户收费,这是我们完全没有考虑过的。

Q 个人如何对隐私数据确权?

郑义:这个问题最大的讨论领域是医药。例如医疗数据产生了,一份病例产生了到底属于谁,讨论了很久,最后发现这个问题最终在政策方向上,技术领域上有一些解决方案的,无论是签名还是加密,或者电子证书,但是官方或者从法律角度来说要承认这个东西是有效的。

比如拿苹果手机,在支付宝付钱,扫了一个脸,交易发出去了,钱就出去了,你必须要从法律角度先证明我苹果手机面部识别功能可以作为交易发起依据,而国内国外都没有立法。目前真正要实现,首先要立法,技术上是能保证的。

Q 假设我个人的数据在某互联网服务公司的服务器上,它有我的隐私数据,它想用或者我想给别人去用,我可以通过什么技术手段来授权?

郑义:加密是有手段的,首先上传数据的时候不要上传原始数据,而是上传加密后的数据,这个密码只有你本地知道。当任何一个第三方想要用你这份数据的时候,你和它沟通,沟通之后你们会商量出一个密钥,这只有你们俩知道,你自己在本地用这个密码再对数据加一次密,把加密数据给对方,对方拿着密码解密,它就有原始数据了,这个叫密码协商的技术,用来做隐私数据的通信、数据的加密通信。这个技术还是没有办法保证使用者拿了你的数据之后再次泄露给第三方,我们现在能够做到的是把你的数据有选择地暴露给某些人,暴露了之后再去暴露给其它人是没有办法阻止的。

Q 个人能从隐私计算中获益吗?

郑义:技术上是能够保证的,法律上不支持,法律上没有成熟的法律。需求也是强烈的,特别是像医疗系统里面,它们想要做的事情非常好,它想把病例贡献给人工智能公司,这些公司拿到病例之后去完善系统,这个系统可以做智能诊断。比如有人得病了,我现在去医院之前通过系统大致判断我有可能是哪几种病,到医院可以针对性挂对应科室。医生看到了之后也可以把症状表现输入到系统当中,病例上也可以提示是大概什么病辅助判断,最后还是卡在病例数据确权问题。人工智能公司愿意拿出钱来给数据提供商,给医院,它不敢收这个钱。收了钱,等于说医疗数据是属于医院的,而法律上是没有界定的,到底是属于病人还是属于医生还是属于医院。病人也是如此。

Q 可以简单介绍一下MimbleWimble协议吗?它跟别的协议有什么不同?

郑义:隐私保护要解决的问题在大框架上叫零知识证明。比如我在公司里面有很多朋友,我想向这些同事证明,我知道某一位美女同事号码,但我不想把这个号码告诉其他同事,我就当着所有同事面给她打电话,她电话响了。

MimbleWimble是能零知识证明的一种算法,ZK-SNARK也是一种。它们两个区别是,ZK-SNARK适用于任何知识的证明,任何计算过程或者任何加减乘除,但是MimbleWimble只能适用于加减法的证明,这两个技术最后都应用在区块链领域里面了。

MimbleWimble已经足够用在区块链领域。

区块链里面要证明的仅仅是我有这个数字货币的所有权,一个是我在发起一笔交易的时候这个交易的金额是能平的,我在转移一笔资产的时候,资产接收方拿到的数量和发起方转出去的货币资产数量是一样的,最后证明了所有权和加法上的证明,加上成立的证明。

MimbleWimble技术做到了这两点,它底层能在同态性,就是椭圆曲线加密,保证了明文的加减能够通过密文加减推出来。比如我手里有十个货币,我加完之后变成一个数字,我们叫A1,我转给你4个货币,我最后找6个货币,这个明文等于10=4+6,密文也可以证明,这是加法同态算法,MimbleWimble做到了这一点,这个应用场景更加特殊化,所以性能会好于ZK-SNARK,在数字领域发起交易能够在一秒之内实现的,这也是作为两年前才真正落地的算法,落地的时候还是比较受关注的。

Q 量子链现在研究隐私计算,主攻的方向是什么,到了什么程度?

郑义:MimbleWimble和ZK-SNARK我们都非常熟悉,这个领域我们在国内几乎没有可以讨论的人,更多地还是在和国外交流。基本上可以打平国外最新水平的,国外的技术发展到什么样我们就能掌握到什么程度,我们仅仅还是在创新应用上,我们自己设计一套新的或者超越已有算法的新的算法,这种我们目前还是做不到的。

具体应用场景并没有定论,我们更多的还是跟随着总体的节奏。ZK-SNARK目前更受重视。数字货币领域里面的账本数据的加密,目前不是特别火。也就是说,最近更多的侧重在广义数据的加密上。

Q 隐私计算和可信计算有什么区别?还有什么行业在隐私计算有比较好的落地应用?

郑义:关于第二个问题,我可以很明确地告诉你,没有,最大问题是没有先驱者。法律制定很重要,但是法律往往是滞后的,一般出现了大的落地应用,甚至影响到舆论时,法律才能跟上。

它们俩仅仅是概念上不同,你可以理解成为我们理解的云计算和分布式计算。云计算这个名字更好听一点,最开始从理论或者技术角度,大家先说分布式计算,你的计算本来集中在一台电脑,后来大家把这个概念扩大化,提出来了云计算。

可信计算和隐私计算也是一样的,从学术的角度大家先提隐私计算的概念,例如我刚才说的零知识证明,我要做一份计算不能暴露给你第三人原始数据,只能暴露给你结果,并且告诉你这个结果是可信的;后来又一些人演绎成故事,范围扩大了,场景更多了,提出了可信计算。

类似于分布式计算,隐私计算有严格定义,更学术,更小范围的;类似于云计算,可信计算没有严格定义,更商业化、范围更大。

历史上的今天:

本文地址:https://www.u5881.com/7882.html
版权声明:本站推荐的部分活动具有时效性,老淘本人并不能保证当您看到本文时,该项活动是否仍在继续。

发表评论


表情