E-mail: ynliu@guet.edu.cn 数据发布中的隐私保护技术 刘忆宁 E-mail: ynliu@guet.edu.cn 主页:http://www.scholat.com/lyn7311
在校研究生 2016级硕士生 宋精诚(硕博连读) 吴珍(硕博连读) 周元健 王艳平 2017级博士生 王朋 2017级硕士生 曾志新(硕博连读)胡燕翔 潘家霁 吕松展 2018级博士生 MaazMalik 2018级硕士生 陈景雪 程洪圆 王晓迪 2019级硕士生 杨靖康 刘锦强 梁杨帆 董思亮 已毕业且仍奋斗在学术研究领域的包括: 曹建宇(2009级)、刘高(2013级)、赵全玉(2014级)、钟婍(2014级)、郭巍(2015级)
研究背景
大数据时代正在到来 早在1980年,著名未来学家阿尔文·托夫勒便在《第三次浪潮》一书中,将大数据热情地赞颂为第三次浪潮的华彩乐章。 2009年开始,大数据成为互联网技术的流行词。 互联网上的数据每年增长50%,每两年便将翻一番。 数据并非只是在互联网上发布的信息,全世界的工业设备、汽车、电表上有着无数的数码传感器,随时测量和传递着有关位置、运动、震动、温度、湿度乃至空气中化学物质的变化,也产生了海量的数据信息。
为什么说大数据时代正在到来? 非法数据交易渠道大量存在,说明有巨大的需求; 大量的数据仍然被孤立地存储在各个平台,没有被真正的汇集在一起; 阻碍数据融合的最主要因素是安全风险和隐私泄露。
大数据中隐私保护 个人感觉,大数据隐私保护可以分为: 数据库基础的,主要从对抗数据分析数据挖掘的角度来做 密码学基础的,主要从密码协议分析的角度来做
隐私性与安全性是不同的,安全性包括: 机密性、认证性、完整性,都限定数据只能在授权的成员间共享 传统的加解密算法,无法满足向非授权用户共享数据的要求 数据发布之前,需要做隐私化处理
我们近几年关于隐私保护的研究 基于差分隐私 加噪声 数据聚合 在不需要可信机构的前提下算总和 基于差分隐私 加噪声 数据聚合 在不需要可信机构的前提下算总和 有些数据 加噪声或聚合后失去意义,因此需要做数据和数据源之间的不可连接性
主要密码学工具 k-匿名 盲签名、零知识 差分隐私 数据聚合 n-源匿名
方法的优缺点 k-匿名 需要对数据的属性做处理,比如压缩等 差分隐私 在原始数据中加入噪声 数据聚合 把一个区域的数据聚合后发布 简单易行,容易理解, 但发布出来的不是原始的数据,而且有些数据加入噪声或聚合后,就失去了意义
零知识证明 过程较为繁琐 有的隐私化处理过程,需要可信机构的参与 有的协议,要求全部数据采集者诚实执行操作,不太适合于大规模的情形 有的协议,前期通信量较大,不太适合于IoT等资源受限的终端设备
我们所做的工作 电子投票协议 数据聚合协议 保持原始性的数据收集协议 轨迹隐私协议
E-voting using ZKP Yining Liu, Peiyong Sun, Jihong Yan, et al. An Improved Electronic Voting Scheme without a Trusted Random Number Generator, Inscrypt’2011, LNCS 7537, pp. 93-101. (中国计算机学会、中国密码学会推荐会议) Yining Liu, Wei Guo, Chi Cheng, ChingFang Hsu, Junyan Qian, Changlu Lin. A Robust Electronic Voting Scheme Against Side Channel Attack. Journal of Information Science and Engineering, vol. 32, no. 6, pp. 1471-1486, 2016. (中国密码学会推荐C类期刊) Yining Liu, Quanyu Zhao. E-Voting Scheme Using Secret Sharing and K-Anonymity. World Wide Web: Internet and Web Information Systems. DOI:10.1007/s11280-018-0575-0, 2018. (中国计算机学会推荐B类期刊)
被引用情况 2017年9月被图灵奖获得者R.L. Rivest教授收入专著 《Software Independence Revisited》。
2016年9月被收入CRC Press出版的专著《Real-world electronic voting: Design, Analysis and Deployment》. “Liu et al. note that reliance on a random number generator is a potential security vulnerability and devise an alternative solution” Peter Y.A. Ryan教授是卢森堡大学信息安全中心负责人,安全工程领域著名专家。研究方向包括:安全应用工程,密码学,信息保障,形式化验证以及安全投票机制与系统等。他开创了流程代数在安全系统建模和分析中的应用,在1989年的计算机安全基础研讨会上介绍了非干扰的第一个过程代数(CSP)方法。
投票者的个人选择是私有数据,持有的选票及发布的信息均为公共数据 协议目标: “可验证性”与“抗胁迫攻击”的同时实现, 即投票者可以验证自己的参与是否被正确计票,但从公开数据不能推导出投票者的选择
E-voting 的攻击模型 攻击模型包括潜信道攻击(Subliminal Channel Attack)、侧信道攻击(Side Channel Attack)。 在“Advances in Cryptographic Voting Systems”中有如下一段话,刻画了投票协议中的信任模型与攻击模型。 We assume that all voters are potential adversaries when it comes to coercion. We note that, in any scheme, a voter may take a photo of her ballot using a camera-phone: in Hong Kong in 2004, mainland Chinese residents were asked by authorities to have their relatives mail them camera-phone pictures of their ballot. This is the side-channel attack
Bingo Voting http://en.wikipedia.org/wiki/Bingo_voting “Bingo voting: secure and coercion-free voting using a trusted random number generator,” in Proc. VOTE-ID 2007, 2007, vol. 4896, LNCS, pp. 111- 124. “Enhancing electronic voting machines on the example of Bingo voting,” IEEE Transactions on Information Forensics and Security, vol. 4, pp. 745-750, 2009. “Improving and Analysing Bingo Voting”, PhD thesis, University of the State of Baden-Wuerttemberg, 2012.
密码学工具 Pedersen’s Commitment Zero Knowledge Proof Secret Sharing
Bingo voting relies on TRNG to reflect and mask the intention of the voter.
Example of Improved Bingo Voting Pre-voting Phase
The Improved Bingo Voting
The list of voter’s receipts
The dummy vote pool in the post-voting phase
ZKP for the correctness of the used dummy votes
数据聚合研究 Yining Liu, Gao Liu, Chi Cheng, Zhe Xia, Jian Shen. A Privacy-Preserving Health Data Aggregation Scheme, KSII Transactions on Internet and Information Systems. Vol. 10, no. 8, pp. 3852-3864, 2016. Yining Liu, Wei Guo, Chun-I Fan, Liang Chang, Chi Cheng. A Practical Privacy-Preserving Data Aggregation (3PDA) Scheme for Smart Grid, IEEE Transactions on Industrial Informatics, vol. 15, no. 3, pp. 1767-1774, 2019. Jingcheng Song, Yining Liu, Jun Shao, Chunming Tang. A Dynamic Membership Data Aggregation (DMDA) Protocol for Smart Grid. IEEE Systems Journal, Doi: 10.1109/JSYST.2019.2912415.
某个区域的数据的和或平均值,作为公共信息发布 基本上保持了原始数据的统计特征 掩盖了单条数据的值 有的基于差分隐私,有的基于安全多方计算
基于差分隐私的聚合 Name Age Gender State of domicile Religion Disease Ramsha 29 Female Tamil Nadu Hindu Cancer Yadu 24 Kerala Viral infection Salima 28 Muslim TB Sunny 27 Male Karnataka Parsi No illness Joan Christian Heart-related Bahuksana 23 Buddhist Rambha 19 Kishor Johnson 17 John
Name Age Gender State of domicile Religion Disease * 20 < Age ≤ 30 Female Tamil Nadu Cancer Kerala Viral infection TB Male Karnataka No illness Heart-related Age ≤ 20
实验证明,仅仅把身份信息去掉,是不能满足隐私性要求的。 当有多个数据库被关联时,依然可以把相关的用户信息Re-identification.
差分隐私 Differential Privacy 向数据集注入一些噪声或者说扰动,这个扰动不能随便加,否则数据就丧失了可用性。扰动也不能太小,否则就起不到保护隐私的作用了。 简单来说就是,你给我一个数据集A。假如我有一个加扰机制,可以先对A做一个扰动得到A’,再从原数据集A里随意拿掉一行记录得到B,对这个数据集B做扰动得到B’。 如果得到的A'和B’几乎是一模一样的,那么就认为这个扰动机制可以保护隐私。因为在这个扰动机制下,A里面任何单独一行数据存在或不存在都几乎不影响结果。
基于差分的数据聚合 A Privacy-Preserving Health Data Aggregation Scheme, KSII Transactions on Internet and Information Systems. Vol. 10, no. 8, pp. 3852-3864, 2016.
System Model
Initialization Phase
Aggregation Phase
基于虚拟聚合域的数据聚合之一 A Practical Privacy-Preserving Data Aggregation (3PDA) Scheme for Smart Grid, IEEE Transactions on Industrial Informatics, vol. 15, no. 3, pp. 1767-1774, 2019.
Aggregation Model
DCU 聚合密文,但无法得到明文 DCU 把聚合后的密文发给OC OC与Smart meters合作,得到明文的聚合值
密码学工具 Lifted ElGamal encryption system Pollard's lambda algorithm Batch verification of short signatures
主要流程
基于虚拟聚合域的数据聚合之二 Jingcheng Song, Yining Liu, Jun Shao, Chunming Tang. A Dynamic Membership Data Aggregation (DMDA) Protocol for Smart Grid. IEEE Systems Journal. Doi: 10.1109/JSYST.2019.2912415
Aggregation Model
Goals AC聚合密文,但不能解密 OC只能解密聚合后的密文 User可以互相合作更新密钥 允许新用户的加入和聚合系统中用户的退出 通过密钥的更新阶段,可以实现用户相互之间进行密钥的更新;由于密钥更新阶段的存在,使得协议可以满足前向和后向安全,即不能通过更新前的密钥推测更新后的密钥,也不能通过更新后的密钥推测更新前的密钥。这使得方案不需要一个可信的机构来进行密钥的分发,大大的降低了协议的鲁棒性 用户的加入和退出方法是本文最为重要的一个贡献点
密码学工具 Bilinear Map ID-based Signature 通过基于身份的签名,降低了协议对公钥存储的压力,使我们文章本来的贡献点之一,后来删掉了
Registration Phase Step 1: UNew selects a secret key skNew, and sends to OC. Step 2: OC updates skSum by adding skNew to skSum Step 3: Unew executes a key update. 注册时,由于删除了所有的认证内容,因此剩余的内容很简单,就是新用户自己选择一个密钥发给中心,中心把这个密钥加到自己的解密“和”密钥上面就行了。为了保证用户密钥OC不能知道所以才会需要立刻进行一次更新
Key Update Phase Step 1: Ui and Uj product a session key using Diffie-Hellman key exchange. Step 2: Ui and Uj exchange two random numbers Ri and Rj Step 3: ski ' = ski −Ri + Rj skj ' = skj + Ri −Rj 更新阶段就是两个用户先协商一个会话密钥,利用会话密钥交换一对随机数,然后两个人把自己给出的随机数减掉加上对方给自己的随机数就可以了。通过这种方式完成密钥更新,可以保证所有密钥的和不变,OC手中的解密密钥依然能够奏效,但是OC又不知道每个人的密钥是多少
Aggregation Phase 聚合的过程包括 每个人在自己的明文上加上自己的密钥 AC将所有密文加和在一起 OC用密文之和减掉自己手中的密钥之和就是明文之和
Logout Phase Step 1: Ui executes a key update. Step 1: Ui sends ski to OC. Step 2: OC updates skSum by subtracting ski 退出和加入差不多,首先为了防止之前加密过的内容被获知,退出前需要先更新一次(或者几次)密钥,然后把密钥发给OC让OC减掉就可以了
保持原始性的数据收集协议 Privacy-preserving data collection for mobile phone sensing tasks. ISPEC2018. LNCS 11125, pp. 506-518, 2018. (中国密码学会推荐会议) Privacy-preserving raw data collection without a trusted authority for IoT. Computer Networks. Vol. 148, pp. 340-348, 2019.(CCF推荐B类期刊)
IoT数据采集中的隐私保护 一方面,汇集起来的大数据越多,价值也越大; 另一方面,数据泄露存在巨大的风险
我们主要的创新点: Raw: 数据没有被聚合或平均、属性没有被修改、数据也没有加入噪声,数据的原始性得到保持; Unlinkability: 没人知道哪条数据来自哪个设备或用户; Without Trusted Authority: 不需要可信机构
使用的工具: Blind signature Shuffle DDH Assumption
卡槽位生成 Signature of participant’s slot data on server's private key. Slot data list. If the slot data is constructed deliberately(showed in the left figure, the slot data is IDr)。 The server signs slot data( ), broadcasts the slot data list and the signed slot data . The participant gets his signature , removes the random number to obtain the signature of his ID on server's private key. When the task ends, participants will be rewarded with their ID signature.
填充数据生成 Slot is 3 m1 Slot is 1 m2 Slot is 4 m3 可以直接念PPT Slot is 2 m4
填充数据生成
数据被完整提取, 但没有人知道哪条数据来源于哪个终端 Aggregation 可以直接念PPT …
轨迹隐私 Jiaji Pan, Yining Liu, Weiming Zhang. Detection of dummy trajectories using convolutional neural networks. Accepted by Security and Communication Networks. (硕士生为第一作者)
轨迹隐私面临的现状与解决方案 假轨迹方案 移动终端 当今社会,个人隐私泄漏问题层出不穷,其中以个人的轨迹隐私泄露带来的问题最为严重,因为个人轨迹隐私的泄露关系到人身安全与财产安全。 只能截取k条无法分辨真伪的轨迹 假轨迹方案 移动终端 TTP(可信第三方) 难以实现 LBS(基于位置的服务)提供商,潜在的用户轨迹隐私窃取者 信息未处理,无法防御信道截取 K-匿名方案 轨迹抑制方案 差分隐私方案
传统假轨迹生成算法面临的问题 传统轨迹生成算法都只考虑了轨迹的几何意义而未考虑到真实轨迹所包含的人类移动模式,只是把轨迹看作是随机概率的产物,故而容易受到一些轨迹特征分析的攻击。 我们针对这一问题,设计了基于卷积神经网络(CNN)的假轨迹检测方案,一方面,验证了现阶段的假轨迹生成算法无法抵御基于深度学习的数据挖掘攻击,另一方面,该CNN可用作过滤器,过滤掉假轨迹生成算法生成的与真实轨迹分布不符的生成轨迹,从而提高生成轨迹的可用性
假轨迹检测方案
fully connected layers 轨迹数据预处理与CNN模型 fully connected layers Classification Trajectory dataa Data preprocessinga Network training Gradient descent Model output Loss Label Softmax CNN Trajectory section rt ft X1 Y1 Roa1 Rl1 X2 Y2 Roa2 Rl2 … Xm-1 Ym-1 Roam-1 Rlm-1 直角坐标系位置x,y 相对偏移角 相对长度
欢迎大家批评指正