差分隐私

✍ dations ◷ 2025-11-27 01:54:53 #密码学理论,信息隐私

差分隐私(英语:differential privacy)是密码学中的一种手段,旨在提供一种当从统计数据库(英语:Statistical database)查询时,最大化数据查询的准确性,同时最大限度减少识别其记录(英语:Row (database))的机会。

设想一个受信任的机构持有涉及众多人的敏感个人信息(例如医疗记录、观看记录或电子邮件统计)的数据集,但想提供一个全局性的统计数据。这样的系统被称为统计数据库。但是,提供有关数据的综合性统计也可能揭示一些涉及个人的信息。事实上,当研究人员链接两个或多个分别无害化处理的数据库来识别个人信息时,各种公共记录匿名化的特殊方法都失效了。而差分隐私就是为防护这类统计数据库脱匿名技术而形成的一个隐私框架。

举例来说,2006年10月,Netflix提出一笔100万美元(英语:Netflix Prize)的奖金,作为将其推荐系统改进达10%的奖励。Netflix还发布了一个训练数据集供竞选开发者训练其系统。在发布此数据集时,Netflix提供了免责声明:为保护客户的隐私,可识别单个客户的所有个人信息已被删除,并且所有客户ID已用随机分配的ID 替代。

Netflix不是网络上唯一的电影评级门户网站,其他网站还有很多,包括IMDb。个人可以在IMDb上注册和评价电影,并且可以选择匿名化自己的详情。德克萨斯州大学奥斯汀分校的研究员Arvind Narayanan(英语:Arvind Narayanan)和Vitaly Shmatikov将Netflix匿名化的训练数据库与IMDb数据库(根据用户评价日期)相连,能够部分反匿名化Netflix的训练数据库,危及到部分用户的身份信息。

卡内基梅隆大学的Latanya Sweeney(英语:Latanya Sweeney)将匿名化的GIC数据库(包含每位患者的出生日期、性别和邮政编码)与选民登记记录相连后,可以找出马萨诸塞州州长的病历。

MIT的De Montjoye等人引入了单一性(英语:Unicity distance)(意为独特性(英语:uniqueness))概念,显示出4个时空点、近似地点和时间就足以唯一性识别一个150万人流动数据库中的95%用户。该研究进一步表明,即使数据集的分辨率较低,这些约束仍然存在,即粗糙或模糊的流动数据集和元数据也只提供很少的匿名性。

至今为止,比较知名的采用差分隐私的应用如下:

相关

  • 选民观念选民是指各种自认为“被神所拣选的人”。常常被视为是神挑选,实现天命(例如在地上充当先知)的人、甚至是一个受神喜爱的族群。这个词汇特别是用以指以色列人,因为在《旧约圣经·
  • 资料分析数据分析是一种统计方法,其主要特点是多维性和描述性。有些几何方法有助于揭示不同的数据之间存在的关系,并绘制出统计信息图,以更简洁的解释这些数据中包含的主要信息。其他一
  • 欧盟委员会主席欧盟委员会主席(英语:President of the European Commission)是欧盟委员会的首长,为欧洲联盟行政机关的最高执行官,亦可称为“欧盟总理”。1958年首次设立该职位,并根据欧洲议会选
  • 法语动词法语动词(法语:)是法语词性的一种。由于法语是一种屈折语,每一个词位都拥有很多限定与非限定的屈折形式。限定形式有八种时态-体-语气的简单形态。包括直陈式的现在时、未完成过
  • 安八町安八町(日语:安八町/あんぱちちょう  */?)为岐阜县西南部,浓尾平原西北部的町。
  • 亨利·孔蒂宁亨利·孔蒂宁(芬兰语:Henri Kontinen,1990年6月19日-),芬兰男子职业网球运动员。孔蒂宁在职业生涯中目前共赢得了22个冠军奖杯。在2017年夺得澳网男双冠军后,他的排名首次来到双打
  • RC4在密码学中,RC4(来自Rivest Cipher 4的缩写)是一种流加密算法,密钥长度可变。它加解密使用相同的密钥,因此也属于对称加密算法。RC4是有线等效加密(WEP)中采用的加密算法,也曾经是TL
  • 河西美希河西 美希(かわにし みき,1989年11月11日-)、日本山梨县出生的读者模特儿。
  • 圣费尔明节圣费尔明节(西班牙语:San Fermín)是属于西班牙纳瓦拉自治区首府潘普洛纳市的一项传统庆祝活动。该节日因为欧内斯特·海明威的著作《太阳照常升起》描写过其中的奔牛活动而闻
  • 刘绍灏刘绍灏朝服像刘绍灏(1830年11月19日-1886年10月12日,道光十年十月初五日午时-光绪十二年九月十五日亥时),又名濬,字蓉生,又字容深,号子景,斋号视斋。江苏省常州府武进县(今属常州市)人,清