差分隐私

✍ dations ◷ 2025-12-04 03:19:03 #密码学理论,信息隐私

差分隐私(英语:differential privacy)是密码学中的一种手段,旨在提供一种当从统计数据库(英语:Statistical database)查询时,最大化数据查询的准确性,同时最大限度减少识别其记录(英语:Row (database))的机会。

设想一个受信任的机构持有涉及众多人的敏感个人信息(例如医疗记录、观看记录或电子邮件统计)的数据集,但想提供一个全局性的统计数据。这样的系统被称为统计数据库。但是,提供有关数据的综合性统计也可能揭示一些涉及个人的信息。事实上,当研究人员链接两个或多个分别无害化处理的数据库来识别个人信息时,各种公共记录匿名化的特殊方法都失效了。而差分隐私就是为防护这类统计数据库脱匿名技术而形成的一个隐私框架。

举例来说,2006年10月,Netflix提出一笔100万美元(英语:Netflix Prize)的奖金,作为将其推荐系统改进达10%的奖励。Netflix还发布了一个训练数据集供竞选开发者训练其系统。在发布此数据集时,Netflix提供了免责声明:为保护客户的隐私,可识别单个客户的所有个人信息已被删除,并且所有客户ID已用随机分配的ID 替代。

Netflix不是网络上唯一的电影评级门户网站,其他网站还有很多,包括IMDb。个人可以在IMDb上注册和评价电影,并且可以选择匿名化自己的详情。德克萨斯州大学奥斯汀分校的研究员Arvind Narayanan(英语:Arvind Narayanan)和Vitaly Shmatikov将Netflix匿名化的训练数据库与IMDb数据库(根据用户评价日期)相连,能够部分反匿名化Netflix的训练数据库,危及到部分用户的身份信息。

卡内基梅隆大学的Latanya Sweeney(英语:Latanya Sweeney)将匿名化的GIC数据库(包含每位患者的出生日期、性别和邮政编码)与选民登记记录相连后,可以找出马萨诸塞州州长的病历。

MIT的De Montjoye等人引入了单一性(英语:Unicity distance)(意为独特性(英语:uniqueness))概念,显示出4个时空点、近似地点和时间就足以唯一性识别一个150万人流动数据库中的95%用户。该研究进一步表明,即使数据集的分辨率较低,这些约束仍然存在,即粗糙或模糊的流动数据集和元数据也只提供很少的匿名性。

至今为止,比较知名的采用差分隐私的应用如下:

相关

  • 卡拉胶卡拉胶(Carrageenan,CAS 9000-07-1),又称鹿角菜胶、角叉菜胶、爱尔兰苔菜胶,是从海洋红藻(包括角叉菜属、麒麟菜属、杉藻属及沙菜属等)提取的多糖的统称,是多种物质的混合物,有ι(Iot
  • 马里布马里布市(英语:Malibu)是美国加利福尼亚州洛杉矶县的一座富裕城市。在2000年的人口调查中,该市人口为12,575人。最早原是美国原住民“丘马希族”的居住地,原名为Humaliwo,意思是海
  • 四福花四福花(学名:)为五福花科四福花属的植物,是中国的特有植物。分布于中国大陆的四川等地,生长于海拔2,300米的地区,常生长在林中湿地,目前尚未由人工引种栽培。
  • 八排瑶八排瑶,是瑶族的一个分支,主要居住于连南瑶族自治县。信奉道教,以及拜盘古为祖先,聚居地方有多所盘王庙。八排瑶多数己被汉化,一般八排瑶的样子跟汉人没有两样。八排瑶的人主要姓
  • 迈密乌斯迈密乌斯(英语:Gaius Memmius (poet)),约活动于公元前1世纪前后。古罗马演说家和诗人,同时也是诗人的资助人,卢克莱修《物性论》即以他为题献者,其作品无一传世。
  • 九条道孝九条道孝(1839年6月11日-1906年1月4日/天保十年五月初一明治三十九年1月4日),是日本的公家、贵族院议员,也是藤原北家摄关家的九条家当主与最后一位藤氏长者;位阶为从一位大勋位菊
  • 化学哲学化学哲学是关注化学的科学方法论和假设。研究者包括哲学家、化学家和由两方结合的团队。其大部分历史都是被物理哲学所涵盖,但是有化学产生哲学问题自20世纪后半叶便引发了越
  • 拉脱维亚交通本文简述拉脱维亚的交通概况。拉脱维亚国内大部分铁路线路由国营的拉脱维亚铁路经营。拉脱维亚国内铁路总长度2,347 km,其中宽轨2,314 km,窄轨33 km。拉脱维亚有开往邻国俄
  • 冯德英冯德英(1935年-),男,山东威海人,中国作家,中国作家协会原主席团委员,山东省作家协会原主席,山东省文学艺术界联合会原名誉主席。
  • 李湛田李湛田,字丹孙,天津宝坻人,末代科举进士,监生出身,后留日。1913年,冯国璋呈请任命为直隶省内务司科长。1922年至1924年任江苏淮安关监督,与张謇有公务来往。