差分隐私

✍ dations ◷ 2025-12-04 22:16:07 #密码学理论,信息隐私

差分隐私(英语:differential privacy)是密码学中的一种手段,旨在提供一种当从统计数据库(英语:Statistical database)查询时,最大化数据查询的准确性,同时最大限度减少识别其记录(英语:Row (database))的机会。

设想一个受信任的机构持有涉及众多人的敏感个人信息(例如医疗记录、观看记录或电子邮件统计)的数据集,但想提供一个全局性的统计数据。这样的系统被称为统计数据库。但是,提供有关数据的综合性统计也可能揭示一些涉及个人的信息。事实上,当研究人员链接两个或多个分别无害化处理的数据库来识别个人信息时,各种公共记录匿名化的特殊方法都失效了。而差分隐私就是为防护这类统计数据库脱匿名技术而形成的一个隐私框架。

举例来说,2006年10月,Netflix提出一笔100万美元(英语:Netflix Prize)的奖金,作为将其推荐系统改进达10%的奖励。Netflix还发布了一个训练数据集供竞选开发者训练其系统。在发布此数据集时,Netflix提供了免责声明:为保护客户的隐私,可识别单个客户的所有个人信息已被删除,并且所有客户ID已用随机分配的ID 替代。

Netflix不是网络上唯一的电影评级门户网站,其他网站还有很多,包括IMDb。个人可以在IMDb上注册和评价电影,并且可以选择匿名化自己的详情。德克萨斯州大学奥斯汀分校的研究员Arvind Narayanan(英语:Arvind Narayanan)和Vitaly Shmatikov将Netflix匿名化的训练数据库与IMDb数据库(根据用户评价日期)相连,能够部分反匿名化Netflix的训练数据库,危及到部分用户的身份信息。

卡内基梅隆大学的Latanya Sweeney(英语:Latanya Sweeney)将匿名化的GIC数据库(包含每位患者的出生日期、性别和邮政编码)与选民登记记录相连后,可以找出马萨诸塞州州长的病历。

MIT的De Montjoye等人引入了单一性(英语:Unicity distance)(意为独特性(英语:uniqueness))概念,显示出4个时空点、近似地点和时间就足以唯一性识别一个150万人流动数据库中的95%用户。该研究进一步表明,即使数据集的分辨率较低,这些约束仍然存在,即粗糙或模糊的流动数据集和元数据也只提供很少的匿名性。

至今为止,比较知名的采用差分隐私的应用如下:

相关

  • 膦酸酯膦酸酯和膦酸是含有C-PO(OH)2或C-P(OR)2的有机磷化合物基团(其中R是烷基或芳基)。通常作为盐处理的膦酸通常是白色。它是难挥发的固体,难溶于有机溶剂,但可溶于水和醇。许多商业
  • 朝鲜共产党已消亡已放弃共产主义意识形态已消亡已放弃共产主义意识形态已消亡已放弃共产主义意识形态已消亡已消亡已放弃共产主义意识形态朝鲜共产党(朝鲜语:조선 공산당)是朝鲜半岛历史
  • 大成殿大成殿为东亚传统建筑孔庙中的正殿,亦为孔庙中的核心建筑单体,唐代时称为文宣王殿,北宋徽宗于崇宁三年(1104)取《孟子》“孔子之谓集大成”语义,下诏将曲阜孔庙正殿更名为大成殿,政
  • 绥中绥中县位于中国辽宁省西南部,是葫芦岛市下辖的一个县。有“关外第一县”的称号。清光绪二十六年(1900年)八月八日,沙俄军队乘火车侵占中前所、前屯卫、中后所等地。建昌义和团
  • 实验大鼠实验大鼠(俗称:小白鼠)是一种专为动物实验而驯化的褐家鼠(),能用于心理学、医学,以及生物学研究。实验大鼠因为生长快、易于饲养、繁殖力强,以及成本相对低廉而受到研究人员的欢迎。
  • 罗杰·托瑞·彼得森罗杰·托瑞·彼得森(英语:Roger Tory Peterson,1908年8月28日-1996年7月28日),博物学家、鸟类学家、艺术家和教育家,被认为是20世纪环保运动的奠基者之一,出生于纽约的 Jamestown。1
  • 克尔克克尔克(Krk)是克罗地亚的一座城市,位于克尔克岛上,是亚得里亚海沿岸最古老的城市。自罗马时代起便有人居住,在西罗马帝国灭亡后一度是拜占庭达尔马提亚王国的一部分。
  • 古典 (鸡尾酒)扭过的橘子或马拉斯奇诺樱桃古典是一杯用捣棒混合方糖和苦酒, 并且加入威士忌或者在不常见做法中加入白兰地, 之后用扭过的橘子或马拉斯奇诺樱桃点缀的鸡尾酒。传统上是用岩
  • 山西河流列表山西河流列表,列举全部或部分在山西省境内的河流,并依照流域排列;支流则由河口至源头排序。
  • 陈林堂陈林堂(1908年-1992年),男,直隶(今河北)深泽人,中华人民共和国医学家、政治人物,河北医学院教授,曾任河北省政协副主席。