k-匿名性

✍ dations ◷ 2025-10-16 15:42:16 #k-匿名性

-匿名性(英语:k-anonymity)是匿名化数据的一种性质。如果一组公开的数据中,任何一个人的信息都不能和其他至少 k 1 {displaystyle k-1} -匿名性。-匿名性的概念是由拉坦亚·斯威尼(英语:Latanya Arvette Sweeney)和皮兰格拉·萨马拉蒂(英语:Pierangela Samarati)在1998年的一篇论文中最先提出的,其目的是为了解决如下问题:“给定一组结构化的具体到个人的数据,能否给出一组经过处理的数据,使我们可以证明数据中涉及的个人不能被再识别(英语:Data re-identification),同时还要保证数据仍具有使用价值。”使一组数据满足-匿名性的过程称为-匿名化(英语:k-anonymization)。

2018年,英国计算机科学家朱纳德·阿里(英语:Junade Ali)使用-匿名性及加密散列函数创建了一个通讯协议,可以供人匿名地验证密码是否已经泄露、但又不公开所涉及的密码;-匿名性因此得到了媒体的广泛报道。这一协议作为一个公用API部署在了托里·亨特(英语:Tory Hunt)创立的Have I Been Pwned?(英语:Have I Been Pwned?)服务中,且被包括一些密码管理器 和浏览器扩展在内的程序广泛使用。随后,谷歌的密码检查功能也使用了这一方法。

在-匿名化问题中,一个数据库是指一个行列的表。表格的每一行表示一条记录,对应一组对象中的一个。不同行中的记录可以相同。每列中的值代表对象的一个属性。下表是一个未经匿名化操作的数据库,其中包含一些虚构医疗数据。

这组数据中有6个属性、10条记录。对给定的,实现-匿名性有两个常见的方法。

下表经过了匿名化处理。

对敌手(英语:Adversary (cryptography))而言,“年龄”、“性别”和“居住地”虽然单独不能用于唯一识别一个个体,但结合起来则可能用于识别唯一个体的属性被称为准标识符(英语:quasi-identifier);相应地,“姓名”、“身份证号”等可以唯一识别一个个体的属性被称为标识符(即ID)。“疾病”、“收入”、“性取向”或其它当事人希望保护的属性常被称为“敏感属性”,也可能成为敌手的“目标属性”。这组匿名化后的数据对于“年龄”、“性别”和“居住地”三个属性具有2-匿名性,因为在这组数据中,任意一行在这三列上的值的组合都至少出现了2次。在-匿名的数据库中,所有由准标识符组成的多元组都至少出现次。

Meyerson和Williams的研究表明,求最优的-匿名化方案是一个NP困难的问题;然而,利用诸如-优化的启发式方法通常也可以得到令人满意的结果。Kenig和Tassa则提出一个求解-匿名化问题的 O ( log k ) {displaystyle O(log k)} -匿名化是一个定义简洁且具有很多可行算法的手段,可以较好地解决一组数据的匿名化问题,但从其它角度仍然可以攻击满足-匿名性的数据。若攻击者掌握并利用其它背景知识,这些攻击甚至可以更有效率。这些攻击包括:

由于-匿名化过程中不包含任何随机化的因素,攻击者可以利用这一情况来探知关于个体的信息。例如在上面的例子中,如果有人已经知道来自上海、19岁的郑十的信息包含在上面的数据库中,则可以可靠地推断他得了癌症、心血管疾病、或病毒感染中的一种。

-匿名化方法不适用于高维(即具有很多属性)数据库的匿名化。 例如,有研究表明,如果给定4个地址,移动电话的时间戳-地点数据库单一性(英语:Unicity (computer science))( E 4 {displaystyle {mathcal {E}}_{4}} -匿名性)可能高达95%。

也有研究表明,如果-匿名化会不相称地抑制或泛化不具代表性的属性,则该过程可能会导致数据库偏斜。但-匿名化所使用的抑制或泛化算法也可以改进,来避免导致数据偏斜的发生。

Junade Ali提出了基于散列的-匿名化方法;这种方法最早是为了进行密码泄露检查(英语:Compromised Credential Checking),后来也用于MAC地址的实时匿名化。

这种方法对一个维度(属性)的数据进行密码散列化,并截取散列码来使散列冲突至少发生 k 1 {displaystyle k-1} 次。这个方法可以实现对大数据库(例如密码泄露数据库)进行的高效率匿名化检索。这种方法还可以将匿名化程度量化,以便用户在信息泄露程度和数据的可使用程度之间取舍。

相关

  • 伍锦霖伍锦霖(1947年10月6日-),中华民国政治人物,中国国民党籍,现任中华民国考试院院长。伍锦霖为中华民国屏东人,文官出身,后当选中华民国立法委员,并于中国国民党政府时期获重用,担任中华
  • 东国原英夫东国原英夫(1957年9月16日-),日本政治人物、搞笑艺人、演员与作家,曾任宫崎县知事,2012年当选众议院议员。宫崎县都城市出身、但实际上出生于鹿儿岛县雾岛市的东国原早年曾拜师北
  • 赛博格艺术赛博格艺术(英语:Cyborg art 或 Cyborgism),是一种艺术运动,兴起于2000年代中期的英国,它的基础是通过控制论植入物在人体中创造和增加新的感觉,并通过新的感觉创造艺术品,由赛博格
  • 开明书店开明书店是20世纪上半叶在中国上海开设的一个著名出版机构。1926年成立,创办人章锡琛。1925年,原商务印书馆《妇女杂志》主编章锡琛,因提倡“新性道德”,遭总编王云五停职。遂在
  • MODFLOWMODFLOW软件是由美国地质调查所(USGS)发展之地下水数值模式,为有限差分法开发之三维饱和地下水流数值模式,其为Modular three-dimensional groundwater flow model之缩写,最早版
  • 安德鲁·萨里斯安德鲁·萨里斯(1928-10-31 – 2012-6-20),美国影评人,美国作者论的首位倡导者。萨里斯生于纽约布鲁克林区,在皇后区的臭氧公园(英语:Ozone Park)(Ozone Park)附近长大,父母是希腊移民
  • 一官党一官党是小说《郑芝龙大传》中,由郑芝龙组织的武装商业集团,系一虚构的组织,而非历史上实际存在的团体。根据书中描述,一官党狭义上是郑芝龙家族的贸易船队,广义上是郑芝龙整个政
  • 白奎祥白奎祥(?-?)又名白聚五,籍贯不详,察南自治政府官员。1937年9月4日,察南自治政府成立,白奎祥出任政务委员。1938年3月5日,蒙疆电气通讯设备株式会社在张家口成立,白奎祥出任理事。
  • 金桂冠金桂冠(朝鲜语:김계관,1943年7月6日-),生于朝鲜平安北道云山郡,是一名朝鲜外交官,现时(2007年7月)担任朝鲜外务省副相。他为朝鲜在有关该国核问题的常任代表,很多有关朝鲜核问题的国际谈判,例如已举行多轮的六方会谈皆由他代表平壤方面发言。于2007年2月13日,金桂冠传达了朝鲜政府就放弃核武计划的讯息,其中包括关闭宁边核设施和销毁现有之核武器,这对于被刚在4个月前朝鲜试爆其第一枚原子弹而导致陷入僵局的朝鲜核问题谈判带来重大突破。作为朝鲜的首席谈判代表,一直代表平壤在谈判桌上争取最大利益。金桂冠亦在
  • 室女座61d室女座61d(61 Virginis d,61 Vir d)是一颗环绕视星等五等黄矮星室女座61的太阳系外行星。室女座61b的质量下限是地球质量的22.9倍,因此可能是类似天王星和海王星的类木行星。它和母恒星的距离相当于日地距离的一半,轨道离心率0.35。室女座61c于2009年12月14日由凯克天文台和英澳天文台以径向速度法发现。天球赤道座标: 13h 18m 24.3s,−18° 18′ 40.3″