去識別數據是現代營(yíng)銷(xiāo)和科學(xué)研究的基石。
利用機器學(xué)習,研究人員估計了可以從匿名數據中重新識別特定人的可能性。
研究表明,幾乎所有美國人都可以根據15個(gè)人口統計特征進(jìn)行重新識別。
研究:99%的美國人可以從匿名數據中重新識別
我們都做到了:在線(xiàn)注冊帳戶(hù)時(shí),我們點(diǎn)擊“我同意”將我們的數據出售給第三方。它將是匿名的,我們保證,只有一小部分數據可供其他人使用。

但是,我們的個(gè)人數據無(wú)法追溯到我們,這有多安全?這是比利時(shí)Universitécatholiquede Louvain和倫敦帝國理工學(xué)院的一個(gè)研究小組試圖回答的核心問(wèn)題。
結論是 - “不是很好”。
利用機器學(xué)習,研究人員開(kāi)發(fā)了一個(gè)系統來(lái)估計從包含人口統計特征的匿名數據集中重新識別特定人的可能性。研究人員的模型表明,超過(guò)99%的美國人可以使用15個(gè)人口統計特征從任何數據集中正確地重新識別,包括年齡,性別和婚姻狀況。
“雖然可能有很多人在三十多歲,男性和居住在紐約市,但是他們在1月5日出生的人中,他們駕駛的是一輛紅色跑車(chē),還有兩個(gè)孩子(兩個(gè)女孩)和一只狗,“Lucvher說(shuō),他是魯汶天主教大學(xué)的博士候選人,也是該研究的主要作者。正如CNBC先前報道的那樣,個(gè)人數據可用于研究,非法活動(dòng)甚至投資。
他們的論文“估計使用生成模型在不完整數據集中重新識別的成功”發(fā)表在Nature Communications雜志上。他們的研究結果表明,常用的匿名工具,如添加噪音和抽樣數據,可能不足以跟上歐盟GDPR和加州消費者隱私法等親數據隱私法。
研究人員寫(xiě)道,結果“質(zhì)疑當前的去識別實(shí)踐是否滿(mǎn)足現代數據保護法的匿名化標準,如GDPR和CCPA。”
作為他們研究的一部分,三人組合發(fā)布了一個(gè)在線(xiàn)工具,幫助人們了解重新識別它們的可能性,僅基于三個(gè)常見(jiàn)的人口統計特征:性別,出生日期和郵政編碼。研究人員說(shuō),平均而言,根據這三個(gè)數據點(diǎn),人們有83%的機會(huì )被重新識別。
“匿名化的目標是讓我們可以利用數據造福社會(huì ),”研究人員之一Yves-Alexandre de Montjoye說(shuō)。“這非常重要,但不應該而且不必以犧牲人們的隱私為代價(jià)。”
