データからの個人の特定は、恐ろしいほど容易になった。2006年にアメリカ・オンライン(AOL)がユーザー65万人の検索履歴データ2,000万件を、個人名を任意の番号に置き換えて公表した際、『ニューヨーク・タイムズ』はそのデータをもとにあっという間に個人を特定してみせている(「たいした労力はかからなかった」と記者は書いている)。
その2年後にはテキサス大学オースティン校の研究者が、Netflixのユーザー50万人の映画への評価と映画データベース「IMDb」を照らし合わせた。この有名な調査で研究者らはユーザーを特定したほか、「政治的傾向と考えられる情報やその他の機密情報」も明らかになっている。
また、ニューヨーク市が保有するタクシー走行履歴のデータセットを運転手の名前を抜いた状態で分析した研究では、ずさんな生成のハッシュコードにより91%のタクシーをたどれたうえ、運転手の収入レヴェルまで分類できてしまった。