Una coppia di studenti dell’Università di Harvard, Dasha Metropolitansky e Kian Attari, ha condotto un esperimento che ha permesso di mostrare quanto l’anonimizzazione dei dati sia in realtà un falso mito e, soprattutto, quanto le violazioni di sicurezza, i “data leak” e i “privacy scandal” siano in realtà molto più pericolosi di quel che il pensiero comune è portato a credere.
I due studenti hanno costruito uno strumento capace di passare al setaccio quelle grandi raccolte di dati che traggono origine dagli episodi di violazione di database o furti di informazioni. Partendo da un dataset originato dalla violazione dei sistemi della società Experian, avvenuto nel 2015, e contenente informazioni personali di 6 milioni di individui, i due studenti hanno suddiviso le informazioni per Stato e si sono concentrati sui cittadini dell’area di Washington D.C.
Intermezzo promozionale ... continua la lettura dopo il box:
Usufruisci di uno sconto per fare un CONTROLLO DELLA REPUTAZIONE PERSONALE o AZIENDALE [ click qui ]
Incrociare i data leak: l’anonimato si sgretola
In questo modo Attari e Metropolitansky hanno lavorato su dati composti in tutto da 69 variabili (indirizzi di residenza, numeri di telefono, credit score, eventuali donazioni politiche, numero di figli e via discorrendo): in totale hanno avuto a che fare con 40 mila indirizzi email univoci, corrispondenti ad altrettanti utenti. Utilizzando questi indirizzi con lo strumento da loro sviluppato, i due studenti hanno scandagliato insiemi di dati originati da altri episodi di incidenti/violazioni di sicurezza così da ricercare corrispondenze ed eventuali correlazioni con altri dati.
Nonostante molti di questi dataset siano “anonimizzati”, i due studenti sono stati in grado di correlare i dati provenienti da più dataset differenti riuscendo a costruire fotografie chiare delle identità virtuali e reali di ciascuna persona presente nei dataset. Un singolo leak è come un tassello di un puzzle: da solo può non essere particolarmente importante, ma è insieme ad altri che acquista significato.
Una realtà, ad esempio, può conservare magari solamente alcune informazioni riguardanti la nostra persona (virtuale e/o reale che sia), mentre un’altra realtà ne può conservare altri. Ma se esse condividono anche un solo tipo di questi dati, diventa possibile trovare corrispondenze e raccogliere più informazioni su una singola persona, riuscendo a comporre un’identità piuttosto chiara.
Password riutilizzate, una piaga ancora radicata
“Quel che siamo stati in grado di fare è preoccupante, perché permette di individuare vulnerabilità nella presenza online delle persone. Per esempio se si aggregassero tutte le credenziali associate ad una singola persona, sarebbe possibile vedere come, dove e quante volte username e password vengono riutilizzati” spiegano gli studenti. E proprio a tal proposito emerge un dato preoccupante che dimostra come, nonostante le best practice di sicurezza vengano costantemente ripetute quando accadono incidenti che portano alla sottrazione di informazioni private, il pubblico non sia incline all’uso di password univoche o gestori di password: di 96 mila password contenute in uno dei dataset, solamente 26 mila sono password univoche.
Altro aspetto di particolare considerazione è che in questo modo un cybercriminale non necessariamente può voler colpire una vittima specifica, ma può in realtà cercare vittime che corrispondano ad un determinato insieme di criteri. I due studenti hanno dimostrato che in meno di 10 secondi è stato possibile produrre un insieme di dati di oltre 1000 persone rispondenti ad un preciso “identikit”: elevato patrimonio netto, sposati con figli e con un account in un sito di incontri extraconiugali. Cambiando i parametri di filtraggio è stato possibile individuare politici di livello senior con il loro credit score, i numeri di telefono, gli indirizzi di tre Senatori, tre Rappresentanti, il sindaco di Washington e un membro del Gabinetto.
L’obiettivo dei due studenti è cercare di sensibilizzare il pubblico sul fatto che sebbene questi episodi siano problematici già se presi singolarmente, è quando sono considerati nell’insieme che assumono i tratti di un vero e proprio incubo. Anche perché i dati su cui hanno lavorato Attari e Metropolitansky sono di pubblico dominio: disponibili online su forum o nel dark web ma senza che sia necessario dover effettuare ricerche particolarmente approfondite.
Intermezzo promozionale ... continua la lettura dopo il box: