Un nuovo framework di attacco mira a dedurre le sequenze di tasti digitati da un utente all’estremitร opposta di una videoconferenza, semplicemente sfruttando il feed video per correlare i movimenti del corpo osservabili al testo digitato.
La ricerca รจ stata intrapresa da Mohd Sabra, e Murtuza Jadliwala dell’Universitร del Texas a San Antonio e Anindya Maiti dell’Universitร dell’Oklahoma, che affermano che l’attacco puรฒ essere esteso oltre i feed video in diretta a quelli trasmessi in streaming su YouTube e Twitch fintanto che un campo visivo della webcam cattura i movimenti visibili della parte superiore del corpo dell’utente target.
Intermezzo promozionale ... continua la lettura dopo il box:
Usufruisci di uno sconto per fare un CONTROLLO DELLA REPUTAZIONE PERSONALE o AZIENDALE [ click qui ]
“Con la recente ubiquitร dell’hardware di acquisizione video incorporato in molti dispositivi elettronici di consumo, come smartphone, tablet e laptop, la minaccia di fuga di informazioni attraverso i canali visivi si รจ amplificata”, hanno detto i ricercatori . “L’obiettivo dell’avversario รจ utilizzare i movimenti osservabili della parte superiore del corpo in tutti i frame registrati per dedurre il testo privato digitato dal bersaglio”.
Per ottenere ciรฒ, il video registrato viene inserito in un framework di inferenza di battitura basato su video, che attraversa tre fasi:
Pre-elaborazione, in cui viene rimosso lo sfondo, il video viene convertito in scala di grigi, seguito dalla segmentazione delle regioni del braccio sinistro e destro rispetto al viso dell’individuo rilevato tramite un modello denominatoย FaceBox
Rilevamento dei tasti, che recupera i frame segmentati del braccio per calcolare la misura dell’indice di similaritร strutturale (ย SSIMย ) con l’obiettivo di quantificare i movimenti del corpo tra i frame consecutivi in โโciascuno dei segmenti video del lato sinistro e destro e identificare i potenziali frame in cui si sono verificati i tasti premuti
Previsione delle parole, in cui i segmenti del fotogramma della sequenza di tasti vengono utilizzati per rilevare le caratteristiche del movimento prima e dopo ogni sequenza di tasti rilevata, utilizzandoli per dedurre parole specifiche utilizzando un algoritmo di previsione basato sul dizionario
In altre parole, dal pool di sequenze di tasti rilevate, le parole vengono dedotte utilizzando il numero di sequenze di tasti rilevate per una parola, nonchรฉ l’ampiezza e la direzione dello spostamento del braccio che si verifica tra sequenze di tasti consecutive della parola.
Questo spostamento viene misurato utilizzando una tecnica di visione artificiale chiamata flusso ottico sparso che viene utilizzata per monitorare i movimenti delle spalle e delle braccia attraverso i fotogrammi cronologici dei tasti. Inoltre, viene tracciato un modello per le “indicazioni tra i tasti sulla tastiera QWERTY standard” per indicare le “direzioni ideali che la mano di un battitore dovrebbe seguire” utilizzando un mix di mano destra e sinistra.
L’algoritmo di predizione delle parole, quindi, cerca le parole piรน probabili che corrispondono all’ordine e al numero di battiture della mano destra e sinistra e alla direzione degli spostamenti del braccio con le direzioni di battitura inter-tasto del modello.
I ricercatori hanno affermato di aver testato il framework con 20 partecipanti (9 femmine e 11 maschi) in uno scenario controllato, impiegando un mix di metodi di caccia e beccaggio e di battitura, oltre a testare l’algoritmo di inferenza su background diversi, modelli di webcam, abbigliamento. (in particolare il design della custodia), tastiere e persino vari software di videochiamata come Zoom, Hangouts e Skype.
I risultati hanno mostrato che i dattilografi che indossano abiti senza maniche erano piรน suscettibili agli attacchi di inferenza di parole, cosรฌ come lo erano gli utenti delle webcam Logitech, con conseguente miglioramento del recupero delle parole rispetto a coloro che utilizzavano webcam esterne da Anivia.
Intermezzo promozionale ... continua la lettura dopo il box:
I test sono stati ripetuti di nuovo con altri 10 partecipanti (3 femmine e 7 maschi), questa volta in una configurazione domestica sperimentale, inferendo con successo il 91,1% del nome utente, il 95,6% degli indirizzi e-mail e il 66,7% dei siti web digitati dai partecipanti, ma solo il 18,9% delle password e il 21,1% delle parole inglesi digitate da esse.
“Uno dei motivi per cui la nostra accuratezza รจ peggiore rispetto all’impostazione In-Lab รจ perchรฉ l’ordinamento del dizionario di riferimento si basa sulla frequenza di utilizzo delle parole nelle frasi in lingua inglese, non sulla base di parole casuali prodotte da persone”, Sabra, Maiti e Jadliwala Nota.
Affermando che sfocatura, pixelizzazione e salto dei fotogrammi possono essere uno stratagemma di mitigazione efficace, i ricercatori hanno affermato che i dati video possono essere combinati con i dati audio della chiamata per migliorare ulteriormente il rilevamento dei tasti.
“A causa dei recenti eventi mondiali, le videochiamate sono diventate la nuova norma per la comunicazione remota personale e professionale”, sottolineano i ricercatori.ย “Tuttavia, se un partecipante a una videochiamata non รจ attento, puรฒ rivelare le sue informazioni private ad altri durante la chiamata. Le nostre accuratezze di inferenza di battitura relativamente elevate in impostazioni realistiche e comuni evidenziano la necessitร di consapevolezza e contromisure contro tali attacchi. ”
I risultati dovrebbero essere presentati piรน tardi oggi al Network and Distributed System Security Symposium (NDSS).
Fonte : https://thehackernews.com/2021/02/experts-find-way-to-learn-what-youre.html