ALLERTA PERICOLI INFORMATICI

Deepfake vocali : arrivano le truffe con registrazioni audio che imitano la voce di chiunque

Deepfake vocali : arrivano le truffe con registrazioni audio che imitano la voce di chiunque
Scritto da gestore

Registrazioni audio deepfake che imitano la voce di chiunque vengono giร  utilizzati per truffe multimilionarie. In questo articolo scopriremo come vengono realizzati i deepfake vocali e come proteggersi.

Ti รจ mai capitato di chiederti come facciamo a sapere con chi stiamo parlando al telefono? Ovviamente non si tratta solo del semplice nome visualizzato sullo schermo. Se sentiamo una voce sconosciuta quando riceviamo una chiamata da un numero salvato, capiamo subito che qualcosa non va. Per cercare di capire con chi stiamo realmente parlando, inconsciamente notiamo il timbro, il modo e lโ€™intonazione del discorso. Ma quanto รจ affidabile il nostro udito nellโ€™era digitale dellโ€™intelligenza artificiale? Come ci insegnano le ultime notizie, non sempre conviene fidarsi di quello che sentiamo, perchรฉ le voci possono essere contraffatte utilizzando la tecnologia deepfake.

Intermezzo promozionale ... continua la lettura dopo il box:

Aiuto, sono in pericolo!

Nella primavera del 2023, alcuni truffatori in Arizona hannoย tentato di estorcere denaroย a una donna per telefono. La donna ha sentito la voce della figlia quindicenne implorare aiuto prima che uno sconosciuto prendesse il telefono e chiedesse un riscatto, mentre si sentivano ancora le urla della figlia in sottofondo. La madre era sicura che la voce fosse quella di sua figlia. Fortunatamente, di lรฌ a poco ha scoperto che in realtร  la figlia stava bene, rendendosi conto di essere stata vittima di un tentativo di truffa.

Non puรฒ essere dimostrato al 100% che gli aggressori abbiano utilizzato un deepfake per imitare la voce dellโ€™adolescente. Forse la truffa era di natura piรน tradizionale e i malintenzionati contavano sul fatto che la qualitร  della chiamata, lโ€™imprevedibilitร  della situazione, lo stress e lโ€™immaginazione della madre avrebbero fatto la loro parte nel convincerla. Ma se anche questo caso non avesse niente a che fare con le tecnologie di rete neurale, le truffe tramite deepfake possono verificarsi e senza dubbio si verificano. Inoltre, con il continuo sviluppo di questa tecnologia, diventano sempre piรน convincenti e pericolose. Per contrastare il diffondersi dellโ€™utilizzo della tecnologia deepfake a scopo fraudolento da parte dei criminali, dobbiamo capire come funziona.

Cosa sono i deepfake?

Lโ€™intelligenza artificiale dei deepfakeย (ย โ€œdeep learningโ€ย +ย โ€œfakeโ€) รจ cresciuta rapidamente negli ultimi anni. Le tecniche di machine learning possono essere utilizzate per creare falsi convincenti di immagini, video o contenuti audio. Ad esempio, utilizzando le reti neurali รจ possibile intervenire su foto e video per sostituire il volto di una persona con un altro preservando le espressioni e lโ€™illuminazione. Sebbene inizialmente questi falsi fossero di bassa qualitร  e facili da individuare, con lo sviluppo degli algoritmi i risultati sono diventati cosรฌ convincenti che ora รจ difficile distinguerli dalla realtร . Nel 2022, per la prima volta nella storia mondiale, รจ stato lanciato in Russia unย programma televisivo deepfake, in cui i cloni deepfake di Jason Statham, Margot Robbie, Keanu Reeves e Robert Pattinson interpretano i personaggi principali.

Conversione vocale

In questo articolo, tuttavia, ci concentriamo sulla tecnologia utilizzata per creare deepfake vocali. รˆ anche nota come conversione vocale (o โ€œclonazione vocaleโ€ se si sta creando una copia digitale completa). La conversione vocale si basa sugli autoencoder, un tipo di rete neurale che prima comprime i dati di input (parte delย codificatore) in una rappresentazione interna compatta, quindi impara a decomprimerli da questa rappresentazione (parte delย decodificatore) per ripristinare i dati originali. In questo modo, il modello impara a presentare i dati in un formato compresso evidenziando le informazioni piรน importanti.

Per creare i deepfake vocali, vengono inserite nel modello due registrazioni audio, con la voce della seconda registrazione convertita nella prima. Il codificatore del contenuto viene utilizzato per determinareย ciรฒ cheย รจ stato detto nella prima registrazione, mentre il codificatore del parlante viene utilizzato per estrarre le caratteristiche principali della voce dalla seconda registrazione, ovveroย il modoย in cui la seconda persona parla. Le rappresentazioni compresse diย quello cheย deve essere detto e diย comeย viene detto vengono combinate e il risultato viene generato utilizzando il decodificatore. In questo modo, quello che viene detto nella prima registrazione viene espresso dalla persona della seconda registrazione.

Esistono altri approcci che utilizzano i codificatori automatici, ad esempio quelli che utilizzanoย reti neurali generative (GAN)ย oย modelli di diffusione. La ricerca su come realizzare i deepfake รจ supportata in particolare dallโ€™industria cinematografica. Pensaci: con le tecnologie deepfake per audio e video รจ possibile sostituire i volti degli attori nei film e negli spettacoli TV e doppiare i film sincronizzando alla perfezione le espressioni facciali in qualsiasi lingua.

Ecco come funziona.

Durante la ricerca sulle tecnologie deepfake, ci siamo chiesti quanto potesse essere difficile creare un deepfake della propria voce. รˆ venuto fuori che sono disponibili molti strumenti open source gratuiti per lavorare con la conversione vocale, ma non รจ altrettanto facile ottenere un risultato di alta qualitร . Occorrono esperienza di programmazione in Python e buone capacitร  di elaborazione. E anche in questo caso la qualitร  ottenuta รจ tuttโ€™altro che ideale. Oltre a quelle open source, sono disponibili anche soluzioni proprietarie e a pagamento.

Ad esempio, allโ€™inizio del 2023 Microsoftย ha annunciatoย un algoritmo in grado di riprodurre una voce umana sulla base di un esempio audio della durata di soli tre secondi! Questo modello funziona anche con piรน lingue, quindi puoi persino sentirti parlare una lingua straniera. Questa soluzione sembra promettente, ma attualmente รจ ancora in fase di ricerca. La piattaforma ElevenLabs, invece,ย consente agli utentiย di creare deepfake vocali senza fatica: basta caricare una registrazione audio della voce e delle parole da pronunciare e il gioco รจ fatto. Ovviamente, non appena si รจ sparsa la voce, le persone hanno iniziato a giocare con questa tecnologia in tutti i modi possibili.

La battaglia di Ermione e una banca troppo fiduciosa

In piena conformitร  con laย legge di Godwin, a Emma Watson รจ stato fattoย leggere il Mein Kampfย e un altro utente haย utilizzatoย la tecnologia ElevenLabs per sferrare un attacco al proprio conto bancario. Trovi che sia inquietante? Per noi lo รจ. In particolare, se a tutto questo aggiungiamo le spaventose storie riguardanti truffatori che raccolgono campioni di voci facendo pronunciare alle persone le parole โ€œsรฌโ€ o โ€œconfermaโ€, mentre sono al telefono con presunti operatori di una banca, un ufficio della pubblica amministrazione o un servizio di sondaggi, con lo scopo di rubare il loro denaro utilizzando lโ€™autorizzazione vocale.

In realtร , la situazione non รจ cosรฌ catastrofica. In primo luogo, occorrono circa cinque minuti di registrazioni audio per creare una voce artificiale in ElevenLabs: un semplice โ€œsรฌโ€ non รจ sufficiente. In secondo luogo, anche le banche sono a conoscenza di queste truffe. La voce puรฒ quindi essere utilizzata solo per avviare determinate operazioni non correlate al trasferimento di fondi (ad esempio, per controllare il saldo del conto). In sostanza, rubare denaro in questo modo non รจ possibile.

A ElevenLabs va riconosciuto il merito di aver reagito rapidamente al problema, riscrivendo le regole del servizio, vietando agli utenti gratuiti (ovvero anonimi) di creare deepfake basati sulle proprie voci caricate e bloccando gli account segnalati con reclami per โ€œcontenuti offensiviโ€.

Per quanto utili possano essere, queste misure tuttavia non risolvono ancora il problema dellโ€™utilizzo dei deepfake vocali per scopi sospetti.

Altri utilizzi dei deepfake nelle truffe

La tecnologia deepfake di per sรฉ รจ innocua. Se utilizzata per scopi fraudolenti o intenti criminali, puรฒ tuttavia diventare uno strumento pericoloso, che offre molte opportunitร  di inganno, diffamazione o disinformazione. Fortunatamente, non si sono verificati casi di truffe di massa riguardanti lโ€™alterazione della voce. Si sono verificati, invece, diversi casi di alto profilo in cui i truffatori hanno utilizzato deepfake vocali.

Nel 2019, questa tecnologia รจ stata utilizzata per organizzare unaย truffa ai danni di unโ€™azienda del settore energetico con sede nel Regno Unito. Durante una conversazione telefonica, fingendo di essere il CEO dellโ€™azienda madre tedesca, il truffatore ha richiesto un trasferimento urgente di โ‚ฌ 220.000 sul conto di unโ€™azienda fornitrice. Dopo il pagamento, il truffatore ha chiamato altre due volte: la prima volta per rassicurare il personale dellโ€™ufficio nel Regno Unito, segnalando che lโ€™azienda madre aveva giร  inviato un rimborso, e la seconda volta per richiedere un altro trasferimento. Durante tutte e tre le chiamate, il responsabile della sede nel Regno Unito era stato assolutamente sicuro di aver parlato con il suo manager, perchรฉ ne aveva riconosciuto sia lโ€™accento tedesco che il tono e il modo di parlare. Il secondo trasferimento non รจ stato eseguito solo perchรฉ il truffatore per errore ha effettuato la chiamata da un numero austriaco, anzichรฉ tedesco, rendendo sospettoso il responsabile dellโ€™ufficio britannico.

Un anno dopo, nel 2020, in unโ€™altra truffa i criminali hanno utilizzato la tecnologia deepfake per mettere a segno unย furtoย di una cifra che potrebbe arrivare a 35.000.000 di dollari ai danni di unโ€™anonima societร  giapponese (dalle indagini non sono emersi nรฉ il nome della societร , nรฉ il valore totale dei beni rubati).

Non รจ noto quali soluzioni (open source, a pagamento o addirittura proprietarie) i truffatori abbiano utilizzato per falsificare le voci, ma in entrambi questi casi le aziende hanno chiaramente, e gravemente, subito una frode deepfake.

Previsioni per il futuro

Le opinioni sul futuro dei deepfake sono discordi. Attualmente, una larga parte di questa tecnologia รจ nelle mani di grandi aziende e la disponibilitร  al pubblico รจ limitata. Ma come dimostra la storia dei molto piรน popolari modelli generativi, come i programmiย DALL-E,ย Midjourneyย eย Stable Diffusion, e degli ancora piรน popolariย modelli linguistici di grandi dimensioniย (LLM, Large Language Model) come ChatGPT, tecnologie simili potrebbero diventare di pubblico dominio nel prossimo futuro. Ne รจ la conferma la recenteย fuga di informazioniย trapelate dalla corrispondenza interna di Google, in cui alcuni rappresentanti del gigante di Internet rivelano il timore di perdere la corsa dellโ€™IA alle soluzioni aperte. Questo comporterร  ovviamente un aumento dellโ€™uso dei deepfake vocali, anche per scopi fraudolenti.

Il passo piรน promettente nello sviluppo dei deepfake รจ la generazione in tempo reale, che garantirร  una crescita esplosiva dei deepfake (e delle truffe in cui verranno utilizzati). Riesci a immaginare unaย videochiamataย con qualcuno il cui volto e la cui voce sono completamente falsi?ย Ad ogni modo, si tratta di un livello di elaborazione dei dati che richiede quantitร  enormi di risorse, di cui solo le grandi corporation dispongono. Le migliori tecnologie rimarranno pertanto private e i truffatori non saranno in grado di stare al passo con i professionisti. La qualitร  non eccezionale aiuterร  anche gli utenti a imparare a identificare facilmente le contraffazioni.

Come proteggersi

Per tornare alla domanda iniziale: possiamo fidarci delle nostre orecchie e delle voci che sentiamo? Con tutta probabilitร , nella maggior parte dei casi, diventare paranoici e iniziare a inventare parole in un codice segreto da usare con amici e familiari sarebbe un poโ€™ esagerato, Tuttavia, in situazioni piรน gravi la paranoia potrebbe essere appropriata. Secondo le previsioni basate sullo scenario piรน pessimistico, nelle mani dei criminali la tecnologia deepfake in futuro potrebbe diventare unโ€™arma formidabile. Ma abbiamo ancora tempo per prepararci e creare metodi affidabili per proteggerci dalla contraffazione: sono giร  disponibili molteย ricercheย sui deepfake e le grandi aziende stanno giร  lavorando allo sviluppo diย soluzioni di protezioneย mirate. Abbiamo giร  parlato in dettaglio di come contrastare i deepfake videoย in questo articolo.

Per il momento, siamo solo allโ€™inizio dello sviluppo di adeguati sistemi di protezione contro le contraffazioni dellโ€™IA. รˆ quindi importante tenere presente che i deepfake sono solo un altro tipo avanzato di social engineering. Il rischio di imbattersi in truffe come questa รจ basso, ma รจ reale. Vale quindi la pena conoscerle e imparare a riconoscerle. Se ricevi una chiamata strana, presta attenzione alla qualitร  del suono. La tonalitร  รจ innaturale, incomprensibile o ci sono strani rumori? Ricontrolla sempre le informazioni tramite altri canali e ricorda che i truffatori fanno affidamento soprattutto sullโ€™effetto sorpresa e sul panico.

FONTE : https://www.kaspersky.it/blog/audio-deepfake-technology/27923/