Registrazioni audio deepfake che imitano la voce di chiunque vengono giร utilizzati per truffe multimilionarie. In questo articolo scopriremo come vengono realizzati i deepfake vocali e come proteggersi.
Ti รจ mai capitato di chiederti come facciamo a sapere con chi stiamo parlando al telefono? Ovviamente non si tratta solo del semplice nome visualizzato sullo schermo. Se sentiamo una voce sconosciuta quando riceviamo una chiamata da un numero salvato, capiamo subito che qualcosa non va. Per cercare di capire con chi stiamo realmente parlando, inconsciamente notiamo il timbro, il modo e lโintonazione del discorso. Ma quanto รจ affidabile il nostro udito nellโera digitale dellโintelligenza artificiale? Come ci insegnano le ultime notizie, non sempre conviene fidarsi di quello che sentiamo, perchรฉ le voci possono essere contraffatte utilizzando la tecnologia deepfake.
Intermezzo promozionale ... continua la lettura dopo il box:
Usufruisci di uno sconto per fare un CONTROLLO DELLA REPUTAZIONE PERSONALE o AZIENDALE [ click qui ]
Aiuto, sono in pericolo!
Nella primavera del 2023, alcuni truffatori in Arizona hannoย tentato di estorcere denaroย a una donna per telefono. La donna ha sentito la voce della figlia quindicenne implorare aiuto prima che uno sconosciuto prendesse il telefono e chiedesse un riscatto, mentre si sentivano ancora le urla della figlia in sottofondo. La madre era sicura che la voce fosse quella di sua figlia. Fortunatamente, di lรฌ a poco ha scoperto che in realtร la figlia stava bene, rendendosi conto di essere stata vittima di un tentativo di truffa.
Non puรฒ essere dimostrato al 100% che gli aggressori abbiano utilizzato un deepfake per imitare la voce dellโadolescente. Forse la truffa era di natura piรน tradizionale e i malintenzionati contavano sul fatto che la qualitร della chiamata, lโimprevedibilitร della situazione, lo stress e lโimmaginazione della madre avrebbero fatto la loro parte nel convincerla. Ma se anche questo caso non avesse niente a che fare con le tecnologie di rete neurale, le truffe tramite deepfake possono verificarsi e senza dubbio si verificano. Inoltre, con il continuo sviluppo di questa tecnologia, diventano sempre piรน convincenti e pericolose. Per contrastare il diffondersi dellโutilizzo della tecnologia deepfake a scopo fraudolento da parte dei criminali, dobbiamo capire come funziona.
Cosa sono i deepfake?
Lโintelligenza artificiale dei deepfakeย (ย โdeep learningโย +ย โfakeโ) รจ cresciuta rapidamente negli ultimi anni. Le tecniche di machine learning possono essere utilizzate per creare falsi convincenti di immagini, video o contenuti audio. Ad esempio, utilizzando le reti neurali รจ possibile intervenire su foto e video per sostituire il volto di una persona con un altro preservando le espressioni e lโilluminazione. Sebbene inizialmente questi falsi fossero di bassa qualitร e facili da individuare, con lo sviluppo degli algoritmi i risultati sono diventati cosรฌ convincenti che ora รจ difficile distinguerli dalla realtร . Nel 2022, per la prima volta nella storia mondiale, รจ stato lanciato in Russia unย programma televisivo deepfake, in cui i cloni deepfake di Jason Statham, Margot Robbie, Keanu Reeves e Robert Pattinson interpretano i personaggi principali.
Conversione vocale
In questo articolo, tuttavia, ci concentriamo sulla tecnologia utilizzata per creare deepfake vocali. ร anche nota come conversione vocale (o โclonazione vocaleโ se si sta creando una copia digitale completa). La conversione vocale si basa sugli autoencoder, un tipo di rete neurale che prima comprime i dati di input (parte delย codificatore) in una rappresentazione interna compatta, quindi impara a decomprimerli da questa rappresentazione (parte delย decodificatore) per ripristinare i dati originali. In questo modo, il modello impara a presentare i dati in un formato compresso evidenziando le informazioni piรน importanti.
Per creare i deepfake vocali, vengono inserite nel modello due registrazioni audio, con la voce della seconda registrazione convertita nella prima. Il codificatore del contenuto viene utilizzato per determinareย ciรฒ cheย รจ stato detto nella prima registrazione, mentre il codificatore del parlante viene utilizzato per estrarre le caratteristiche principali della voce dalla seconda registrazione, ovveroย il modoย in cui la seconda persona parla. Le rappresentazioni compresse diย quello cheย deve essere detto e diย comeย viene detto vengono combinate e il risultato viene generato utilizzando il decodificatore. In questo modo, quello che viene detto nella prima registrazione viene espresso dalla persona della seconda registrazione.
Esistono altri approcci che utilizzano i codificatori automatici, ad esempio quelli che utilizzanoย reti neurali generative (GAN)ย oย modelli di diffusione. La ricerca su come realizzare i deepfake รจ supportata in particolare dallโindustria cinematografica. Pensaci: con le tecnologie deepfake per audio e video รจ possibile sostituire i volti degli attori nei film e negli spettacoli TV e doppiare i film sincronizzando alla perfezione le espressioni facciali in qualsiasi lingua.
Ecco come funziona.
Durante la ricerca sulle tecnologie deepfake, ci siamo chiesti quanto potesse essere difficile creare un deepfake della propria voce. ร venuto fuori che sono disponibili molti strumenti open source gratuiti per lavorare con la conversione vocale, ma non รจ altrettanto facile ottenere un risultato di alta qualitร . Occorrono esperienza di programmazione in Python e buone capacitร di elaborazione. E anche in questo caso la qualitร ottenuta รจ tuttโaltro che ideale. Oltre a quelle open source, sono disponibili anche soluzioni proprietarie e a pagamento.
Intermezzo promozionale ... continua la lettura dopo il box:
Ad esempio, allโinizio del 2023 Microsoftย ha annunciatoย un algoritmo in grado di riprodurre una voce umana sulla base di un esempio audio della durata di soli tre secondi! Questo modello funziona anche con piรน lingue, quindi puoi persino sentirti parlare una lingua straniera. Questa soluzione sembra promettente, ma attualmente รจ ancora in fase di ricerca. La piattaforma ElevenLabs, invece,ย consente agli utentiย di creare deepfake vocali senza fatica: basta caricare una registrazione audio della voce e delle parole da pronunciare e il gioco รจ fatto. Ovviamente, non appena si รจ sparsa la voce, le persone hanno iniziato a giocare con questa tecnologia in tutti i modi possibili.
La battaglia di Ermione e una banca troppo fiduciosa
In piena conformitร con laย legge di Godwin, a Emma Watson รจ stato fattoย leggere il Mein Kampfย e un altro utente haย utilizzatoย la tecnologia ElevenLabs per sferrare un attacco al proprio conto bancario. Trovi che sia inquietante? Per noi lo รจ. In particolare, se a tutto questo aggiungiamo le spaventose storie riguardanti truffatori che raccolgono campioni di voci facendo pronunciare alle persone le parole โsรฌโ o โconfermaโ, mentre sono al telefono con presunti operatori di una banca, un ufficio della pubblica amministrazione o un servizio di sondaggi, con lo scopo di rubare il loro denaro utilizzando lโautorizzazione vocale.
In realtร , la situazione non รจ cosรฌ catastrofica. In primo luogo, occorrono circa cinque minuti di registrazioni audio per creare una voce artificiale in ElevenLabs: un semplice โsรฌโ non รจ sufficiente. In secondo luogo, anche le banche sono a conoscenza di queste truffe. La voce puรฒ quindi essere utilizzata solo per avviare determinate operazioni non correlate al trasferimento di fondi (ad esempio, per controllare il saldo del conto). In sostanza, rubare denaro in questo modo non รจ possibile.
A ElevenLabs va riconosciuto il merito di aver reagito rapidamente al problema, riscrivendo le regole del servizio, vietando agli utenti gratuiti (ovvero anonimi) di creare deepfake basati sulle proprie voci caricate e bloccando gli account segnalati con reclami per โcontenuti offensiviโ.
Per quanto utili possano essere, queste misure tuttavia non risolvono ancora il problema dellโutilizzo dei deepfake vocali per scopi sospetti.
Altri utilizzi dei deepfake nelle truffe
La tecnologia deepfake di per sรฉ รจ innocua. Se utilizzata per scopi fraudolenti o intenti criminali, puรฒ tuttavia diventare uno strumento pericoloso, che offre molte opportunitร di inganno, diffamazione o disinformazione. Fortunatamente, non si sono verificati casi di truffe di massa riguardanti lโalterazione della voce. Si sono verificati, invece, diversi casi di alto profilo in cui i truffatori hanno utilizzato deepfake vocali.
Nel 2019, questa tecnologia รจ stata utilizzata per organizzare unaย truffa ai danni di unโazienda del settore energetico con sede nel Regno Unito. Durante una conversazione telefonica, fingendo di essere il CEO dellโazienda madre tedesca, il truffatore ha richiesto un trasferimento urgente di โฌ 220.000 sul conto di unโazienda fornitrice. Dopo il pagamento, il truffatore ha chiamato altre due volte: la prima volta per rassicurare il personale dellโufficio nel Regno Unito, segnalando che lโazienda madre aveva giร inviato un rimborso, e la seconda volta per richiedere un altro trasferimento. Durante tutte e tre le chiamate, il responsabile della sede nel Regno Unito era stato assolutamente sicuro di aver parlato con il suo manager, perchรฉ ne aveva riconosciuto sia lโaccento tedesco che il tono e il modo di parlare. Il secondo trasferimento non รจ stato eseguito solo perchรฉ il truffatore per errore ha effettuato la chiamata da un numero austriaco, anzichรฉ tedesco, rendendo sospettoso il responsabile dellโufficio britannico.
Un anno dopo, nel 2020, in unโaltra truffa i criminali hanno utilizzato la tecnologia deepfake per mettere a segno unย furtoย di una cifra che potrebbe arrivare a 35.000.000 di dollari ai danni di unโanonima societร giapponese (dalle indagini non sono emersi nรฉ il nome della societร , nรฉ il valore totale dei beni rubati).
Non รจ noto quali soluzioni (open source, a pagamento o addirittura proprietarie) i truffatori abbiano utilizzato per falsificare le voci, ma in entrambi questi casi le aziende hanno chiaramente, e gravemente, subito una frode deepfake.
Previsioni per il futuro
Le opinioni sul futuro dei deepfake sono discordi. Attualmente, una larga parte di questa tecnologia รจ nelle mani di grandi aziende e la disponibilitร al pubblico รจ limitata. Ma come dimostra la storia dei molto piรน popolari modelli generativi, come i programmiย DALL-E,ย Midjourneyย eย Stable Diffusion, e degli ancora piรน popolariย modelli linguistici di grandi dimensioniย (LLM, Large Language Model) come ChatGPT, tecnologie simili potrebbero diventare di pubblico dominio nel prossimo futuro. Ne รจ la conferma la recenteย fuga di informazioniย trapelate dalla corrispondenza interna di Google, in cui alcuni rappresentanti del gigante di Internet rivelano il timore di perdere la corsa dellโIA alle soluzioni aperte. Questo comporterร ovviamente un aumento dellโuso dei deepfake vocali, anche per scopi fraudolenti.
Il passo piรน promettente nello sviluppo dei deepfake รจ la generazione in tempo reale, che garantirร una crescita esplosiva dei deepfake (e delle truffe in cui verranno utilizzati). Riesci a immaginare unaย videochiamataย con qualcuno il cui volto e la cui voce sono completamente falsi?ย Ad ogni modo, si tratta di un livello di elaborazione dei dati che richiede quantitร enormi di risorse, di cui solo le grandi corporation dispongono. Le migliori tecnologie rimarranno pertanto private e i truffatori non saranno in grado di stare al passo con i professionisti. La qualitร non eccezionale aiuterร anche gli utenti a imparare a identificare facilmente le contraffazioni.
Come proteggersi
Per tornare alla domanda iniziale: possiamo fidarci delle nostre orecchie e delle voci che sentiamo? Con tutta probabilitร , nella maggior parte dei casi, diventare paranoici e iniziare a inventare parole in un codice segreto da usare con amici e familiari sarebbe un poโ esagerato, Tuttavia, in situazioni piรน gravi la paranoia potrebbe essere appropriata. Secondo le previsioni basate sullo scenario piรน pessimistico, nelle mani dei criminali la tecnologia deepfake in futuro potrebbe diventare unโarma formidabile. Ma abbiamo ancora tempo per prepararci e creare metodi affidabili per proteggerci dalla contraffazione: sono giร disponibili molteย ricercheย sui deepfake e le grandi aziende stanno giร lavorando allo sviluppo diย soluzioni di protezioneย mirate. Abbiamo giร parlato in dettaglio di come contrastare i deepfake videoย in questo articolo.
Per il momento, siamo solo allโinizio dello sviluppo di adeguati sistemi di protezione contro le contraffazioni dellโIA. ร quindi importante tenere presente che i deepfake sono solo un altro tipo avanzato di social engineering. Il rischio di imbattersi in truffe come questa รจ basso, ma รจ reale. Vale quindi la pena conoscerle e imparare a riconoscerle. Se ricevi una chiamata strana, presta attenzione alla qualitร del suono. La tonalitร รจ innaturale, incomprensibile o ci sono strani rumori? Ricontrolla sempre le informazioni tramite altri canali e ricorda che i truffatori fanno affidamento soprattutto sullโeffetto sorpresa e sul panico.
FONTE : https://www.kaspersky.it/blog/audio-deepfake-technology/27923/