Caricare foto personali su Internet può sembrare poco importante. Chi altro avrà accesso ad esse, cosa ci faranno e quali algoritmi di apprendimento automatico aiuteranno ad addestrare?
La società Clearview ha già fornito alle forze dell'ordine statunitensi uno strumento di riconoscimento facciale addestrato sulle foto di milioni di persone prelevate dal web pubblico. Ma probabilmente era solo l'inizio. Chiunque abbia competenze di codifica di base ora può sviluppare software di riconoscimento facciale, il che significa che c'è più potenziale che mai di abusare della tecnologia in qualsiasi ambito, dalle molestie sessuali e la discriminazione razziale all'oppressione politica e alla persecuzione religiosa.
Un certo numero di ricercatori di intelligenza artificiale sta remando contro e sviluppando modi per assicurarsi che le IA non possano imparare dai dati personali. Due dei più recenti verranno presentati questa settimana all'ICLR, una delle principali conferenze sull'IA.
"Non mi piace che qualcuno mi prenda cose che non dovrebbe avere", afferma Emily Wenger dell'Università di Chicago, che l'estate scorsa ha sviluppato uno dei primi strumenti per farlo, chiamato Fawkes, con i suoi colleghi: "Penso che molti di noi abbiano avuto un'idea simile allo stesso tempo."
L'avvelenamento dei dati non è una novità. Azioni come l'eliminazione dei dati che le aziende hanno su di te o la deliberazione di set di dati inquinanti con esempi falsi possono rendere più difficile per le aziende addestrare modelli di apprendimento automatico accurati. Ma questi sforzi in genere richiedono un'azione collettiva, con la partecipazione di centinaia o migliaia di persone, per avere un impatto. La differenza con queste nuove tecniche è che funzionano sulle foto di una singola persona.
"Questa tecnologia può essere utilizzata come chiave da un individuo per bloccare i propri dati", afferma Sarah Erfani dell'Università di Melbourne in Australia. "È una innovativa prima linea di difesa per proteggere i diritti digitali delle persone nell'era dell'IA".
Nascondersi in bella vista
La maggior parte degli strumenti, incluso Fawkes, adotta lo stesso approccio di base. Apportano piccole modifiche a un'immagine che sono difficili da individuare con l'occhio umano, ma confondono un'intelligenza artificiale, causando un'identificazione errata di chi o cosa vede in una foto. Questa tecnica è molto vicina a una sorta di attacco contraddittorio, in cui piccole alterazioni ai dati di input possono costringere i modelli di deep learning a commettere grandi errori.
Dai a Fawkes un sacco di selfie e aggiungerà perturbazioni a livello di pixel alle immagini che impediranno ai sistemi di riconoscimento facciale all'avanguardia di identificare chi è nelle foto. A differenza dei modi precedenti per farlo, come usare una pittura per il viso per mandare in tilt l'IA, lascia le immagini apparentemente invariate per gli umani.
Wenger e i suoi colleghi hanno testato il loro strumento su diversi sistemi commerciali di riconoscimento facciale ampiamente utilizzati, tra cui AWS Rekognition di Amazon, Microsoft Azure e Face++, sviluppati dalla società cinese Megvii Technology. In un piccolo esperimento con un set di dati di 50 immagini, Fawkes è stato efficace al 100% contro tutte, impedendo ai modelli addestrati su immagini ottimizzate di persone di riconoscere in seguito le immagini di quelle persone in immagini nuove. Le immagini di allenamento modificate avevano impedito agli strumenti di formare una rappresentazione accurata dei volti di quelle persone.
Fawkes è già stato scaricato quasi mezzo milione di volte dal sito web del progetto. Un utente ha anche creato una versione online, rendendo ancora più facile l'utilizzo da parte delle persone (sebbene Wenger non garantisca l'utilizzo del codice da parte di terzi, avvertendo: "Non sai cosa sta succedendo ai tuoi dati mentre quella persona li sta elaborando”). Non c'è ancora un'app per telefono, ma non c'è nulla che impedisca a qualcuno di crearne una, dice Wenger.
Fawkes potrebbe impedire a un nuovo sistema di riconoscimento facciale di riconoscerti, diciamo il prossimo Clearview. Ma non saboterà i sistemi esistenti che sono già stati addestrati sulle tue immagini non protette. La tecnologia sta migliorando continuamente, tuttavia. Wenger pensa che uno strumento sviluppato da Valeriia Cherepanova e dai suoi colleghi dell'Università del Maryland, uno dei team dell'ICLR questa settimana, potrebbe affrontare questo problema.
Chiamato LowKey, lo strumento si espande su Fawkes applicando perturbazioni alle immagini basate su un tipo più forte di attacco contraddittorio, che inganna anche i modelli commerciali pre-addestrati. Come Fawkes, anche LowKey è disponibile online.
Erfani e i suoi colleghi hanno aggiunto una svolta ancora più grande. Insieme a Daniel Ma della Deakin University e ai ricercatori dell'Università di Melbourne e della Peking University di Pechino, Erfani ha sviluppato un modo per trasformare le immagini in "esempi impossibili da apprendere", che in effetti fanno sì che un'IA ignori completamente i tuoi selfie. "Penso che sia fantastico", dice Wenger. "Fawkes addestra un modello per imparare qualcosa di sbagliato su di te e questo strumento addestra un modello per non imparare nulla su di te."
Le mie immagini attinte dal web (in alto) si trasformano in esempi irraggiungibili (in basso) che un sistema di riconoscimento facciale ignorerà. (Fonte: Sarah Erfani, Daniel Ma e colleghi)
A differenza di Fawkes e dei suoi seguaci, gli esempi impossibili da apprendere non si basano su attacchi contraddittori. Invece di introdurre modifiche a un'immagine che costringono un'IA a commettere un errore, il team di Ma aggiunge piccoli cambiamenti che inducono un'IA a ignorarla durante l'allenamento. Quando viene presentata con l'immagine in un secondo momento, la sua valutazione di ciò che contiene non sarà migliore di un'ipotesi casuale.
Esempi impossibili da apprendere possono rivelarsi più efficaci degli attacchi contraddittori, poiché non è possibile addestrarvisi contro. Più esempi contraddittori vede un'IA, meglio riesce a riconoscerli. Ma poiché Erfani e i suoi colleghi in primo luogo impediscono a un'IA di allenarsi sulle immagini, affermano che ciò non accadrà con esempi impossibili da apprendere.
Wenger tuttavia è rassegnata alla battaglia in corso. Il suo team ha recentemente notato che il servizio di riconoscimento facciale di Microsoft Azure non era più manomesso da alcune delle loro immagini. "Improvvisamente in qualche modo è diventato resistente alle immagini occultate che avevamo generato", dice. “Non sappiamo cosa sia successo”.
Microsoft potrebbe aver cambiato il suo algoritmo, o l'IA potrebbe semplicemente aver visto così tante immagini di persone che usano Fawkes che ha imparato a riconoscerle. Ad ogni modo, la scorsa settimana il team di Wenger ha rilasciato un aggiornamento del proprio strumento che funziona di nuovo contro Azure. "Questa è un'altra corsa agli armamenti del gatto contro il topo", dice.
Per Wenger, questa è la storia di Internet. "Aziende come Clearview stanno capitalizzando su ciò che percepiscono come dati liberamente disponibili e li utilizzano per fare ciò che vogliono", afferma.
La regolamentazione potrebbe aiutare sul lungo termine, ma ciò non impedirà alle aziende di sfruttare le scappatoie. "Ci sarà sempre uno scollamento tra ciò che è legalmente accettabile e ciò che le persone vogliono effettivamente", dice. "Strumenti come Fawkes colmano questa lacuna."
"Diamo alle persone un potere che prima non avevano", dice.