Google impara a leggere il labiale

Era il 26 gennaio del 2014 e Google metteva a segno il suo ultimo colpo: l’acquisto della DeepMind Technologies. L’impresa britannica, fondata nel 2011 da Demis Hassabis, Mustafa Suleyman e Shane Legg, specializzata in deep learning, avrebbe dovuto aiutare il motore di ricerca ad ottimizzare il servizio offerto e poneva le basi per la realizzazione della massima ambizione di casa Google: la costruzione di un cervello elettronico in grado di interpretare tutto quello che c’è nel web e relazionarcisi con una precisione simile o superiore a quella degli esseri umani.

A soli tre anni di distanza, la divisione dedicata all’Intelligenza Artificiale di Mountain View, in collaborazione con l’Università di Oxford, ha dato vita a un software in grado di leggere il labiale. Questa volta, a differenza del caso LipNet, software sviluppato dalla stessa università e capace di comprendere con un’accuratezza del 90 per cento solo frasi semplici pronunciate da volontari, l’A.I. impara direttamente dalla televisione. Nello specifico, i ricercatori hanno collocato il software di fronte a diversi show popolari in Gran Bretagna, quali Question Time e Newsnight e hanno previsto un “allenamento”, chiamato “Watch, listen and spell”, nell’ambito di circa 17.500 parole. Un numero spropositato se si considera che il sistema inventato in precedenza era stato allenato solamente su 51 parole.

Rilevante anche la varietà di interlocutori: oltre 1000 volti differenti assicurano flessibilità e capacità di adattamento del sistema. Dopo aver sottoposto la nuova creazione a più di 5mila ore di video, per consentire al computer di imparare al meglio i movimenti delle labbra e associarvi quindi le giuste lettere, il team di Big G avrebbe quindi raggiunto il tanto agognato obiettivo. Rispetto alla precisione garantita da un essere umano esperto in lettura labiale, che si ferma al 12,4 per cento, l’accuratezza del software è stata del 46,8 per cento.

“L’obiettivo di questo lavoro - hanno dichiarato i ricercatori - è riconoscere frasi ed espressioni, indipendentemente dal fatto che ci sia o meno l’audio”. Il vero giovamento spetterebbe quindi agli affetti da parziale o totale mutismo. Oltre alla possibilità di trascrivere intere conferenze o impartire comandi in situazioni molto rumorose in cui si accavallano più voci, questo sistema consentirebbe la facile trascrizione di film muti e sottotitoli per non udenti, come anche di captare un ordine da chi non può emettere nemmeno un suono, ma è semplicemente in grado di muovere le labbra. Fortuna che alla televisione resta ancora qualcosa di buono da insegnare.

Aggiornato il 28 novembre 2022 alle ore 03:02