L’Ia aiuta a scoprire la disinformazione russa

Consegne di armi. Sanzioni dell’Unione europea. Le minoranze etniche. Questi sono stati i tre temi trattati più frequentemente dai media ungheresi tra l’autunno del 2021 e la primavera del 2022, secondo due ricercatori che hanno analizzato migliaia di articoli pubblicati dai media ungheresi. Benjamin Novak, dottorando alla Johns Hopkins University ed ex reporter per il New York Times in Ungheria fino al 2022, e Martin Wendiggensen, politologo e dottorando alla Johns Hopkins University, hanno lavorato insieme per esplorare se le narrazioni dei media ungheresi corrispondessero a quelle delle pubblicazioni di propaganda russa ed hanno scoperto che, nella maggior parte dei casi, è effettivamente così. Il sentimento nazionale è cambiato e messaggi a sostegno degli obiettivi russi sono apparsi in Ungheria a metà settembre 2021, mesi prima che le truppe russe invadessero effettivamente l’Ucraina. “Possiamo solo ipotizzare quale sia stata la motivazione dei media ungheresi a rigurgitare sempre più la propaganda russa da quel momento in poi”, dice Wendiggensen, che ha presentato i risultati dell’indagine alla recente conferenza sulla sicurezza LabsCon. Quello che è certo, dice, è che dall’autunno 2021 in poi, non solo il numero di articoli che trattavano le tre aree tematiche è aumentato rapidamente, ma gli argomenti da quel momento in poi hanno sempre seguito gli stessi schemi narrativi: le forniture di armi sono cattive perché prolungano guerre, l’Ucraina tratta male le minoranze etniche e le sanzioni dell’Unione europea sono dannose per l’economia ungherese.

La ricerca di Novak si è basata sull’analisi manuale degli articoli, mentre Wendiggensen ha addestrato un modello di apprendimento automatico (Machine learning, Ml) per analizzare il corpus degli articoli. Ciò che colpisce della loro ricerca è che uomo e macchina siano giunti allo stesso risultato senza consultarsi precedentemente, suggerendo che il machine learning può essere un metodo affidabile per identificare le campagne di disinformazione. Wendiggensen ha insegnato alla macchina a catturare la frequenza di interi insiemi di argomenti – non solo singole parole – e ad analizzarli per determinare il tono della narrazione. La sua applicazione utilizza blocchi di codice forniti dal collega e specialista di Ml, Kohei Watanabe. Nella prima fase, il software ha catturato in modo indipendente, senza intervento umano, tutti gli articoli di stampa precedentemente scaricati e suddivisi in componenti quali titolo, data e corpo del testo. L’applicazione ha poi associato ciascuna delle 26 milioni di parole raccolte a un vettore geometrico e multidimensionale. “Le relazioni tra i termini sono state stabilite in base agli angoli ai quali erano posizionati i vettori e alle distanze tra i vettori”, afferma Wendiggensen.

Per aumentare la precisione dei rapporti, questo spazio non si limita alle solite tre dimensioni. Invece, il software traccia i vettori attraverso centinaia di dimensioni. “Così, dopo un po’, il modello riconosce che, ad esempio, ‘sanzioni’ e ‘Bruxelles’ e ‘negativo’ sono strettamente correlate”, spiega Wendiggensen. “Calcolando i vettori delle relazioni, possiamo applicare la matematica alle parole”. Alla conclusione di questa fase, il modello Ml ha identificato gli stessi tre argomenti principali trovati da Novak. “L’obiettivo nell’elaborazione del modello di apprendimento automatico era quello di rendere le somiglianze matematicamente esprimibili e quindi statisticamente affidabili”, afferma Wendiggensen. Nella seconda fase della sua ricerca, Wendiggensen ha dato al software parole opposte, come “buono” e “cattivo” o “malvagio” e “benigno”. Sulla base di questa dimensione del punteggio target introdotta dall’uomo, il modello Ml ha assegnato un punteggio a ciascun articolo. Il modello Ml non ha esaminato le singole parole per calcolare il punteggio; piuttosto, funzionava con le frasi per stabilire relazioni tra loro. Il modello conserva le affermazioni delle singole frasi come metainformazioni, quindi anche i pensieri che si estendono su più frasi possono essere catturati e valutati nella loro interezza.

Il punto di svolta per la copertura filo-russa è arrivato a metà settembre 2021, afferma Wendiggensen. Il software impiega solo 15 minuti per valutare la polarità, consentendo ai ricercatori di continuare a controllare il panorama dei media. “Ancora oggi questi tre argomenti sono dominanti”, afferma Wendiggensen. “Nessun altro argomento discusso nei media ungheresi rappresenta più del 15 per cento di tutti gli articoli sull’Ucraina”. Uno dei motivi per cui i messaggi filo-russi sono riusciti a radicarsi così tanto è perché in Ungheria manca il pluralismo dei media, ovvero la capacità di ottenere punti di vista diversi da diversi media. L’attuale Governo monitora direttamente e indirettamente tutta la cronaca: la holding statale dei media Mtva controlla, ad esempio, tutte le emittenti pubbliche. Le aziende favorevoli al governo possiedono organi di stampa regionali e una holding centrale coordina tutte le circa 500 società di media filogovernative. Mentre le narrazioni sulla fornitura di armi e sulle minoranze etniche corrispondono in gran parte alla propaganda russa, i media ungheresi hanno aggiunto un po’ di colore locale al tema delle sanzioni. Le possibili ed effettive sanzioni contro la Russia sono state utilizzate per giustificare il cattivo stato dell’economia ungherese. Nella fase successiva i ricercatori intendono elaborare anche i video pubblicati dalle emittenti televisive ungheresi. Hanno già ben 8mila ore di immagini in movimento, con copioni narrativi trascritti dal software. Ciò ha aumentato la raccolta di parole, giunte a l’impressionante numero di 60 milioni. “Il nostro obiettivo finale è creare un set di dati che altri ricercatori possano utilizzare a piacimento”, afferma Wendiggensen.

(*) Docente universitario di Diritto internazionale e normative per la sicurezza

Aggiornato il 30 novembre 2023 alle ore 11:51:32