Seguici anche su

7 dicembre 2017

La misura di tutto è il valore di niente

Grazie al machine learning e ai big data oggi possiamo prevedere il successo di libri, articoli di giornale, film. Ma la fine di esperti e critica è una distopia

Daniele Gambetta

 ► Dal numero dell’8 dicembre in edizione digitale

Quo facto, calculemus». Era il diciassettesimo secolo quando il filosofo e matematico Gottfried Leibniz, ancora giovane, sperava di poter elaborare un modello logico capace di risolvere ogni dibattito in un mero calcolo, che fornisse risposte precise e inconfutabili. Oggi, in virtù della mole di dati prodotta ogni giorno e delle capacità di calcolo delle macchine, il mito leibniziano è più vivo che mai.

Ad alimentarlo sono i grandi gruppi come Google e Facebook, coloro cioè che possiedono questa enorme mole di dati e che, grazie a essi, si presentano come autoproclamati detentori di verità. Se nella ricerca avanza l’idea della “fine della teoria” celebrata da Chris Anderson nel suo celebre articolo su Wired nel giugno 2008, in tutti i campi si diffonde una fiducia cieca verso l’algoritmo e la correlazione statistica, non solo in termini di efficienza e velocità ma di decisionalità, delegando alla macchina capacità di analisi obiettive…

Leggi l'articolo per 0,10 €

PAGA CON
Paga con Tinaba

L’algoritmo valuta le performance degli insegnanti nelle scuole, come e quanto investire in Borsa. Grazie alla medicina predittiva, i numeri ci dicono quando e se ci ammaleremo, e di cosa. Ci dicono quali rischi corriamo, come ben sanno le compagnie assicurative che nei big data hanno trovato un indispensabile alleato. E, ovviamente, numeri e algoritmi ci dicono cosa ci piace. Quali libri, quali articoli di giornale, quali film, quale musica. Ci dicono, insomma, cosa intendiamo per “bello” e meritevole di essere letto, ascoltato, visto. È la morte definitiva dei critici e del giudizio di qualità per come lo intendiamo tradizionalmente, sepolto sotto il crollo di qualsiasi intermediazione: critici, esperti, studiosi, intellettuali. Non sono più loro a dirci quali sono i consumi culturali che vale la pena seguire: se tutto si può misurare, conta il giudizio condiviso. Punto.

 

Il robot editore

Già a fine 2013 uno studio della Stony Brook University ipotizzava un modello statistico per riconoscere, tra un insieme di testi e in base alle proprietà stilistiche, quale può avere maggior successo. I libri presi in considerazione per l’analisi provenivano dal database di Project Gutenberg, e come criterio di valutazione si usava il conteggio dei download, considerando come valore aggiunto le vendite su Amazon o la vincita di premi letterari.

Alcuni autori e editori evidenziarono come l’argomento trattato sia un elemento fondamentale nella valutazione di un’opera, che l’algoritmo ignorava basandosi solo sullo stile. Di tentativi ve ne sono stati altri, fino al settembre 2016, quando l’ex-editore Jodie Archer e il co-fondatore del Laboratorio letterario della Stanford University Matthew Jockers pubblicarono The Bestseller Code, testo nel quale si descrive un algoritmo messo a punto dagli autori per riconoscere libri destinati a diventare bestseller. Il sistema ha preso in esame 20 mila romanzi usando avanzate tecniche di analisi dei dati, considerando temi, trama, stile e personaggi delle opere.

L’accuratezza del risultato fu notevole: in un gruppo di 100 libri – di cui 50 bestseller e 50 no – il sistema ha saputo predire la sorte delle opere nell’80% dei casi, seppur facendo totalizzare il massimo punteggio a Il Cerchio di Dave Eggers, che in Inghilterra aveva venduto la rispettabile quantità di 43.638 copie, ma senza mai entrare nella top 50 dei libri più venduti.

 

La nuova algoritmica

Per capire le radici di tutto questo, bisogna fare un passo indietro. Nell’algoritmica “classica”, che non fa uso delle moderne tecniche di machine learning, la macchina ha il compito di eseguire determinati calcoli in un prefissato ordine. È un’algoritmica trasparente, dove l’intero ragionamento è noto e comprensibile, che consente l’esecuzione di calcoli anche complessi in poco tempo, ma fallisce laddove vi è da simulare un ragionamento umano non analitico, come può essere il riconoscimento di un volto ma anche la catalogazione di una musica all’interno di un genere, o, per l’appunto, un giudizio su un’opera artistica.

Nel machine learning l’algoritmo si nutre di una grossa mole di dati, spesso già “valutati”, e da questo insieme di partenza impara a compiere la stessa valutazione, minimizzando per quanto possibile l’errore. Il risultato è una black box, un algoritmo capace, dato un input simile, di compiere l’analisi richiesta, senza che il programmatore sia a conoscenza degli specifici criteri di valutazione.

Nel compiere azioni che consideriamo “intuitive”, un algoritmo di questo tipo riesce a ottenere risultati notevoli, riproducendo l’analisi su dati nuovi presi in esame usando i criteri appresi. Quella dell’espressione di un giudizio di qualità è un esempio sicuramente calzante e sempre più utilizzato. Nel caso della valutazione di un testo, ad esempio, si fa uso di Nlp (natural language processing), un processo di elaborazione del linguaggio, utilizzato anche nella sentiment analysis. Si può quindi, ad esempio, riconoscere gli articoli o i tweet più apprezzati, disponendo di un database di testi già valutati dagli utenti con i like o le condivisioni.

 

Esiste l’imparzialità?

Così è nata l’utopia (o la distopia?) di un’applicazione che riconosca in automatico le caratteristiche che fanno di un manoscritto un buon libro, per far risparmiare tempo e risorse a un editore nella valutazione di centinaia o migliaia di testi che pervengono alle case editrici, per selezionare in automatico quelli più idonei alla pubblicazione.

Ma davvero un algoritmo può essere in grado di riconoscere un “testo bello” oppure no, al di là dell’eterno dibattito editoriale tra qualità di un testo e sua affermazione di vendita? Per rispondere dobbiamo considerare la differenza fondamentale tra un algoritmo di tipo classico e quello di apprendimento automatico: per riuscire a far compiere a una macchina ragionamenti “intuitivi”, abbiamo costruito macchine capaci di affidarsi a valutazioni probabilistiche più che deterministiche, lasciandogli, in un certo senso, la possibilità di sbagliare (cosa che, ad esempio, non è concessa a un algoritmo dedicato al riconoscimento di una password).

Ma, soprattutto, la fase di apprendimento di un metodo intuitivo è un processo in cui la macchina si appropria anche di bias, distorsioni ed errori eventualmente presenti nel dataset di partenza. Ce lo ricorda il celebre caso di Tay, il bot twitter di Microsoft ritirato perché antisemita, o il software di Google affetto da pregiudizi sessisti dopo aver imparato a scrivere da Google News. Ma sarebbe un errore, da questi casi, dedurre che gli algoritmi non siano in grado di scrivere tweet e articoli, così come sarebbe superficiale concludere che il giudizio di qualità non è affare delle macchine.

Il vero mito irrealizzabile, semmai, è proprio quello – auspicato o strumentalizzato a seconda delle occasioni – di una oggettivazione del giudizio, della neutralizzazione (in senso di divenire neutrale) della valutazione. La delega algoritmica si avvale di una retorica scientista, che tende a eclissare i processi di rappresentazione e le scelte che avvengono nella costruzione dei modelli. Al pari di quanto avviene per un addetto umano, la cui cultura e capacità di valutazione sono costituite dall’esperienza, e il cui giudizio è quindi sindacabile e può essere messo in questione, così lo è quello di una macchina che apprende ed esercita il suo apprendimento.

 

Apocalittici e integrati

Vi sono poi certamente da considerare le implicazioni politiche di questo, ovvero di come spesso un dataset possa essere costruito ignorando le minoranze culturali, le diversità, rischiando così di dare origine a una macchina con opinioni e gusti aderenti all’interpretazione dominante e allo stesso tempo forte di una retorica oggettiva.
Non sono temi che oggi possano essere lasciati ai data-entusiasti della Silicon Valley, né possiamo lasciarci intimorire dalle distopie tecnofobiche. Dobbiamo, molto banalmente, farci i conti tutti. E mai espressione fu più adeguata.

 

*Daniele Gambetta, matematico, divulgatore scientifico, è curatore di Datacrazia, antologia di saggi in uscita nel 2018 per D Editore e che affronterà con un approccio multidisciplinare il tema del peso di numeri e algoritmi nella nostre vite e le implicazioni politiche, economiche e culturali della datification dei processi sociali.

 

[Foto in apertura di Discipula]

Altri articoli che potrebbero interessarti