Era dei petabyte: fine della teorie?

La discussione su Edge vista da Wordle

La capacità di memorizzare e processare enormi quantità di dati da parte di “nuvole” di computer renderà obsoleta le necessità di formulare ipotesi e teorie? La forza bruta del DISC (Data Intensive Scalable Computation) potrà individuare nell’oceano di dati a disposizione pattern e correlazioni così significative da consentire previsioni attendibili sul mondo senza dover ricorrere a sofisticate modellizzazioni?

Chris “coda lunga” Anderson ha lanciato questa provocazione dalle pagine digitali di The Edge nelle scorse settimane.

Alla scala dei Petabyte, sostiene Anderson, la gestione e l’utilizzo dell’informazione richiede un approccio diverso. Potendo visualizzare miliardi di dati nella loro totalità, è possibile “vedere” matematicamente i dati prima e solo dopo assegnarli un contesto.

Per secoli gli scienziati hanno applicato il metodo scientifico: costruzione del modello su date ipotesi, verifica sperimentale del modello tramite raccolta di dati, conferma o confutazione di quel modello.
Dati senza modelli sono considerati solo rumore ed eventuali correlazioni tra i dati stessi sono solo coincidenze senza un modello entro il quale inserirle.

Fino ad adesso, aggiunge Anderson.

Con una tale quantità di dati l’approccio classico alla scienza – ipotesi, modello, test – potrebbe essere diventato obsoleto.

Possiamo inserire i dati in un cluster di computer e lasciare che algoritmi statistici scoprano pattern e schemi immediatamente utilizzabili senza che la scienza ne spieghi l’origine o li inserisca in un contesto teorico.

Anderson fa notare che questo nuovo approccio è tipico di Google: per esempio Google non ha avuto bisogno di conoscere a fondo il mondo e le convenzioni della pubblicità né di sviluppare sofisticati modelli economici e statistici per ottenere grandi successi. Sono bastati un po’ di matematica applicata, ottimi strumenti analitici ed un’enorme quantità di dati a disposizione.

Il direttore di Wired conclude così:

La recente disponibilità di grandi quantità di dati unita a strumenti statistici per setacciare questi numeri, offre un’intera nuova strada per comprendere il mondo. La correlazione rimpiazza la causalità,e la scienza può ora avanzare anche senza modelli coerenti, teorie unificate o spiegazioni meccanicistiche

Numerosi scienziati, filosofi ed addetti ai lavori hanno replicato mettendo in evidenza come il ragionamento di Anderson appaia confuso e le sue ipotesi piuttosto deboli.

La scienza ha sempre utilizzato i dati per compiere previsioni: basti pensare alle leggi di Keplero sul movimento dei pianeti, elaborate dall’astronomo tedesco sulla base dell’impressionante mole di dati ed osservazioni compiute dal collega olandese Tycho Brahe.

Del resto strumenti matematici come le equazioni differenziali o la statistica sono stati creati proprio per maneggiare grandi quantità di dati.

I dati sono però solo un punto di partenza: permettono di stabilire delle ipotesi iniziali, sulle quali costruire modelli che, come W. Daniel Hillis sottolinea, possono portarci oltre i dati, verso previsioni più generali che si applicano a contesti che ampliano quelli iniziali.

La grande forza delle teorie consiste, tra l’altro, proprio nell’inglobare in poche brevi formule una gran quantità di dati. Le equazioni di Maxwell ne sono il più elegante esempio.

La scienza non esaurisce il suo compito nella capacità di effettuare predizioni: anzi si potrebbe dire che questo è un effetto collaterale della sua più profonda missione, che consiste nel conoscere e nel comprendere la realtà.

L’Analisi Correlativa, come la battezza Kevin Kelly, è uno strumento potente, un processo di pura induzione che determina però una conoscenza meccanica, algoritmica, tipica appunto dei computer. Una scienza senza ricerca di teorie è una scienza senza umani, constata Jaron Lainer. Si può trasferire parte del “contesto della scoperta” alle macchine, ma, dice Gloria Origgi, il “contesto della spiegazione” non può che rimanere di pertinenza degli esseri umani.

Sottolinea Joel Garreau che, comunque, anche la semplice scelta dei dati da inserire in un calcolatore per l’elaborazione è una selezione artificiale che sottintende un’ipotesi e quindi una teoria da verificare o confutare.

L’analisi di miliardi di dati attraverso l’utilizzo il grid computing alla ricerca di schemi nascosti, di correlazioni o di eventi unici è una metodologia di lavoro che sta producendo ottimi risultati in fisica, in biologia, nella genetica, nelle scienze sociali ed in economia. Ma i risultati producono spesso nuove domande e quindi la necessità di nuove ipotesi, di nuove teorie, di nuove spiegazioni. Da valutare attraverso nuovi esperimenti che producono nuovi dati. E così via. I dati sono solo un anello della catena.

Quello che forse si può osservare – come avevo ipotizzato anch’io tempo fa – è che quel gigantesco archivio condiviso nonché elaboratore distribuito qual’ è Internet potrà produrre una generazione di scienziati – o di moderni filosofi naturali secondo George Dyson – che non leggerano più la Natura direttamente ma tramite la sua rappresentazione digitale proiettata nella Rete.

4 thoughts on “Era dei petabyte: fine della teorie?

  1. Grazie per aver riassunto questo interessante dibattito.

    Credo non si dovrebbe trascurare il fatto che molti dei dati oggi disponibili sono tracce di azioni umane rese permanenti e ricercabili dal web. L’analisi di questi dati attualizza forme di auto-osservazione della società che retroagiscono sulla società stessa (in modo simile a come fanno i sondaggi) con un ritmo sempre più accelerato. Non credo che, a causa di questa accelerazione avremo previsioni più corrette ma ne avremo un bisogno sempre più costante. Forse le nuove forme di governance post-ideologiche saranno molto simili a quello che fa Google oggi con i suoi algoritmi.

  2. Osservazione acuta. Proprio per questo occorre stare molto attenti a come i dati verranno interpretati, sopratutto da chi non ha un bagaglio tecnico-scientifico sufficiente. Sui sondaggi stendiamo un velo pietoso. Ma anche l’utilizzo superficiale della statistica genera false rappresentazione della realtà (qui ci cascano anche fior di scienziati). Trovare correlazioni e pattern nascosti nei dati, poi, è una possibilità da gestire con cautela, inserendo la ricerca in un solido framework metodologico e scientifico altrimenti ci si trova di fronte a risultati senza senso (magari spacciati per verità). La relazione tra numero di pirati ed effetto serra “scoperta” dal pastafarianesimo chiarisce bene il concetto.

  3. Dalla presentazione del libro di John T. Barrow, Teorie del tutto. La ricerca della spiegazione ultima, Adelphi, 1992.

    la scienza ha già dimostrato di riuscire a produrre una enorme compressione di una enorme quantità di fatti naturali usando un numero sempre più ridotto di princìpi. Se la natura fosse del tutto casuale, questa compressione non sarebbe possibile in alcun modo: allora “la scienza si ridurrebbe a una sorta di raccolta di francobolli senza criteri, all’accumulo indiscriminato di ogni fatto accessibile.

  4. A me sembra che correlando dati a casaccio per il solo fatto di disporne in grande quantità produrrebbe una serie di meta-dati in pari numero, che a loro volta potranno essere passati per il tritacarne dell’analisi correlativa inerpicandosi in una spirale di meta-informazioni che avrebbero inerenze con la realtà sempre più dubbie, ma magari forti cross-correlazioni e auto-correlazioni: una visione della perversione statistica!
    Meglio pensare che sia solo una provocazione.
    Ciao.

Lascia un commento

Inserisci i tuoi dati qui sotto o clicca su un'icona per effettuare l'accesso:

Logo WordPress.com

Stai commentando usando il tuo account WordPress.com. Chiudi sessione / Modifica )

Foto Twitter

Stai commentando usando il tuo account Twitter. Chiudi sessione / Modifica )

Foto di Facebook

Stai commentando usando il tuo account Facebook. Chiudi sessione / Modifica )

Google+ photo

Stai commentando usando il tuo account Google+. Chiudi sessione / Modifica )

Connessione a %s...