I big data e il corpo

di Andrea Capocci, Mauro Capocci

Questo articolo è stato originariamente pubblicato in Datacrazia, circa tre anni fa. Abbiamo deciso di riproporlo ora, su D Zine, proprio per la sua estrema attualità: oggi, tra problemi di privacy sanitario e app di tracciamento sociale, il rapporto tra big data e salute si ripropone in termini sempre più pressanti…

∞

Lo sviluppo delle tecnologie genomiche ha creato enormi possibilità di conoscenza sull’evoluzione e sul funzionamento degli organismi, e in particolare di quello umano. Negli ultimi due decenni, siamo passati da avere una bozza del genoma di pochi individui – la pietra miliare dello Human Genome Project, completato nel 2003 – alla possibilità di sequenziare rapidamente tutto il patrimonio genetico di un singolo individuo, a un prezzo irrisorio. Basta inviare un campione della propria saliva e dopo poche settimane si può ottenere una mappatura delle regioni del genoma ritenute più significative riguardo lo stato di salute e la discendenza. Il verdetto dell’oracolo più o meno suonerà così: “il tuo genoma ha il 56% di discendenza nordeuropea, il 24% ispanica, l’11% è nativo americano, e il restante 10% è neandertaliano e africano. Il confronto con i database disponibili evidenziano che hai il 26% di rischio in più di avere un infarto, ma il 17% in meno di avere il diabete mellito di tipo II”.
Per l’individuo – divenuto un paziente, dopotutto – non c’è molto da fare: regolare lo stile di vita, qualche attenzione al cibo, al movimento. Non c’è molto di più. È questa la grande rivoluzione dei big data genomici nella clinica? Il bioeticista canadese Timothy Caulfield ha sintetizzato così, nel 2012:

Per oltre due decenni, ci hanno detto che siamo nel mezzo di una rivoluzione genetica. Sono ancora in attesa. Nel frattempo, se vogliamo davvero rivoluzionare la nostra salute, dovremmo mettere da parte i sequenziatori, le patatine e i gelati, prendere una mela e andare a fare una bella camminata

Non che non ci siano stati passi avanti dal 2012 a oggi: ma in quale direzione? Una serie di articoli usciti di recente individua dei potenziali difetti della ricerca genomica degli ultimi due decenni, e incoraggiano a rivedere molte delle ipotesi proposte negli anni precedenti. Osservando l’evoluzione degli studi di genetica medica, notiamo infatti un crescente trionfalismo relativo alla possibilità di diagnosticare e trattare malattie grazie all’elaborazione o agli interventi sul genoma. Quando ancora si doveva giungere al completamento della prima bozza del genoma umano, ci fu chi dichiarava: «Entro il 2000, [tutte] le aziende farmaceutiche del mondo useranno i dati genomici per lo sviluppo di nuovi farmaci e procedure diagnostiche. Nessuna scienza sarà più importante della ricerca genomica per il futuro della medicina». Affermazioni che sanno ovviamente di marketing, ma che appunto non hanno troppi riscontri nella realtà. Anche casi apparentemente semplici di correlazione tra mutazioni genetiche e malattie hanno in realtà contorni piuttosto sfumati. Persino per le mutazioni dei geni BRCA1 e BRCA2, note da diversi anni per il collegamento con l’insorgere di tumori al seno (BReast CAncer) e all’ovaio, abbiamo numeri ben lontani dalla certezza: a seconda delle stime, si è tra 55 e 60%, a meno di non avere una familiarità della patologia (nel qual caso si arriva all’80%). Molti programmi di screening sono stati implementati per queste mutazioni, e anche il grande pubblico è stato raggiunto dalla notizia che Angelina Jolie ha scelto la chirurgia preventiva per evitare il possibile insorgere della malattia. Ma certo, un test che informa di un rischio del 60% di sviluppare un tumore espone la paziente a un carico d’ansia notevole. Le tecnologie genomiche, come detto, estremizzano questi aspetti della diagnosi genomica, lasciando incertezze di ogni tipo. È un problema intrinseco agli strumenti di ricerca per diversi ordini di problemi. Da un lato, infatti, abbiamo il problema di riuscire a correlare il genotipo con il fenotipo, cioè far vedere che esiste una significativa coincidenza tra il possedere un certo tipo di geni e certe caratteristiche fisiopatologiche. È relativamente semplice evidenziare la correlazione tra un singolo gene e un tratto dell’organismo quando il gene funziona come fosse un interruttore: se il gene funziona, produci la proteina, altrimenti niente proteina.
Tuttavia, è raro che le cose siano così semplici, e sono molte le caratteristiche esibite dagli esseri umani a essere il risultato di combinazioni più o meno complesse di geni. Entrano qui in gioco i big data. La genomica, di fatto, ha prodotto negli ultimi anni un’enorme mole di dati, che stanno mostrando che il fenotipo è «tutta una molteplicità di causali convergenti… Uno gnommero», per usare le parole di Gadda.
Finalmente, l’osservazione di migliaia di geni in contemporanea ha mostrato come sia estremamente complicato definire un rapporto semplice tra geni e fenotipo. Per molte caratteristiche, non è possibile isolare un percorso causale lineare: piuttosto, sono tanti geni a contribuire, ogni gene con un effetto minimo. Due psicologi genetisti, per esempio, scrivono riguardo alla “capacità matematica” studiata negli alunni della scuola elementare:

Ogni singolo SNP [single nucleotide polymorphism, una mutazione di una sola base del DNA, N.d.A.] produce un effetto modesto: quello con l’effetto maggiore spiega solo lo 0,5 % delle differenze di rendimento registrate tra i 2.500 bambini del campione, mentre quello con l’effetto minore spiega lo 0,13 %

Di fatto, i big data sembrano aver reso tutto più difficile, complesso, e per alcuni versi ingovernabile. Inoltre, la capacità di produrre ed elaborare informazioni in quantità prima impensabili ha reso possibile intraprendere nuove strade di indagine. Queste nuove strade ci stanno però spingendo a ripensare ciò che è stato fatto quando la ricerca era “soltanto” genetica, e non genomica. Diverse pubblicazioni hanno per esempio sottolineato un’eccessiva fiducia nelle correlazioni tra geni e patologie negli ultimi due decenni, chiedendo una «revisione radicale della genetica umana». Questo a causa di nuovi approcci nella raccolta di genomi, e grazie alla possibilità di mappare e gestire le informazioni delle parti più significative del genoma: la mole di dati aumenta, e la capacità di analizzare i database e maneggiare i big data diventa fondamentale per estrarre informazioni significative da utilizzare nella pratica clinica. I nuovi database hanno mostrato, per esempio, che varianti genetiche ritenute all’origine di alcune patologie cardiache in realtà erano falsi positivi, e che contemporaneamente la nuova messe di informazioni ha evidenziato che alcune correlazioni gene-malattia non erano state considerate adeguatamente. Sempre di più, ricercatori e medici sono allarmati dai possibili problemi che la genomica diretta al consumatore può sollevare, tanto che vi sono stati negli ultimi anni diversi tentativi di stabilire linee guida per affrontare le richieste del pubblico e ottimizzare i servizi sanitari, sia pubblici che privati, con percorsi adeguati di consulenza e informazione. Tanto più che a oggi non vi sono molte evidenze che l’integrazione della genomica nella pratica clinica abbia condotto a risultati positivi: trial clinici a questo riguardo sono tuttora in corso, e puntano sulla necessità di una maggiore formazione per i medici, non in grado di orientarsi davanti all’oceano dei big data. Ancora più che in altri ambiti della medicina, la genomica e i suoi risultati sono stati dati in pasto al grande pubblico, creando pressione sulla pratica clinica quotidiana: come detto più in alto, la possibilità di avere sequenziate porzioni significative del DNA è aperta a tutti. Più campioni vengono inviati, più i database si allargano, in un circuito in cui marketing e accumulo di dati si autoalimentano. Tuttavia, questo non è del tutto scevro di implicazioni anche per la scienza dei big data: la selezione del campione può essere determinante per i risultati delle analisi, e certo il pubblico della consumer genomics non rappresenta la varietà umana: intuitivamente, è molto facile supporre che pochi campioni provengano dal Burkina Faso, e un po’ di più dalle zone ricche degli Stati Uniti. I risultati non sono facilmente generalizzabili, ma la pressione del mercato – scientifico e per i consumatori – non può essere ignorata. Proprio la ricerca di spazi di marketing ha fatto sì che la nuova genomica dei big data sia andata incontro a creazioni di oggetti dai limiti sfumati, per esempio alleandosi con le istanze identitarie da parte di vari gruppi etnici desiderosi di trovare riconoscimento sociale. Così, grazie a una genomica basata su big data, sono stati proposti trattamenti diretti a determinate categorie identificate su base genomica, anche senza identificare un singolo carattere peculiare del gruppo. Grazie ai grandi database è diventato possibile, invece, ipotizzare una composizione di tante tessere genetiche che caratterizza una “razza”, renderla un soggetto sociale e attribuire ad essa un valore economico: biocapitalismo all’opera.
Se il codice genetico si presta naturalmente alle analisi compiute con gli strumenti tipici del paradigma digitale, poiché esso si presenta come una sequenza discreta di simboli (le quattro basi azotate del DNA), il corpo nel suo complesso è una miniera di dati di tipologie diverse: dalla pressione sanguigna alle distanze che copriamo a piedi, i dati che descrivono lo stato di salute e lo stile di vita di un individuo sono moltissimi. Finora molti di questi dati sono stati raccolti in formato analogico, per lo più cartaceo e classificato in fascicoli che, dopo essere stati utilizzati a scopo clinico, sono archiviati negli ospedali e negli studi medici, con un notevole dispendio di risorse logistiche. Questo scenario, soprattutto nei Paesi più avanzati, è in rapido cambiamento. Anche il sistema sanitario, e non solo la ricerca clinica, oggi fa uso massiccio di strumenti digitali connessi in rete. In molti casi, come si vedrà, la raccolta dei dati sulla nostra salute avviene senza alcuna interazione con medici e strutture sanitarie. Anzi, spesso addirittura all’insaputa del soggetto stesso.
Tradizionalmente, la funzione clinica viene svolta da personale medico altamente specializzato, sulla base delle informazioni disponibili nella letteratura scientifica e di quelle accumulate dal medico nel corso della sua carriera, a stretto contatto con il paziente. Oggi, invece, il monitoraggio della salute dei cittadini coinvolge sempre più spesso attori estranei al settore sanitario, come aziende informatiche e delle telecomunicazioni. Questa transizione è motivata dall’economia di scala che consente di diminuire i costi di immagazzinamento delle informazioni al crescere della loro quantità. Inoltre, la raccolta di grandi quantità di dati consente di sviluppare analisi e servizi successivamente alla raccolta dei dati stessi, valorizzandoli ulteriormente sul piano economico.

Questo mutamento tecnologico ha portato nel settore dell’industria sanitaria le principali società dell’elettronica in grado di sviluppare dispositivi e sensori che raccolgono dati e dell’informatica, dotate dell’infrastruttura per analizzare le grandi quantità di informazioni raccolte. Praticamente, tutte le corporation del settore delle telecomunicazioni oggi ha aperto una divisione Health, in proprio o in collaborazione con università, enti di ricerca, società farmaceutiche.
Il caso più noto in Italia è quello della IBM, che sta creando a Milano il suo centro di ricerca dedicato alla salute. Nel centro, l’IBM utilizzerà la sua potenza di calcolo per analizzare dati sanitari provenienti da molteplici fonti. La tecnologia Watson dell’IBM è già utilizzata per estrarre dai dati grezzi della letteratura scientifica (una mole sterminata di milioni di pubblicazioni e di decine di migliaia di sperimentazioni cliniche) le informazioni aggregate più rilevanti. Questa operazione permette di ottimizzare il processo di sviluppo di nuovi farmaci, suggerendo sulla base di analisi statistiche le linee di ricerca più promettenti. Infatti, tra i principali utenti di Watson c’è la Pfizer, la più grande società farmaceutica al mondo. Oltre a setacciare i big data presenti nelle banche dati scientifiche, IBM intende analizzare i dati sanitari dei cittadini già a disposizione del sistema sanitario, una vera miniera di dati utilizzati in modo molto limitato per estrarne informazioni e potenziali applicazioni mediche. A questo scopo, il governo italiano ha messo a disposizione dell’IBM i dati dei cittadini, con conseguenze non trascurabili sul piano della privacy.
Altre società informatiche puntano sulla raccolta diretta dei dati degli utenti attraverso dispositivi mobili detti wearable (indossabili). La tendenza, in realtà, è iniziata già con la diffusione degli smartphone e della connettività a banda larga. I “telefoni” che portiamo in tasca, infatti, raccolgono già molti dati utili per la ricerca medica relativi agli spostamenti, al livello di attenzione, al ritmo sonno-veglia. Negli ultimi anni, agli smartphone si è aggiunta una gamma di dispositivi indossabili simili a orologi e in grado di raccogliere dati biometrici più dettagliati e di comunicarli ai centri di elaborazione dei dati. È quello che fanno i braccialetti FitBit, che rilevano i parametri vitali di 23 milioni di persone, contribuendo ad arricchire una banca dati assai preziosa. Non a caso, i National Institutes of Health statunitensi distribuiranno diecimila FitBit per monitorare le condizioni fisiche di altrettanti americani. Il programma fa parte del progetto All of Us, avviato dall’amministrazione Obama con il nome originario di Precision Medicine. Infatti, l’obiettivo della ricerca è capire i fattori che spiegano la variabilità tra individuo e individuo (e tra gruppi sociali diversi) delle condizioni sanitarie e della risposta alle terapie. Allo stesso progetto parteciperà anche Google, attraverso l’azienda controllata Verily. Dal canto suo, Verily ha avviato un altro progetto analogo, denominato baseline, con cui raccoglierà dati sanitari relativi ad altri diecimila americani, stavolta in collaborazione con le università di Duke e di Stanford. I dispositivi wearable stanno per il momento animando una comunità di appassionati che si definiscono Quantified self: si tratta di utenti di Internet che accumulano e condividono dati su sé stessi, relativamente alle proprie attività e alle proprie condizioni di salute.
Oltre a raccogliere dati, le società attive nel settore sanitario si stanno anche specializzando nella fornitura di servizi basati sui big data. Come già detto, negli ultimi anni diverse start-up hanno iniziato a fornire analisi genetiche via web (previo invio di un campione biologico, ovviamente) per poche centinaia di euro. Queste aziende, la più nota delle quali si chiama 23andMe ed è controllata da Google, incrocia le informazioni biologiche del paziente con le conoscenze più aggiornate disponibili nella letteratura scientifica. L’utente ne ricava la lista della propria predisposizione a malattie genetiche, mentre le aziende accumulano utilissimi dati genetici che possono essere messi in relazione con altre informazioni fornite (non sempre consapevolmente) dall’utente sul proprio stile e sulle condizioni di salute con un dettaglio irraggiungibile da parte di un centro di ricerca tradizionale – da qui l’interesse di società apparentemente estranee al settore biomedico come Google.
I servizi medici erogati via web recentemente si sono estesi persino al settore del trattamento delle malattie mentali, con la comparsa di software detti chatbot basati sull’intelligenza artificiale in grado di rilevare lo stato d’animo patologico dell’utente e interagirci. Il chatbot più celebre si chiama Woebot. Anche in questo caso, la prestazione sanitaria è veicolata da app per smartphone.
Questo tipo di servizi forniti direttamente all’utente senza la mediazione di un medico presentano opportunità e rischi. Da un lato, permettono agli utenti di accedere a servizi sanitari che nelle strutture ospedaliere non vengono erogati o hanno costi eccessivi. Ma per i pazienti non vi sono solo vantaggi. Pochi malati sono in grado di interpretare le informazioni sanitarie. La genetica, ad esempio, richiede soprattutto valutazioni di tipo probabilistico. Le difficoltà di una persona con un disagio psichico di gestire in autonomia le strategie mediche da attuare sono ancor più evidenti.
Inoltre, le pratiche mediche basate su un rapporto individuale con il paziente rappresentano un veicolo di marketing formidabile per le società farmaceutiche. Per la sua particolare natura, il prodotto farmaceutico in molti paesi è sottoposto a notevoli restrizioni al commercio, a partire dal divieto di farne pubblicità e dall’obbligo di un consulto medico propedeutico all’acquisto. Ciò limita notevolmente il giro di affari delle società farmaceutiche nei paesi più avanzati. Aggirando il filtro dei medici di base, le società farmaceutiche contano di recuperare margini di profitto, a spese dei pazienti.
Uno dei fattori che alimenta maggiormente il fenomeno della raccolta dei dati sanitari a distanza è l’invecchiamento della popolazione nei paesi più industrializzati. La maggiore diffusione delle patologie croniche correlata a una maggiore incidenza demografica delle fasce più anziane ha accresciuto la necessità del monitoraggio dell’aderenza di malati a terapie di lungo periodo, con costi crescenti per il servizio sanitario. La possibilità di monitorare le condizioni dei malati da remoto, grazie a sensori connessi in rete, è percepito da molti osservatori come una possibile soluzione del problema di garantire un servizio dignitoso a una percentuale sempre maggiore di cittadini che grava su un numero di contribuenti calante.
L’ultima frontiera dei big data raccolti in ambito sanitario con un notevole potenziale commerciale è rappresentata dalle cosiddette neurotecnologie. Si tratta di un settore dell’industria hi-tech specializzato nello sviluppo di interfacce cervello-computer. Nato nell’ambito delle tecnologie riabilitative, oggi questo settore si rivolge anche a individui sani che, grazie ai dispositivi in grado di decodificare l’attività neuronale, possono sfruttarli per “aumentare” la percezione della realtà integrando dati provenienti da fonti esterne. Grazie a questi dispositivi, l’utente può consultare banche dati via web su un certo argomento semplicemente puntando lo sguardo su un oggetto, o comandare altri dispositivi grazie a sistemi che analizzano le onde cerebrali.
Lo sfruttamento di dati così dettagliati sull’attività neuronale costituisce una potenziale minaccia all’autonomia individuale e una miniera d’oro per lo sfruttamento commerciale della cosiddetta “economia dell’attenzione”. Infatti, il crescente numero di fonti di informazione a cui siamo esposti fa aumentare la rilevanza non solo economica che i messaggi vengano indirizzati a utenti selezionati nelle modalità e nei tempi che ne ottimizzano l’impatto. Conoscere, ad esempio, le fluttuazioni del livello di attenzione durante la fruizione di un video consente di individuare il momento più adatto per la collocazione di un’immagine pubblicitaria.
Il rischio di abusi nel settore delle neurotecnologie ha condotto i principali ricercatori del campo, attivi in centri di ricerca pubblici e in aziende private, a formulare un appello perché la stessa Dichiarazione universale dei diritti dell’uomo sia modificata per tenerne conto.
Qualunque sia l’impatto dei big data sul sistema sanitario, se cioè sarà un’opportunità per i pazienti o per le imprese del settore, l’integrazione tra informatica e medicina non si limiterà a modificare le condizioni di erogazione del servizio. A lungo andare, la disponibilità di dati modificherà la ricerca stessa delle nuove terapie, modificando le competenze richieste ai ricercatori e ai medici, che sempre più si avvicineranno a data scientist. È verosimile, infine, che questa mutazione professionale produca una svolta epistemologica nello stesso sapere medico. I concetti di salute, malattia e di cura verrebbero ridefiniti alla luce del nuovo paradigma tecnologico, con conseguenze profonde alle quali individui e istituzioni dovranno adattarsi rapidamente.