I Principi FAIR, acronimo di “Findable, Accessible, Interoperable, and Reusable” (Rintracciabile, Accessibile, Interoperabile e Riutilizzabile), rappresentano un quadro guida fondamentale per la gestione dei dati scientifici nell’era digitale. Questi principi sono emersi nel 2016 come risultato di uno sforzo collaborativo tra esperti provenienti da diverse discipline scientifiche e sono diventati un pilastro per migliorare l’efficacia e la fruibilità dei dati di ricerca.

 

FINDABILITY – Il primo passo è trovare i dati. Questo principio si concentra sulla capacità di individuare facilmente i dati attraverso metadati e identificatori unici, sia per gli esseri umani che per i computer. I metadati machine-readable sono essenziali per scoprire automaticamente dataset e servizi e costituiscono una componente essenziale del processo di FAIRification.

ACCESSIBILITY – Una volta identificati i dati necessari a un particolare scopo, è fondamentale sapere come possono essere effettivamente accessibili, compresi eventuali requisiti di autenticazione e autorizzazione. Questo aspetto sottolinea la disponibilità effettiva dei dati per chiunque ne abbia bisogno, garantendo modalità di accesso chiare e documentate.

INTEROPERABILITY – Spesso, i dati devono essere integrati con altri dati e devono poter interagire con applicazioni o flussi di lavoro per analisi, conservazione e elaborazione. L’interoperabilità richiede che i dati siano strutturati in modo coerente, seguendo standard condivisi, e che le relazioni tra i dati siano chiaramente definite, agevolando l’integrazione e l’analisi.

REUSABILITY – L’obiettivo finale dei principi FAIR è ottimizzare il riutilizzo dei dati. Per raggiungere questo obiettivo, sia i metadati che i dati stessi dovrebbero essere ben descritti, consentendo la replicazione e/o la combinazione in diversi contesti.

 

L’adeguamento di una sorgente di dati ai principi FAIR prende il nome di FAIRificazione. Questo processo è codificato in 3 passi fondamentali:

  1. Si definisce un modello semantico per il dataset in un formato che sia machine-readable (sfruttando, ove possibile, modelli già esistenti oer la gestione di use case di interesse).
  2. Si rendono linkabili sia i dati che i metadati per incrementarne l’interoperabilità, sfruttando il modello semantico costruito.
  3. Si creano interfacce human- e machine- readable per pubblicare le risorse FAIR.

 

Il processo così descritto è illustrato in fig.1

Fig.1: workflow del processo di FAIRificazione

 

Una valutazione oggettiva e ripetibile della FAIRness, utile sia per un assessment iniziale che per una stima del risultato della FAIRificazione, è ottenibile attribuendo alla sorgente esaminata un punteggio basato sulla conformità a requisiti univocamente codificati, i cosiddetti indicatori di maturità. Tali criteri sono redatti da un apposito working group della community della Research Data Alliance (RDA), un’iniziativa internazionale nata nel 2013 dalla collaborazione tra la Commissione Europea, enti governativi statunitensi come la National Science Foundation e il National Institute of Standards and Technology, e il Department of Innovation australiano, con l’obiettivo di promuovere la condivisione della conoscenza e la ricerca data-driven.

Una schematizzazione esemplificativa degli indicatori di maturità è visibile in fig.2.

Fig.2: indicatori di maturità FAIR

 

Tecnologie come OMOP/OHDSI contribuiscono alla “FAIRness” dei dati che contengono. Ad esempio:

FINDABILITY (F4) – Data and metadata can be found using web-based search engines.
Tra gli strumenti messi a disposizione da OHDSI ci sono Athena, un motore di ricerca online che permette agli utenti di interrogare il CDM navigandone i vocabolari standard, Usagi, un’applicazione che permette di generare un primo mappaggio automatizzato delle sorgenti, e Atlas, uno strumento software che facilita l’esecuzione di analisi su sorgenti dati armonizzate verso OMOP consentendo la definizione di concept set significativi e la creazione di coorti di interesse.

ACCESSIBILITY (A1) – Data and metadata are retrievable by their identifier using a standardized resolution protocol.
OHDSI WebAPI è uno strumento robusto e standardizzato per interagire con il CDM e navigare il database, principalmente, ma non esclusivamente, a scopo analitico, anche sfruttando opportuni pachetti R messi a disposizione per lo scopo.

INTEROPERABILITY (I2A) – Data and metadata use vocabularies/ontologies that are FAIR.
OMOP riunisce e connette decine di sistemi terminologici internazionali validati, standardizzati e ampiamente diffusi per rappresentare i dati.

REUSABILITY (R1) – Data and metadata are richly described with a plurality of accurate and relevant attributes.

 

L’impianto terminologico dell’OMOP CDM, una vera e propria “super-ontologia” che come già detto si basa su vocabolari standardizzati, costituisce un livello di metadati molto dettagliato (fig.3) e al contempo ottimizzato per essere interrogato grazie a strumenti come Atlas e Athena.

Fig.3: il concetto “Superficial biopsy of muscle” come appare in Athena