Articoli

Il Natural Language Processing (NLP) è una branca dell’intelligenza artificiale e della linguistica computazionale che ha come obiettivo primario l’estrazione di informazioni significative da porzioni di testo. Le tecniche di NLP utilizzano il machine learning per riconoscere ed isolare pattern e regolarità fra le parole che compongono una frase o un testo, apprendendo implicitamente regole grammaticali e relazioni semantiche che sono poi usate per “comprendere” il linguaggio utilizzato. In maggior dettaglio, questo tipo di AI fornisce soluzioni per analizzare la struttura sintattica del testo, associando alle singole parole le rispettive categorie morfologiche (ad es. nome, verbo, aggettivo), identificando entità e classificandole in categorie predefinite (ad es. persona, data, luogo), estraendo dipendenze sintattiche (ad es. soggetti e complementi) e relazioni semantiche.

Tipica pipeline di Natural Language Processing

Con la nascita di Internet, l’aumento di disponibilità computazionale e la progressiva digitalizzazione dell’informazione, il Natural Language Processing ha trovato applicazione in quasi ogni settore professionale e raggiunto livelli qualitativi paragonabili a quelli umani in alcuni di essi. Grazie ai recenti sviluppi di questa disciplina, ad esempio, oggi possiamo conversare con gli assistenti virtuali e ricevere risposte pertinenti anche di fronte a richieste molto complesse. Ma non solo: questo stesso testo potrebbe essere stato generato da un avanzato modello generativo!

In ambito medico, la digitalizzazione dei servizi sanitari e dei processi clinico-assistenziali ha portato le strutture a produrre e conservare un numero sempre crescente di dati medici, molti dei quali di natura testuale (definiti come dati non strutturati): referti, note infermieristiche, schede di dimissione, verbali di pronto soccorso e documenti amministrativi sono solo alcuni dei tipi di documenti digitali che vengono generati ogni giorno in un ospedale. Nella nuova sanità dei big data queste informazioni costituiscono un patrimonio enorme, che grazie all’intelligenza artificiale e al NLP può essere utilizzato per migliorare la cura e la gestione dei pazienti, per ridurre i costi e velocizzare le procedure.

Esempio di estrazione di informazione da testo libero

Un utilizzo tipico di queste tecniche di AI in ambito biomedicale riguarda l’estrazione automatica di concetti e relazioni, in modo da mappare il testo libero in un set di informazioni cliniche strutturate tramite ontologie. L’informazione estratta può essere utilizzata poi per classificare pazienti, creare coorti, popolare automaticamente registri.

In conclusione, il Natural Language Processing in medicina apre le porte all’analisi di una sorgente di informazione fino ad ora sottoutilizzata, ma importante sia per numero che per qualità: il testo libero. Rendere possibile l’estrazione di informazione dai documenti clinici non strutturati permette di risparmiare denaro, tempo e allo stesso modo permette di integrare i dati strutturati con nuova informazione per garantire ai pazienti cure migliori.

Approfondimenti su presente (e futuro) del NLP per information extraction in medicina:

 

AUTORE: Tommaso Buonocore

i2b2-onco-pg23

 

Stato del progetto: Corrente

Centro coordinatore: ASST Papa Giovanni XXIII, Bergamo, IT

Ambito: Oncologia

Data inizio: 1 settembre 2016

Piattaforma: i2b2

 

Dal 2017 è attivo il progetto “verticale” specifico per il dipartimento di Oncologia all’interno del sistema i2b2 dell’ASST Papa Giovanni XXIII. Il progetto contiene i dati integrati nel progetto orizzontale aziendale ma limitati ai pazienti con diagnosi oncologica, in particolare:

  • la cartella clinica oncologia
  • il flusso SDO dei pazienti dimessi
  • le terapie farmacologiche somministrate e consegnate
  • i dati di accettazione alle prestazioni ambulatoriali
  • gli esiti dei dati di laboratorio chimica clinica e di microbiologia
  • i referti di anatomia patologica.

In aggiunta il progetto include le informazioni estratte dai referti di anatomia patologia relativi a pazienti con tumore al seno tramite un algoritmo di Text-Mining. L’algoritmo utilizza tecniche di NLP (Natural Language Processing) che sfrutta un’ontologia riferita al cancro della mammella. L’ontologia è stata definita in base ad un’ontologia di riferimento (PATHLEX) e alle informazioni specifiche da estrarre. In fase di validazione l’algoritmo ha superato il 90% di precisione. La procedura è stato quindi applicato a tutti i referti di tumore al seno (circa 20 mila referti).
Il progetto integra inoltre studi clinici specifici eseguiti con dati di pazienti afferenti all’istituto, in particolare lo strumento risulta molto efficiente per raccogliere dati per studi di RWE (Real-World Evidence).

Riferimenti:

  • Viani N, Chiudinelli L, Tasca C, Zambelli A, Bucalo M, Ghirardi A, Barbarini N, Sfreddo E, Sacchi L, Tondini C, Bellazzi R. Automatic Processing of Anatomic Pathology Reports in the Italian Language to Enhance the Reuse of Clinical Data. Stud Health Technol Inform. 2018;247:715-719. PMID: 29678054Viani N, Chiudinelli L, Tasca C, Zambelli A, Bucalo M, Ghirardi A, Barbarini N, Sfreddo E, Sacchi L, Tondini C, Bellazzi R. Automatic Processing of Anatomic Pathology Reports in the Italian Language to Enhance the Reuse of Clinical Data. Stud Health Technol Inform. 2018;247:715-719. PMID: 29678054 (link, pdf).
  • Zambelli A, Ghirardi A, Masciulli A, Sfreddo E, Porcino R, Bucalo M, Barbarini N, Chiudinelli L, Chirco A, Labianca A, Barbui T, Tondini C. Ten-years electronic phenotyping archive and automated reconstruction of her2+ breast cancer patients careflow, through the exportable, open-source i2b2 data ware-housing platform. XX Congresso Nazionale AIOM 2018. (pdf)
  • Chiudinelli L, Viani N, Zambelli A, Gabetta M, Bucalo M, Ghirardi A, Sfreddo E, Sacchi L, Tondini C, Bellazzi R. i2b2 Ontology Curation leveraging clinical notes. NETTAB 2018. (pdf)
Stato del progetto: Concluso

Centro coordinatore: IRCCS ICS Maugeri, Pavia (IT)

Ambito: Oncologia

Finanziamento: Regione Lombardia

Data inizio: 01 Gennaio 2010

Piattaforma: i2b2

 

ONCO-i2b2 è un progetto di ricerca dell’Università di Pavia e dell’IRCCS ICS Maugeri di Pavia per supportare la ricerca clinica in oncologia. ONCO-i2b2, finanziato da Regione Lombardia, adotta il software i2b2. Utilizzando i2b2 e nuovi moduli software progettati appositamente durante il progetto, sono stati integrati dati provenienti da più fonti per permettere di interrogarli in modo incrociato. Il nucleo del processo di integrazione sta nel recupero e fusione di dati dal software di gestione della biobanca e dal sistema informativo ospedaliero di ICS. Il processo di integrazione si basa su una ontologia del dominio oncologico e su moduli di integrazione software open-source. È stato implementato anche un modulo di Text-Mining/NLP (Natural Language Processing). Questo modulo estrae automaticamente le informazioni cliniche dei pazienti oncologici dai referti non strutturati provenienti da Anatomia Patologia. Il sistema gestisce più di duemila pazienti.

Riferimenti:

Segagni D, Tibollo V, Dagliati A, Zambelli A, Priori SG, Bellazzi R (2012) An ICT infrastructure to integrate clinical and molecular data in oncology research. BMC Bioinformatics 13(Suppl 4): S5. (link, pdf)

Segagni D, Tibollo V, Dagliati A, Malovini A, Zambelli A, Napolitano C, Priori SG, Bellazzi R. Clinical and research data integration: the i2b2-FSM experience. AMIA Jt Summits Transl Sci Proc. 2013 Mar 18;2013:239-40. eCollection 2013. (link)

Segagni D, Tibollo V, Dagliati A, Perinati L, Zambelli A, Priori S, Bellazzi R. The ONCO-I2b2 project: integrating biobank information and clinical data to support translational research in oncology. Stud Health Technol Inform. 2011;169:887-91. (link, pdf)

Segagni D, Gabetta M, Tibollo V, Zambelli A, Priori SG, Bellazzi R. ONCO-i2b2: Improve patients selection through case-based information retrieval techniques. 8th International Conference on Data Integration in the Life Sciences, DILS 2012 (link)