Il Natural Language Processing (NLP) è una branca dell’intelligenza artificiale e della linguistica computazionale che ha come obiettivo primario l’estrazione di informazioni significative da porzioni di testo. Le tecniche di NLP utilizzano il machine learning per riconoscere ed isolare pattern e regolarità fra le parole che compongono una frase o un testo, apprendendo implicitamente regole grammaticali e relazioni semantiche che sono poi usate per “comprendere” il linguaggio utilizzato. In maggior dettaglio, questo tipo di AI fornisce soluzioni per analizzare la struttura sintattica del testo, associando alle singole parole le rispettive categorie morfologiche (ad es. nome, verbo, aggettivo), identificando entità e classificandole in categorie predefinite (ad es. persona, data, luogo), estraendo dipendenze sintattiche (ad es. soggetti e complementi) e relazioni semantiche.

Tipica pipeline di Natural Language Processing
Con la nascita di Internet, l’aumento di disponibilità computazionale e la progressiva digitalizzazione dell’informazione, il Natural Language Processing ha trovato applicazione in quasi ogni settore professionale e raggiunto livelli qualitativi paragonabili a quelli umani in alcuni di essi. Grazie ai recenti sviluppi di questa disciplina, ad esempio, oggi possiamo conversare con gli assistenti virtuali e ricevere risposte pertinenti anche di fronte a richieste molto complesse. Ma non solo: questo stesso testo potrebbe essere stato generato da un avanzato modello generativo!
In ambito medico, la digitalizzazione dei servizi sanitari e dei processi clinico-assistenziali ha portato le strutture a produrre e conservare un numero sempre crescente di dati medici, molti dei quali di natura testuale (definiti come dati non strutturati): referti, note infermieristiche, schede di dimissione, verbali di pronto soccorso e documenti amministrativi sono solo alcuni dei tipi di documenti digitali che vengono generati ogni giorno in un ospedale. Nella nuova sanità dei big data queste informazioni costituiscono un patrimonio enorme, che grazie all’intelligenza artificiale e al NLP può essere utilizzato per migliorare la cura e la gestione dei pazienti, per ridurre i costi e velocizzare le procedure.

Esempio di estrazione di informazione da testo libero
Un utilizzo tipico di queste tecniche di AI in ambito biomedicale riguarda l’estrazione automatica di concetti e relazioni, in modo da mappare il testo libero in un set di informazioni cliniche strutturate tramite ontologie. L’informazione estratta può essere utilizzata poi per classificare pazienti, creare coorti, popolare automaticamente registri.
In conclusione, il Natural Language Processing in medicina apre le porte all’analisi di una sorgente di informazione fino ad ora sottoutilizzata, ma importante sia per numero che per qualità: il testo libero. Rendere possibile l’estrazione di informazione dai documenti clinici non strutturati permette di risparmiare denaro, tempo e allo stesso modo permette di integrare i dati strutturati con nuova informazione per garantire ai pazienti cure migliori.
Approfondimenti su presente (e futuro) del NLP per information extraction in medicina:
- Primer sul Neural NLP: Goldberg, 2015 – A Primer on Neural Network Models for Natural Language Processing [https://arxiv.org/pdf/1510.00726.pdf]
- Esempio di Modello di Neural NLP Biomedico: Lee et al., 2019 – BioBERT: a pre-trained biomedical language representation model for biomedical text mining [https://arxiv.org/ftp/arxiv/papers/1901/1901.08746.pdf]
- Medical Information Extraction: Hahn & Oleynik, 2020 – Medical Information Extraction in the Age of Deep Learning [https://www.ncbi.nlm.nih.gov/pmc/articles/PMC7442512/]
- Applicazioni Information Extraction Medicina: Wang et al., 2018 – Clinical Information Extraction Applications: a Literature Review [https://www.sciencedirect.com/science/article/pii/S1532046417302563]
AUTORE: Tommaso Buonocore