La PNL impulsa la extracción de conceptos clínicos, preguntas y respuestas médicas y más en UF Health

El procesamiento del lenguaje natural es una rama de la inteligencia artificial que tiene como objetivo permitir que las computadoras procesen, comprendan, interpreten y manipulen el lenguaje humano. Después de décadas de exploración, las soluciones actuales de PNL de última generación se basan en modelos de aprendizaje profundo implementados utilizando varios tipos de redes neuronales.

EL PROBLEMA

«Entre los modelos de aprendizaje profundo, los modelos basados ​​en transformadores implementados mediante un mecanismo de auto-atención, como BERT y GPT, son el estado actual de «soluciones de última generación», explicó Yonghui Wu, director de PNL en el Instituto de Ciencias Clínicas y Traslacionales de la Universidad de Florida Health, con sede en Gainesville, y profesor asistente en el departamento de resultados de salud e informática biomédica de la Universidad de Florida.

«Los modelos de PNL basados ​​en transformadores dividen el procedimiento de entrenamiento en dos etapas, que incluyen el entrenamiento previo y el ajuste fino», continuó. «En el preentrenamiento, los modelos de transformadores adoptaron estrategias de aprendizaje no supervisadas para entrenar modelos de lenguaje de grandes corpus no etiquetados (por ejemplo, Wikipedia, artículos de Pubmed y notas clínicas)».

En ajuste fino, transformador Los modelos ajustan los modelos previamente entrenados para tareas posteriores específicas utilizando el aprendizaje supervisado.

«El paso clave es el entrenamiento previo, donde los modelos basados ​​en transformadores aprenden conocimientos lingüísticos independientes de la tarea a partir de datos de texto masivos, que se puede aplicar para resolver muchas tareas posteriores de PNL «, dijo Wu. «Sin embargo, para que los modelos basados ​​en transformadores sean efectivos, generalmente son muy grandes con miles de millones de parámetros, que no pueden caber en una sola memoria de GPU, se pueden entrenar con un solo nodo de computadora y se aplican estrategias de entrenamiento tradicionales.

«El entrenamiento de estos grandes modelos requiere una potencia de cálculo masiva, una gestión eficiente de la memoria y técnicas avanzadas de entrenamiento distribuido como datos y / o paralelismos de modelos para reducir el tiempo de entrenamiento», agregó. «Por lo tanto, a pesar de que existen grandes transformadores modelos en el dominio del inglés general, no hay modelos de transformadores comparables en el dominio médico «.

Por ejemplo, si una organización entrenó un modelo BERT con 345 millones de parámetros en una sola GPU, tardaría meses en completarse.

«Los modelos como GPT-2 con miles de millones de parámetros ni siquiera pueden caber en una sola memoria GPU para el entrenamiento», dijo Wu. mucho tiempo, no podemos aprovechar los grandes modelos de transformadores a pesar de que tenemos c masiva datos de texto linico en UF Health. «

PROPUESTA

Para software, PNL El proveedor Nvidia desarrolló el paquete Megatron-LM , que adoptó un enfoque paralelo de modelo intracapa eficiente que puede reducir significativamente el tiempo de comunicación de entrenamiento distribuido mientras mantiene el Las GPU computan limitadas, dijo Jiang Bian, director asociado del programa de informática biomédica en el Instituto de Ciencias Clínicas y Traslacionales de UF Health y profesor asociado en el departamento de resultados de salud e informática biomédica de la Universidad de Florida.

«Esta técnica de modelo paralelo es ortogonal al paralelismo de datos, lo que podría permitirnos aprovechar el entrenamiento distribuido tanto del modelo paralelo como del paralelo de datos», explicó Bian. Además, Nvidia también desarrolló y proporcionó un conjunto de herramientas de inteligencia artificial conversacional, NeMo , para usar estos modelos de lenguaje grandes para tareas posteriores. Estos paquetes de software en gran medida simplificó los pasos en la construcción y el uso de grandes modelos basados ​​en transformadores como nuestro GatorTron.

«Para el hardware, Nvidia proporcionó el clúster HiPerGator AI NVIDIA DGX A100 SuperPod, implementado recientemente en la Universidad de Florida, con 140 nodos Nvidia DGX A100 con 1120 GPU Nvidia Ampere A100 «, continuó.» El software resolvió el cuello de botella en los algoritmos de entrenamiento distribuidos y el hardware resolvió el cuello de botella en la potencia informática «.

RESPONDIENDO AL DESAFÍO

El equipo de UF Health desarrolló GatorTron, el modelo de PNL basado en transformadores más grande del mundo, con alrededor de 9 mil millones de parámetros – en el dominio médico y lo entrenó utilizando más de 197 millones de notas con más de tres mil millones de oraciones y más de 82 mil millones de palabras de texto clínico de UF H

«GatorTron adoptó la arquitectura de Megatron-LM, el software proporcionado por Nvidia», dijo Wu. «Entrenamos a GatorTron usando el clúster HiPerGator AI NVIDIA DGX A100 SuperPod, implementado recientemente en la Universidad de Florida, que incluye 140 nodos Nvidia DGX A100 con 1120 GPU Nvidia Ampere A100. Con el clúster HiPerGator AI, el recurso informático ya no es un cuello de botella.

«Entrenamos a GatorTron usando 70 nodos HiPerGator con 560 GPU, con estrategia de entrenamiento paralelo de modelos y datos», agregó. «Sin Megatron-LM de Nvidia, no podríamos entrenar tales un gran modelo de transformador en el dominio clínico. También aprovechamos el kit de herramientas NeMo de Nvidia, que proporciona la flexibilidad para ajustar GatorTron para varias tareas posteriores de NLP utilizando interfaces de programación de aplicaciones fáciles de usar «.

GatorTron actualmente está siendo evaluado para tareas posteriores como el reconocimiento de entidades nombradas, extracción de relaciones, similitud semántica de texto y preguntas y respuestas con datos de registros médicos electrónicos en un entorno de investigación. El equipo está trabajando para aplicar GatorTron a aplicaciones de atención médica del mundo real, como la identificación de cohortes de pacientes, desidentificación de texto y extracción de información.

RESULTADOS

UF Health evaluó la Modelo de GatorTron en cuatro tareas importantes de PNL, incluida la extracción de conceptos clínicos, la extracción de relaciones clínicas, la inferencia médica del lenguaje natural y las preguntas y respuestas médicas.

«Para la extracción de conceptos clínicos, el modelo GatorTron logró el estado- actuaciones de vanguardia en los tres puntos de referencia, incluidos los disponibles para el público 2 010 i2b2, 2012 i2b2 y 2018 n2c2 conjuntos de datos «, señaló Bian. «Para la extracción de relaciones, GatorTron superó significativamente a otros modelos BERT previamente entrenados en el dominio clínico o biomédico, como ClinicalBERT, BioBERT y BioMegatron.

» Para inferencia de lenguaje natural médico y preguntas y respuestas, GatorTron logró nuevos rendimientos de vanguardia en ambos conjuntos de datos de referencia: medNLI y emrQA «, agregó.

CONSEJOS PARA OTROS

Existe un interés creciente en la aplicación de modelos de PNL para ayudar a extraer información del paciente a partir de narrativas clínicas, donde los modelos de lenguaje preentrenados de última generación son componentes clave.

«Un modelo de lenguaje grande bien entrenado podría mejorar muchas tareas posteriores de la PNL mediante el ajuste fino, como chatbots médicos, resúmenes automatizados, preguntas y respuestas médicas y sistemas de apoyo a la toma de decisiones clínicas», aconsejó Wu. Al desarrollar grandes modelos de PNL basados ​​en transformadores, se recomienda explorar varios tamaños de modelo (número de parámetros) en función de su c local.

«Al aplicar estos grandes modelos de PNL basados ​​en transformadores, los proveedores de atención médica deben pensar en las configuraciones del mundo real», concluyó. «Por ejemplo, estos grandes modelos de PNL basados ​​en transformadores son soluciones muy poderosas para servidores de alto rendimiento, pero no son factibles de implementar en computadoras personales».

Twitter: @ SiwickiHealthIT
Envíe un correo electrónico al escritor: bsiwicki@himss.org
Healthcare IT News es una publicación de HIMSS Media.

Lee mas

Deja un comentario

Tu dirección de correo electrónico no será publicada.