Sanivert | Sistema End2End basado en Transformers para el reconocimiento del habla en español, catalán y portugués en sanidad.

CONVOCATORIA DE AYUDAS 2021 DESTINADAS A PROYECTOS DE INVESTIGACIÓN Y DESARROLLO EN INTELIGENCIA ARTIFICIAL Y OTRAS TECNOLOGÍAS DIGITALES Y SU INTEGRACIÓN EN LAS CADENAS DE VALOR C005/21-ED

Situación anterior al proyecto

Actualmente, la mayoría de las soluciones de la plataforma de VÓCALI relacionadas con el PLN se fundamentan en soluciones de ASR. Es importante añadir que en el lenguaje hablado existe gran cantidad de información contextual que se da por sobreentendida. Por consiguiente, los modelos de ASR se pueden realizar sobre dominios específicos, dando coherencia en el que tiene lugar la conversación.

Los modelos de ASR empleados por VÓCALI se basaban en modelos formados por tres componentes: (1) el modelo acústico, encargado de la clasificación de los sonidos de los fonemas, (2) el modelo fonológico, y el (3) modelo lingüístico.

Modelo anterior — **Figura 2.** Modelo previo al proyecto

Una de las mayores limitaciones de estas soluciones es que la empresa se centra mayormente en tareas de reconocimiento de voz, pero los procesos de integración con otros sistemas clínicos son más limitados. Sin embargo, en los últimos años la empresa ha comenzado con el desarrollo de soluciones relacionadas al uso inteligente de los datos para poder aportar soluciones con un importante valor añadiendo, tanto para el campo de la e-Salud como para otros dominios.

Una de las mayores complejidades a la hora de entrenar y adaptar estas soluciones a nuevas situaciones es que el proceso de reconocimiento automático del habla es complicado y requiere de varios pasos. El proceso de construir un sistema ASR es un proceso complejo y que además se pueden reutilizar pocos recursos al cambiar de idioma, puesto que los modelos acústicos, fonéticos y lingüísticos son muy dependientes de cada situación.

Evolución planteada con el proyecto

La implantación de las soluciones de VÓCALI para nuevas vías de mercado, tales como puede ser adaptar sus soluciones a otros idiomas o a otras especialidades clínicas, supone para la empresa un gran esfuerzo que se podría reducir con la adaptación y conversión de sus sistemas de ASR a sistemas de extremo a extremo, donde los subcomponentes del sistema se entrenen y ajusten a la vez que se entrena el modelo. Esto facilitaría enormemente a la empresa el poder centrar sus esfuerzos en un futuro en el desarrollo de soluciones más enfocadas a entender la información obtenida, permitiendo crear soluciones con otras técnicas tales como el resumen automático o la generación de documentos e informes.

Además, con los últimos avances en tecnología hardware y el uso de tecnologías en la nube y tarjetas gráficas dedicadas al uso del Deep Learning, VÓCALI está planteando mover el entrenamiento de estos modelos a servidores dedicados para luego poder desplegarlos a pequeña escala.

Mediante este proyecto, la empresa podrá tanto adaptar proyectos y soluciones actuales como poder ampliar y expandir su área de influencia de manera más eficiente, centrándose en nuevos desarrollos más que en adaptar y generar recursos para nuevos modelos de ASR.

Objetivos generales del proyecto

El objetivo general del presente proyecto es el de actualizar el sistema tradicional de ASR de VÓCALI en un sistema de extremo a extremo (E2E) que pueda ser reentrenado y ajustado para soluciones de diferente especialidad clínica y diferentes idiomas.

En este proyecto se plantean tres escenarios, que son el español, el catalán y portugués. La selección del español es porque es el idioma en el que basan la mayoría de las soluciones de VÓCALI y, por tanto, es el mejor idioma para validar, y la selección de los lenguajes del catalán y el portugués es una decisión comercial estratégica, a fin de acercarnos hacia Cataluña, Portugal y Galicia.

Más concretamente, el presente proyecto trata de implantar y comercializar de nuevas tecnologías desarrolladas por VÓCALI en proyectos de investigación anteriores. Dos ejemplos de estos proyectos son: (1) Transcripción, indexación y análisis automático de declaraciones judiciales a partir de representaciones fonéticas y técnicas de lingüística forense (Vivancos-Vicente et al., 2020), que trata sobre la transcripción de documentos multimedia acerca de vistas y procedimientos judiciales y que emplea tecnologías de lingüística forense para la identificación de marcadores que tienen que ver con la veracidad del discurso; y (2) el proyecto ISMR, que trata sobre la diarización de entrevistas médico-paciente a través de tecnologías ASR basadas en algoritmos de Deep Learning, y donde se emplean técnicas de reconocimiento de entidades (Vivancos-Vicente et al., 2021).

Objetivos del proyecto

En este proyecto se ha realizado la adaptación y mejora continua de los modelos ASR (Automatic Speech Recognition), utilizados en INVOX Medical, para incorporar tecnologías de Deep Learning basadas en extremo a extremo (E2E), de manera que los sistemas y modelos generados no dependan del desarrollo aislado de modelos acústicos, fonológicos y lingüísticos como ocurre con los sistemas actuales. Esto facilita enormemente la adaptación de las soluciones actuales a nuevos idiomas y a nuevas especialidades clínicas. Además, se han añadido sistemas de recuperación de la puntuación y de la capitalización, así como sistemas de extracción de conocimiento clínico a partir de tecnologías semánticas que será la base de VÓCALI para el desarrollo de nuevos productos.

Los objetivos del proyecto son los siguientes:

OB1. Generación de recursos lingüísticos por especialidad e idioma.
OB2. Generación de modelos E2E para ASR basados en Transformers.
OB3. Desarrollo de un sistema de recuperación de puntuación.
OB4. Desarrollo de un sistema de extracción de conocimiento clínico.
OB5. Integración de los módulos anteriores.

Las actuaciones para llevar a cabo son las siguientes:

Desarrollo y adquisición de recursos lingüísticos para el entrenamiento de sistemas E2E. Estos datos serán recogidos en distintos idiomas y especialidades, destacando el español, que es el idioma donde están las soluciones actuales, el catalán y el portugués.
Entrenamiento y validación de modelos de extremo a extremo basados en Transformers.
Desarrollo de sistemas de recuperación de la puntuación y la capitalización de textos basado en Transformers.
Desarrollo de interfaces para la extracción de entidades, y sus relaciones para el conocimiento clínico y su transformación en grafos de conocimiento.
Integrar los avances tecnológicos en soluciones tradicionales de VÓCALI y medir el grado de mejora, tanto en recursos necesarios como en eficiencia de estos.

Arquitectura

Modelo E2E — **Figura 1.** Modelo desarrollado gracias al proyecto

Demo

Para acceder a la demo de los resultados del proyecto, por favor use el siguiente formulario.