Inteligencia artificial aplicada a la oftalmología:
ResNet-50 y VGG-19 en el diagnóstico de catarata y glaucoma
Artificial intelligence applied to ophthalmology:
ResNet-50 and VGG-19 in cataract and glaucoma diagnosis
Facultad de Ingeniería Civil, Universidad Técnica de Machala, Machala, Ecuador.
* Autor para correspondencia
Comó citar el artículo:
Sánchez Dávila, L., Rogel Rivera, R., Honores Tapia, J. & Rivas Asanza, W. (2024). Inteligencia artificial aplicada a la oftalmología: ResNet-50 y VGG-19 en el diagnóstico de catarata y glaucoma. Informática y Sistemas: Revista de Tecnologías de la Informática y las Comunicaciones, 8(2), 52–59. https://doi.org/10.33936/isrtic.v8i2.6641
Enviado: 17/04/2024
Aceptado: 13/06/2024
Publicado: 02/07/2024
Autores
*Leonardo Paúl Sánchez Dávila
Ruth Evelyn Rogel Rivera
Joofre Antonio Honores Tapia
Wilmer Braulio Rivas Asanza
Resumen
El auge tecnológico está produciendo importantes cambios a nivel mundial, sobre todo la inteligencia artificial. Actualmente las grandes compañías han emprendido acciones y destinan gran parte de sus recursos al desarrollo de tecnologías que permitan automatizar las actividades, entre ellas las del sector salud. En tal sentido, la oftalmología ha captado la atención del uso de las redes neuronales convolucionales, debido a que puede proveer suficientes datos para garantizar niveles altos de predicción en la detección de enfermedades/anomalías oculares. En esta investigación se rediseñaron veinticuatro algoritmos a partir de las estructuras ResNet-50 y VGG-19, modificando las entradas (conjuntos de 15, 25 y 35 imágenes) y los ciclos de propagación (20 y 25 épocas), con el objetivo de optimizar el nivel de precisión en el diagnóstico de catarata y glaucoma. Además, se utilizó el estadístico U de Mann Whitney para comparar los valores medios de los parámetros pérdida, precisión, rendimiento y tiempo, logrando identificar que solamente en este último las diferencias son estadísticamente significativas. Los resultados revelaron que el algoritmo más eficiente en el diagnóstico de catarata fue desarrollado a partir de la estructura VGG-19 con 25 imágenes tomadas como entrada con 20 épocas de entrenamiento; por su parte, no se lograron obtener niveles de precisión adecuados para el diagnóstico de glaucoma. El desarrollo de esta investigación implica esclarecer la practicidad de adoptar en el campo de la oftalmología las dos redes neuronales convolucionales que mayor rendimiento han tenido en materia de detección y diagnóstico.
Palabras clave: inteligencia artificial; oftalmología; redes neuronales convolucionales; catarata; glaucoma.
Abstract
The technological boom is bringing about important changes worldwide, especially artificial intelligence. Currently, large companies have taken action and are allocating a large part of their resources to the development of technologies that allow the automation of activities, including those in the healthcare sector. In this regard, ophthalmology has attracted the attention of a branch of artificial intelligence, convolutional neural networks, because it can be provided with sufficient data to guarantee high levels of prediction in the detection of ocular diseases/anomalies. In this research, twenty-four algorithms were redesigned from the ResNet-50 and VGG-19 structures, modifying the inputs (sets of 15, 25 and 35 images) and the propagation cycles (20 and 25 epochs), with the aim of optimizing the level of accuracy in the diagnosis of cataract and glaucoma. In addition, the Mann Whitney U statistic was used to compare the mean values of the parameters loss, precision, performance and time, identifying that only in the latter the differences are statistically significant. The results revealed that the most efficient algorithm in the diagnosis of cataract was developed from the VGG-19 structure with 25 images taken as input with 20 training epochs; on the other hand, it was not possible to obtain adequate levels of accuracy for the diagnosis of glaucoma. The development of this research involves clarifying the practicality of adopting in the field of ophthalmology the two convolutional neural networks that have had the best performance in terms of detection and diagnosis.
Keywords: artificial intelligence; ophthalmology; convolutional neural networks; cataract; glaucoma; glaucoma.
52
1. Introducción
La inteligencia artificial es el concepto en boga por excelencia de la actualidad. Las compañías más grandes del mundo, como Google o Amazon, están invirtiendo gran parte de sus recursos en el desarrollo de estas tecnologías (Magallanes et al., 2023). Por su parte, Estupiñán et al. (2021) manifiestan que la inteligencia artificial asemeja las funciones cognitivas del intelecto humano permitiendo automatizar distintos tipos de actividades. Por ello, las empresas han apuntado a su uso para un apalancamiento operativo (Borja et al., 2020). Indagando en el campo de la oftalmología, el uso de la inteligencia artificial ha permitido automatizar desde procesos básicos, como la gestión de turnos, hasta los más complejos, como aquellos operativos de diagnóstico de enfermedades oculares (Hernández, 2024). En las siguientes subsecciones se descompone y analiza a profundidad las ramas de la inteligencia artificial que permiten desarrollar software para diagnosticar enfermedades oculares, debido a que en este estudio se busca desarrollar, analizar y comparar distintas propuestas metodológicas que permitan detectar el glaucoma o la catarata.
El machine learning, o aprendizaje automático, es una rama de la inteligencia artificial que tiene como objeto modificar los parámetros predictivos del proceso, permitiendo que los sistemas aprendan a partir de la repetición. De esta manera, se puede obtener predicciones más confiables con los mismos datos introducidos al inicio de una misma operación (Zarranz-Ventura et al., 2023). El primer caso conocido donde se utilizó el aprendizaje automático es el algoritmo desarrollado por Arthur Samuel, el cual fue denominado Chinook, donde un software pudo vencer en una partida de damas al campeón mundial Gary Kaspárov. Actualmente, los algoritmos de aprendizaje automático aprenden de los datos a través de la retroalimentación experimentada mediante varios entrenamientos. En la oftalmología, el aprendizaje automático puede mejorar la precisión del diagnóstico del glaucoma o la catarata a través del entrenamiento de un software.
A su vez, el deep learning, o aprendizaje profundo, es una forma de aprendizaje automático donde diferentes capas de algoritmos identifican automáticamente patrones y estructuras presentes en los conjuntos de datos (Perdomo-Charry et al., 2020). Las capas antes descritas tienden a replicar la conectividad de las neuronas, siendo la red neuronal convolucional aquella cuyas características son similares a la red neuronal que se encuentra presente en la corteza visual primaria (Guevara y Augusto, 2023). Retomando el estudio de Zarranz-Ventura et al. (2023), un software de aprendizaje profundo mediante el entrenamiento puede diferenciar una forma de otras, como por ejemplo, un guineo de otras frutas. Por lo tanto, la efectividad radica en el entrenamiento de la red neuronal convolucional con diferentes imágenes de guineos. Al contrastar esto en el campo de la oftalmología, el aprendizaje profundo mediante las redes neuronales convolucionales podría identificar a través de fotografías oculares la presencia de glaucoma o catarata y optimizar sus resultados a partir del entrenamiento con una mayor cantidad y mejor calidad de imágenes.
El uso de la inteligencia artificial, puntualmente de las redes neuronales convolucionales, ha incrementado significativamente durante los últimos cinco años a modo que ha sido empleada para diferentes propósitos, destacando entre ellos el reconocimiento de especies y contabilización de animales salvajes en el campo de la biología (Cifuentes et al., 2019; Suing-Albito y Barba-Guaman, 2023), la detección de parásitos y enfermedades en los cultivos, estudios que corresponden a la fitopatología (Álvarez et al., 2023; Analuisa-Aroca et al., 2023; Costales et al., 2020; Lozada-Portilla et al., 2021). Y, en el ámbito de la salud en la identificación de patologías radicadas en los circuitos neuronales, como Alzheimer o Parkinson (Mera-Jiménez y Ochoa-Gómez, 2021), detección de tuberculosis a través de radiografías de tórax (Valero et al., 2021), o incluso para la detección de COVID-19 mediante imágenes rayos X (Guevara y Augusto, 2023).
Esto ha motivado a Zarranz-Ventura et al. (2023) a recomendar la adopción de la inteligencia artificial en la oftalmología destacando su practicidad debido al uso de una gran cantidad de imágenes, tanto del segmento anterior como posterior del ojo, reconociendo al menos seis pruebas y dos tipos de datos clínicos. Es decir, se dispone de una vasta cantidad de conjuntos de datos para entrenar redes neuronales convolucionales. La cantidad y calidad de los datos que provee la fotografía ocular justifica el desarrollo de esta propuesta metodológica y el análisis de la arquitectura de una red neuronal convolucional para la detección y/o diagnóstico del glaucoma y la catarata. En contraste con la literatura revisada, se enfatiza que la capacidad predictiva de estas enfermedades oftalmológicas debería ser alta y tender a mejorar con el entrenamiento.
En este estudio se realiza una comparación entre las estructuras de las redes ResNet-50 y VGG-19, utilizando un mismo conjunto de datos y ejecutándolas en igualdad de condiciones. Este es el punto de partida de la propuesta metodológica, la cual consiste en realizar dos modificaciones: 1) en la entrada, tomando diferentes conjuntos de pruebas de entrenamiento, ya sean 15, 25 y 35 imágenes, y 2) estableciendo diferentes ciclos de corrección de propagación de 20 y 25 épocas. De esta manera se pretende responder la siguiente pregunta de investigación ¿Qué tipo de estructura de red es más efectiva para el diagnóstico de glaucoma y catarata, y bajo qué condiciones?
El objetivo que persigue esta investigación es optimizar el nivel de precisión en el diagnóstico de glaucoma y catarata mediante una propuesta metodológica con base en las redes ResNet-50 y VGG-19. Para alcanzar este objetivo se han utilizado códigos de libre acceso los cuales fueron modificados de la forma descrita en el párrafo anterior, y para el entrenamiento de la red neuronal convolucional se utilizó un conjunto de imágenes obtenido desde la plataforma Kaggle. Además, se implementa estadística descriptiva e inferencial para comparar las variaciones de los niveles de precisión y determinar si son significativas.
El desarrollo de esta investigación implica esclarecer la practicidad de adoptar las dos redes neuronales convolucionales que mayor rendimiento han tenido en materia de detección y diagnóstico, según la literatura revisada. Esto permite conocer si la adopción de la inteligencia artificial en la detección de glaucoma o catarata cumple con los dos aspectos fundamentales para el campo de la salud, los cuales son la precisión y el tiempo que tarda en realizarse un diagnóstico. Al relacionar el uso de redes neuronales convolucionales junto con las necesidades de un centro oftalmológico para el diagnóstico de enfermedades oculares se puede conocer si la inteligencia artificial tiene un nivel de eficiencia adecuado para utilizarla en la detección de catarata y glaucoma, y la practicidad implícita en el factor tiempo que podría permitir sustituir la mano de obra, aumentar una unidad de diagnóstico, etc. Es decir, si una clínica oftalmológica desea adoptar inteligencia artificial para la detección de catarata o glaucoma, esta investigación provee un análisis técnico que permite conocer las diferencias entre el rendimiento de las diferentes redes analizadas, y a partir de este hacer una evaluación de la inversión del proyecto y proyección de los costos y ventas.
2. Materiales y Métodos
En primera instancia se recurrió a una investigación exploratoria mediante la revisión bibliográfica de casos de estudio, tanto en oftalmología como de otras áreas, donde se han utilizado redes neuronales convolucionales para el diagnóstico de enfermedades a partir de piezas gráficas, siendo esta la forma en que se reconocieron la ResNet-50 y la VGG-19 como las dos principales. Posteriormente, se analizaron las propiedades de estas redes para identificar las posibles mejoras que se puedan implementar en su diseño, y una vez modificados los códigos se recopiló el conjunto de datos desde Kaggle. Después se procedió a realizar los entrenamientos y levantamiento de los datos de los resultados para finalmente realizar los análisis estadísticos que permitieron comparar y determinar si las variaciones de los niveles de precisión fueron significativas.
En la Figura 1 se resume el proceso metodológico. El desarrollo de esta investigación parte de la identificación del estudio de caso, en primera instancia porque los autores habían considerado desarrollar una propuesta de mejora para procedimientos oftalmológicos a partir de la inteligencia artificial, logrando identificar a las redes neuronales convolucionales como una alternativa al diagnóstico de catarata y glaucoma. Luego, se realizó una revisión bibliográfica para desglosar y entender cómo la inteligencia artificial se ramifica, cuál es el principio y qué parte de la inteligencia artificial se encarga de la detección de patrones en imágenes, y cómo puede desarrollarse una propuesta metodológica para el diagnóstico de catarata y glaucoma. Después, se procedió a buscar una base de datos adecuada de pacientes con catarata, glaucoma, sanos, y con otras enfermedades, la misma que sirvió para el entrenamiento de las redes. Y, a partir de este punto se inició la codificación y ejecución de los entrenamientos, para posteriormente analizar los resultados obtenidos.
La base de datos1 utilizada para entrenar las redes contiene fotografías a color del fondo del ojo derecho e izquierdo de 5000 pacientes. Las fotografías fueron recopiladas por la organización Shanggong Medical Technology Co., Ltd. y corresponden a pacientes sanos, o con diabetes, glaucoma, catarata, degeneración macular relacionada con la edad, hipertensión, miopía patológica y otras enfermedades/anomalías. Se utilizó Phyton como lenguaje de programación y los códigos fueron ejecutados en Jupyter Notebook de Anaconda Navigator.
En esta investigación se empleó el método no experimental, de corte transversal y de tipo cuantitativo. Para desarrollar la propuesta metodológica se comprendió la estructura de las redes ResNet-50 y VGG-19, y posteriormente se implementaron las mejoras en las entradas y ciclos de propagación. Esto implica el uso de los códigos de dos estructuras de red que han sido replicados en otros estudios. Por lo tanto, el aporte de esta investigación radica en el testeo de cada red en condiciones diferentes, su posterior análisis comparativo para determinar si existen diferencias significativas y finalmente recomendar con base en los resultados si es oportuno desarrollar un software para la detección de catarata y glaucoma.
A continuación, en la Tabla 1 se presenta las características de las redes que se van a analizar, donde se presentan las enfermedades que se van a diagnosticar, la estructura de red implementada, así como el conjunto de imágenes y las épocas de entrenamiento.
La base de datos utilizada para entrenar las redes contiene fotografías a color del fondo del ojo derecho e izquierdo de 5000 pacientes. Las fotografías fueron recopiladas por la organización Shanggong Medical Technology Co., Ltd. y corresponden a pacientes sanos, o con diabetes, glaucoma, catarata, degeneración macular relacionada con la edad, hipertensión, miopía patológica y otras enfermedades/anomalías. Se utilizó Phyton como lenguaje de programación y los códigos fueron ejecutados en Jupyter Notebook de Anaconda Navigator.
En esta investigación se empleó el método no experimental, de corte transversal y de tipo cuantitativo. Para desarrollar la propuesta metodológica se comprendió la estructura de las redes ResNet-50 y VGG-19, y posteriormente se implementaron las mejoras en las entradas y ciclos de propagación. Esto implica el uso de los códigos de dos estructuras de red que han sido replicados en otros estudios. Por lo tanto, el aporte de esta investigación radica en el testeo de cada red en condiciones diferentes, su posterior análisis comparativo para determinar si existen diferencias significativas y finalmente recomendar con base en los resultados si es oportuno desarrollar un software para la detección de catarata y glaucoma.
A continuación, en la Tabla 1 se presenta las características de las redes que se van a analizar, donde se presentan las enfermedades que se van a diagnosticar, la estructura de red implementada, así como el conjunto de imágenes y las épocas de entrenamiento.
Para la operacionalización de las variables se realizan las siguientes consideraciones. La variable dependiente es el diagnóstico de la enfermedad ocular, a la cual corresponden cinco dimensiones: 1) El resultado, esta se encuentra sujeta a las categorías “Glaucoma” o “Catarata” para indicar la presencia de la anomalía o “Normal” para indicar su ausencia, 2) la pérdida, 3) la precisión, 4) el rendimiento, y 5) el tiempo. Se debe aclarar que las redes propuestas pueden predecir la presencia o ausencia de una sola enfermedad, no diferenciarlas. Es decir, si una red diseñada para detectar glaucoma analiza la imagen de un ojo con catarata, el resultado que entrega la salida es “Normal”, y viceversa. Por otra parte, las variables independientes son el conjunto de imágenes de entrada y las épocas de entrenamiento, pues estos son los parámetros de las redes que se van a modificar.
Luego de ejecutar el entrenamiento de las redes se recopilaron los resultados de los parámetros pérdida, precisión, rendimiento y tiempo. Estos datos fueron registrados en una hoja de cálculo y luego se dispusieron en el software IBM SPSS Statistics 27 para realizar los análisis estadísticos. En primer lugar, se hizo uso de la estadística descriptiva para comparar las dos estructuras de red, para ello se utilizó el coeficiente de variación el cual se obtuvo al relacionar los valores más altos obtenidos en cada parámetro. Este análisis permite conocer qué estructura de red y en qué condiciones presenta menor pérdida de datos, tiene mayor precisión en la predicción, mejor rendimiento en el procesamiento de las fotografías oculares, y mayor rapidez para realizar el diagnóstico. Después, se utilizó la estadística inferencial para determinar si la diferencia entre los diagnósticos es estadísticamente significativa. Este análisis inició con la prueba de Shapiro-Wilk para determinar si existe normalidad en la distribución de los resultados y posteriormente se hizo uso del estadístico U de Mann Whitney para determinar si la variación de las medias de estos resultados es significativa. Con esta prueba no paramétrica se puede reconocer en qué parámetro una red es más eficiente que otra.
3. Resultados y Discusión
Como primer punto se describen los resultados obtenidos del entrenamiento de cada estructura de red (ResNet-50 y VGG-19). Se observó que la red VGG-19 obtuvo menos falsos positivos que la ResNet-50 (Ver la Tabla 2). Con la estructura ResNet-50 cinco pacientes fueron diagnosticados con glaucoma, aunque no poseían ningún tipo de enfermedad/anomalía en sus ojos, mientras que dos casos con glaucoma fueron clasificados como sanos. Por otra parte, no hubo errores en la detección de catarata (Ver el Anexo 1). Respecto a la red VGG-19, esta diagnosticó catarata a un paciente sano, y viceversa, a un paciente con catarata lo clasificó como sano. Se observaron cuatro casos de pacientes sanos que fueron diagnosticados con glaucoma, pero ningún caso de glaucoma pasó desapercibido como caso normal (Ver el Anexo 2).
A partir de este punto se realizó un análisis diferenciado por cada enfermedad, siendo la catarata la primera de la cual se va a exponer los resultados. Del grupo de redes ResNet-50, la Red 6 obtuvo el mayor rendimiento (0,98438), mientras que de la estructura VGG-19 lo fue la Red 9 (0,99160). Según la variación de 0,73%, la Red 9 (Modelo propuesto a partir de la estructura VGG-19) tiene un mejor rendimiento que la Red 2 (Modelo propuesto a partir de la estructura ResNet-50), sin embargo, esta ventaja representó una tardanza de 30 minutos adicionales para culminar el ciclo de entrenamiento. A continuación, en la Figura 2 se presenta un gráfico de líneas donde se muestran los niveles de precisión de las redes.
Por otra parte, la Red 9 (Modelo propuesto a partir de la estructura VGG-19) es la que menor pérdida presentó entre las demás (6,28%), y también la que más precisión obtuvo al final de la ejecución (99,08%). En contraste con el rendimiento, la Red 6 (Modelo propuesto a partir de la estructura ResNet-50) presentó 4,97% más de errores y 0,01% menos de precisión en el diagnóstico de catarata. Es decir, la Red 9 que utiliza como base de su estructura el modelo VGG-19 es la más eficiente al momento de reconocer catarata en fotografías a color del fondo del ojo derecho e izquierdo.
Respecto al glaucoma, la Red 14 del grupo de redes ResNet-50 obtuvo el mayor indicador de rendimiento (0,92029) y del grupo VGG-19 fue la Red 22 (0,91729). La variación del rendimiento entre estas redes fue de 0,33% a favor de la Red 14 (Modelo propuesto a partir de la estructura ResNet-50) e incluso el tiempo de ejecución fue de 45 minutos menos, pues la Red 22 tardó 75 minutos. A continuación, en la Figura 3 se presenta un gráfico de líneas con los niveles de precisión de todas las redes.
Las dos redes de mayor rendimiento, presentaron un mismo nivel de precisión de 90,14%, pero diferentes valores de pérdida, pues el de la Red 14 (48,22%) fue 27,89% menor al de la Red 22 (76,11). Con base en estos resultados se considera que la Red 14, la cual utiliza como base de su estructura el modelo ResNet-50, es la más eficiente diagnosticando glaucoma a partir de fotografías a color del fondo del ojo derecho e izquierdo.
Se utilizó la prueba de Shapiro-Wilk para determinar el cumplimiento del supuesto de normalidad de la estadística paramétrica. Para ello, se relacionaron el rendimiento, la pérdida, la precisión y el tiempo, con los factores a comparar los cuales fueron las redes ResNet-50 y VGG-19. Según los resultados expuestos en la Tabla 3, solamente se cumple la normalidad para el grupo ResNet-50 en los parámetros precisión y rendimiento; por lo tanto, se deberá utilizar el estadístico U de Mann Whitney.
En la Tabla 4 se observa que, de acuerdo al estadístico U de Mann Whitney (p < 0,01), solamente existe flexibilidad entre el tiempo de ejecución que tardaron en entrenarse las redes. En otros términos, el tiempo es el único parámetro donde las diferencias son significativas, esto quiere decir que éste es el único criterio de exclusión para determinar cuál modelo de entre los propuestos es el más eficiente en la detección de glaucoma o catarata. Por lo tanto, las redes cuya ejecución tarde menos que el valor medio, serán consideradas las más adecuadas.
Las redes basadas en la estructura ResNet-50 tardaron en promedio 27 minutos con 50 segundos en diagnosticar catarata y 26 minutos con 50 segundos para diagnosticar glaucoma; por otra parte, las redes basadas en la estructura VGG-19 tardaron en promedio 65 minutos con 10 segundos en diagnosticar catarata y 66 minutos con 30 segundos para diagnosticar glaucoma. Considerando el criterio de exclusión del tiempo, la estructura ResNet-50 es más eficiente que la VGG-19 en el diagnóstico de catarata y glaucoma.
Adhiriendo al parámetro tiempo, y confirmando lo establecido por Cifuentes et al. (2019), quienes afirman que la eficiencia de las RNC reside en la capacidad de extraer los patrones de las imágenes, la Red 9 (Modelo propuesto a partir de la estructura VGG-19) es la única que cumple con ambos criterios de eficiencia. Aunque la precisión del diagnóstico es una prioridad inminente en el campo de la salud, el tiempo también es un factor crucial para la detección de ciertas enfermedades/anomalías; por ende, desde la operatividad se podría valorar la adopción de esta inteligencia artificial en centros oftalmológicos de alta demanda o en aquellos donde el especialista tarde más de 62 minutos en diagnosticar catarata.
De las propuestas metodológicas que utilizaron las mismas estructuras de red se contrasta lo siguiente, Suing-Albito y Barba-Guaman (2023) obtuvieron el mayor nivel de predicción utilizando la VGG-19. Sin embargo, los demás algoritmos entregaron un resultado superior al 98% y los demás por encima del 99%. Los resultados para el diagnóstico del glaucoma no son satisfactorios puesto que ninguno de los algoritmos logró alcanzar el 91% de precisión. Por otra parte, para la detección de catarata una red basada en la estructura VGG-19 sí logro superar el 99% de precisión, además, el rendimiento, pérdida y tiempo de ejecución refuerzan la afirmación de que este modelo es más eficiente que el ResNet-50.
Así mismo, se concuerda con Perdomo-Charry et al. (2020) respecto a que los modelos de redes neuronales convolucionales no aprovechan toda la información provista en los datos oftalmológicos debido a que se recurre únicamente a la valoración del fondo del ojo, cuando existen datos clínicos y reportes diagnósticos que pueden ser cruciales en la detección de catarata, como la agudeza visual (Carron et al., 2021), o del glaucoma, como el lagrimeo o la presencia de megalocórnea (Urióstegui-Rojas et al., 2023). Se sugiere que las nuevas propuestas metodológicas adquieran un carácter integral para el desarrollo de sistemas multimodales.
Los resultados obtenidos en los factores rendimiento y tiempo son concluyentes en determinar que la Red 9 es la red neuronal convolucional más apropiada para detectar catarata, y que ninguna de las redes propuestas es apropiada para la detección de glaucoma. Así mismo, estos resultados demostraron que durante los entrenamientos la estructura de red VGG-19 procesa mejor la información contenida en las fotografías oculares. Es decir, las capas convolucionales afectan la toma de información de las fotografías oculares, pero se descarta la teoría de que a más etapas de entrenamiento se obtienen mejores predicciones.
3. Resultados y Discusión
Uno de los hallazgos más importantes de esta investigación fue que el rendimiento de las redes neuronales convolucionales está directamente relacionado con los indicadores de pérdida y precisión, pues en los casos donde las redes demostraron un mayor rendimiento consecuentemente obtenían una menor pérdida de datos y mayor precisión en sus predicciones. Esto nos lleva a concluir que las mejoras resultantes de las modificaciones que se realizan en la cantidad de datos de las entradas y en los ciclos de propagación tienen comportamientos similares en estos tres parámetros. Por otra parte, la variable tiempo actuó de manera inusual ante el rendimiento; caso contrario a lo sucedido con las épocas, pues a más ciclos de propagación se tardó más en culminar el entrenamiento (Excepto en el diagnóstico de glaucoma con ResNet-50 utilizando 25 imágenes de entrada). Se concluye que el rendimiento y el tiempo son los principales criterios de exclusión para que los centros especializados en oftalmología puedan decidir adoptar una determinada inteligencia artificial para el diagnóstico automatizado de glaucoma o catarata. La Red 9 propuesta en este estudio es la única que se recomienda analizar, utilizar o comparar en futuras investigaciones, además, los resultados obtenidos en los factores rendimiento y tiempo permiten responder la pregunta de investigación ¿Qué tipo de estructura de red es más efectiva para el diagnóstico de glaucoma y catarata, y bajo qué condiciones? La estructura VGG-19 analizando 25 imágenes en la entrada con 20 épocas de entrenamiento es la mejor red neuronal convolucional para el diagnóstico de catarata (Ver los Anexos 3 y 4).
Se insta a los futuros investigadores replicar esta propuesta metodológica en otras estructuras de red y comparar con las ResNet-50 y VGG-19 para determinar si el comportamiento del rendimiento logra establecer una relación con la variable tiempo. Así mismo, se propone desarrollar propuestas metodológicas diferentes a la reestructuración de las entradas y épocas de entrenamiento para determinar si persiste la relación entre el rendimiento con la pérdida y la precisión. Además, existen casos de doble presencia de catarata y glaucoma, aunque no son comunes (García et al., 2020), siendo este el punto de partida para el desarrollo de otras propuestas metodológicas de clasificación multiclase como la de Guevara y Augusto (2023). En un principio se consideró crear una base de datos propia de fotografías oculares, sin embargo, al revisar otros casos de estudio se conoció que se requería una muestra de más de 500 personas con cada enfermedad y más de 500 personas sanas. Es aquí donde surgió la limitación de esta investigación, pues crear esta base de datos requería de más tiempo, un presupuesto elevado, y el despliegue logístico con el que no contaban los autores. Sin embargo, al buscar en diferentes plataformas se pudo encontrar a Kaggle, un proveedor de bases de datos para uso y de relevancia académica, quien pudo suplir esta necesidad.
Agradecimientos
Queremos expresar nuestro más sincero agradecimiento a nuestros tutores de revisión y edición del artículo, pertenecientes a la Universidad Técnica de Machala, por su invaluable ayuda y orientación en este proyecto de investigación. Además, extendemos nuestro agradecimiento a los familiares de los autores de este trabajo, cuyo apoyo indirecto ha sido fundamental para su desarrollo y ejecución. Su respaldo ha sido una fuente de fortaleza y motivación en todo momento.
Contribución de los autores
Leonardo Paúl Sánchez Dávila: Administración del proyecto, Investigación, Metodología, Redacción – borrador original del artículo, Revisión y edición del artículo. Ruth Evelyn Rogel Rivera: Conceptualización, Análisis formal, Metodología, Redacción – borrador original del artículo, Revisión y edición del artículo. Joofre Antonio Honores Tapia: Conceptualización, Investigación, Redacción – borrador original del artículo, Revisión y edición del artículo. Wilmer Braulio Rivas Asanza: Investigación, Metodología, Redacción – borrador original del artículo, Revisión y edición del artículo.
Conflictos de interés
Los autores declaran no tener ningún conflicto de interés.
Referencias bibliográficas
Álvarez, D., Arévalo, A., Benavides, I., Salazar, C., & Betancourth, C. (2023). Use of Trained Convolutional Neural Networks for Analysis of Symptoms Caused by Botrytis fabae Sard. Revista de Ciencias Agrícolas, 40(1), 1-13. https://doi.org/10.22267/rcia.20234001.198
Analuisa-Aroca, I., Vergara-Romero, A., & Pérez, I. (2023). Redes neuronales convolucionales ResNet-50 para la detección de gorgojo en granos de maíz. Scientia Agropecuaria, 14(3), 385-394. https://doi.org/10.17268/sci.agropecu.2023.034
Borja, M., Pérez, M., & Luna, R. (2020). Beneficios ofrecidos por la gestión del Big Data en las instituciones gubernamentales en la era de la digitalización. Revista La Propiedad Inmaterial(30). https://go.gale.com/ps/i.do?id=GALE%7CA648058028&sid=googleScholar&v=2.1&it=r&linkaccess=abs&issn=16571959&p=IFME&sw=w&userGroupName=anon%7Ef426e03f&aty=open-web-entry
Carron, A., Araujo, D., Medve, G., Torres, J., & Arrúa, M. (2021). Exactitud de las fórmulas de cálculo del poder de Lente Intraocular en Cirugía de Cataratas. Comparación de 8 fórmulas. Anales de la Facultad de Ciencias Médicas (Asunción), 54(2), 25-32. https://doi.org/https://doi.org/10.18004/anales/2021.054.02.25
Cifuentes, A., Mendoza, E., Lizcano, M., Santrich, A., & Moreno-Trillos, S. (2019). Desarrollo de una red neuronal convolucional para reconocer patrones en imágenes. Investigación y Desarrollo en TIC, 10(2), 7-17. https://revistas.unisimon.edu.co/index.php/identic/article/view/4007/4359
Costales, H., Callejo-Arruejo2, A., & Rafanan, N. (2020). Development of a Prototype Application for Rice Disease Detection Using Convolutional Neural Networks. International Journal of Emerging Trends in Engineering Research, 8(10), 7076-7081. https://doi.org/10.30534/ijeter/2020/708102020
Estupiñán, J., Leyva, M., Peñafiel, A., & El Assafiri, Y. (2021). Inteligencia artificial y propiedad intelectual. Revista Universidad y Sociedad, 13(S3), 362-368. https://rus.ucf.edu.cu/index.php/rus/article/download/2490/2445/
García, K., Vélez, V., Narváez, O., & Trujillo, M. (2020). Hallazgos clínicos en retinosis pigmentaria por examen visual, campimetría y retinografía en Colombia. Ciencia y Tecnología para la Salud Visual y Ocular, 18(2), 55-64. https://doi.org/https://doi.org/10.19052/sv.vol18.iss2.6
Guevara, R., & Augusto, C. (2023). Aplicación de redes neuronales densas y convolucionales para detección de COVID_19 en imágenes de rayos X. Revista Conectividad, 4(2), 19-32. https://doi.org/10.37431/conectividad.v4i2.78
Hernández, I. (2024). La inteligencia artificial y su impacto en la atención oftalmológica. Revista Cubana de Oftalmología, 37, 1-3. https://revoftalmologia.sld.cu/index.php/oftalmologia/article/view/1844/pdfq
Lozada-Portilla, W., Suarez-Barón, M., & Avendaño-Fernández, E. (2021). Aplicación de redes neuronales convolucionales para la detección del tizón tardío Phytophthora infestans en papa Solanum tuberosum. Revista U.D.C.A Actualidad & Divulgación Científica, 24(2), 1-9. https://doi.org/10.31910/rudca.v24.n2.2021.1917
Magallanes, K., Plúas, L., Aguas, J., & Freire, R. (2023). La inteligencia artificial aplicada en la innovación educativa en el proceso de enseñanza y aprendizaje. LATAM Revista Latinoamericana de Ciencias Sociales y Humanidades, IV(2), 1597-1613. https://doi.org/10.56712/latam.v4i2.706
Mera-Jiménez, L., & Ochoa-Gómez, J. (2021). Redes neuronales convolucionales para la clasificación de componentes independientes de rs-fMRI. TecnoLógicas, 24(50), 1-20. https://doi.org/10.22430/22565337.1626
Perdomo-Charry, O., Pérez, A., de-la-Pava-Rodríguez, M., Ríos-Calixto, H., Arias-Vanegas, V., Lara-Ramírez, J., . . . González-Osorio, F. (2020). SOPHIA: System for Ophthalmic Image Acquisition, Transmission, and Intelligent Analysis. Revista Facultad de Ingeniería, 29(54), 1-15. https://doi.org/10.19053/01211129.v29.n54.2020.11769
Suing-Albito, G., & Barba-Guaman, L. (2023). Aplicación de métodos de deep learning en la identificación y conteo automático de animales salvajes. Revista Ibérica de Sistemas e Tecnologias de Informação, E56, 303-316. https://www.proquest.com/openview/7c46b95f421cc4491149edd9092ca5f9/1?pq-origsite=gscholar&cbl=1006393
Urióstegui-Rojas, A., López-García-Tinajero, A., Cortés-López, P., Mata-Hofmann, R., Mata-Flores, F., & Hofmann-Blancas, M. (2023). Epidemiología del glaucoma congénito primario durante 2008-2018 en el Instituto de Oftalmología “Fundación de Asistencia Privada Conde de Valenciana, IAP”. Revista mexicana de oftalmología, 96(6), 241-246. https://doi.org/https://doi.org/10.24875/rmo.m22000246
Valero, J., Zúñiga, A., & Clares, J. (2021). Detección de la tuberculosis con algoritmos de Deep Learning en imágenes de radiografías del tórax. VIVE. Revista de Investigación en Salud, 4(12), 624-633. https://doi.org/10.33996/revistavive.v4i12.119
Zarranz-Ventura, J., Romero-Aroca, P., & Zapata, M. (2023). Inteligencia artificial en oftalmología. Annals d’Oftalmologia, 1(4), 166-169. https://www.scoft.cat/pdfs/Revista-Annals-Oftalmologia_CDS_2023_low.pdf
53
Figura 1. Resumen gráfico del proceso metodológico.
Fuente: Autores.
54
55
Tabla 1. Medidas de productos.
Fuente: Autores.
|
Enfermedad a diagnosticar |
Estructura de red |
Conjunto de imágenes |
Épocas de entrenamiento |
Red |
|
Catarata |
ResNet-50 |
15 |
20 |
Red 1 |
|
25 |
Red 2 |
|||
|
25 |
20 |
Red 3 |
||
|
25 |
Red 4 |
|||
|
35 |
20 |
Red 5 |
||
|
25 |
Red 6 |
|||
|
VGG-19 |
15 |
20 |
Red 7 |
|
|
25 |
Red 8 |
|||
|
25 |
20 |
Red 9 |
||
|
25 |
Red 10 |
|||
|
35 |
20 |
Red 11 |
||
|
25 |
Red 12 |
|||
|
Glaucoma |
ResNet-50 |
15 |
20 |
Red 13 |
|
25 |
Red 14 |
|||
|
25 |
20 |
Red 15 |
||
|
25 |
Red 16 |
|||
|
35 |
20 |
Red 17 |
||
|
25 |
Red 18 |
|||
|
VGG-19 |
15 |
20 |
Red 19 |
|
|
25 |
Red 20 |
|||
|
25 |
20 |
Red 21 |
||
|
25 |
Red 22 |
|||
|
35 |
20 |
Red 23 |
||
|
25 |
Red 24 |
Tabla 2. Medidas de productos.
Fuente: Autores.
Figura 2. Niveles de rendimiento de las redes en el diagnóstico de catarata.
Fuente: Autores.
|
Estructura |
Cataratas detectadas |
Glaucomas detectados |
Ojos sanos detectados |
Errores |
Total |
|
ResNet-50 |
34 casos |
32 casos |
47 casos |
7 casos |
120 casos |
|
VGG-19 |
37 casos |
32 casos |
45 casos |
6 casos |
120 casos |
Tabla 3. Prueba de normalidad para muestras menores a 30 observaciones por grupo.
Fuente: Autores.
|
Factores |
Estructura |
Shapiro-Wilk |
||
|
Estadístico |
gl |
Sig. |
||
|
Pérdida |
ResNet-50 |
0,926 |
12 |
0,344 |
|
VGG-19 |
0,956 |
12 |
0,732 |
|
|
Precisión |
ResNet-50 |
0,810 |
12 |
0,012 |
|
VGG-19 |
0,884 |
12 |
0,098 |
|
|
Rendimiento |
ResNet-50 |
0,826 |
12 |
0,019 |
|
VGG-19 |
0,898 |
12 |
0,148 |
|
|
Tiempo |
ResNet-50 |
0,924 |
12 |
0,321 |
|
VGG-19 |
0,923 |
12 |
0,314 |
|
Figura 3. Niveles de rendimiento de las redes en el diagnóstico de glaucoma.
Fuente: Autores.
56
Tabla 4. Comparación de medias para dos muestras independientes.
Fuente: Resultados del entrenamiento de las redes.
|
Estadística |
Pérdida |
Precisión |
Rendimiento |
Tiempo |
|
U de Mann-Whitney |
53,000 |
54,000 |
53,500 |
0,000 |
|
W de Wilcoxon |
131,000 |
132,000 |
131,500 |
78,000 |
|
Z |
-1,097 |
-1,043 |
-1,068 |
-4,168 |
|
Sig. asin. (bilateral) |
0,273 |
0,297 |
0,285 |
0,000 |
|
Significación exacta [2*(sig. unilateral)] |
,291b |
,319b |
,291b |
,000b |
57
Anexos
A.1. Elementos del conjunto de datos detectados como falsos positivos por la red ResNet-50.
A.2. Elementos del conjunto de datos detectados como falsos positivos por la red VGG-19.
A.3. Métricas de clasificación de la Red 9.
|
|
precisión |
retirada |
puntuación f1 |
soporte |
|
0 |
1,00 |
0,98 |
0,99 |
100 |
|
1 |
0,98 |
1,00 |
0,99 |
118 |
|
precisión |
0,99 |
218 |
||
|
media macro |
0,99 |
0,99 |
0,99 |
218 |
|
media ponderada |
0,99 |
0,99 |
0,99 |
218 |
A.4. Gráfico de curvas de entrenamiento y validación de la precisión y pérdida de la Red 9 para el diagnóstico de catarata.
58
59