Instituto Polit�cnico Nacional
Instituto Politécnico Nacional
"La Técnica al Servicio de la Patria"

Boletín No. 107
1o. de marzo de 2025




SEGMENTADO DE IMAGEN EMPLEANDO UNA ARQUITECTURA NEURONAL DE TIPO SELF-ORGANIZING MAP

 

Álvaro Anzueto Ríos, (Profesor)       Yesenia Eleonor González Navarro, (Profesora)       Rafael Santiago Godoy, (Profesor)      


Instituto Politécnico Nacional     

UPIITA     


Esta dirección de correo electrónico está siendo protegida contra los robots de spam. Necesita tener JavaScript habilitado para poder verlo.      

 

 

Resumen

La regla de aprendizaje de Kohonnen es implementado en una arquitectura neuronal para generar un Mapa Autoorganizado (Self-Organizing Map, SOM) que es capaz de realizar tareas de agrupamiento de datos. Esta idea es aplicada, en este trabajo, para agrupar píxeles en una imagen considerando como característica de estudio el nivel de gris, aplicándose así en una sola dimensión. La idea inicia organizando los niveles de gris por su número de ocurrencia y se considera un rango numérico de 0 a 255, esto permite generar el histograma correspondiente. Con la obtención del histograma, cada nivel de gris es presentado a la arquitectura SOM y ponderado según su frecuencia de ocurrencia, evitando así procesar de manera individual cada píxel que posea el mismo valor de gris.
Una vez concluido el proceso de entrenamiento, la imagen se evalúa una vez más y finalmente cada nivel de gris se reasignado a la neurona cuyo peso es más cercano, generando grupos de píxeles con un mi valor numérico, en otras palabras, se producen regiones dentro de la imagen que comparten la misma tonalidad de gris, ya que están asignadas a la misma neurona. Por lo tanto, el número de agrupaciones o clases (k) está definido por la cantidad de neuronas presentes en la arquitectura neuronal diseñada. Por ejemplo, si la arquitectura cuenta con tan solo dos neuronas, la imagen final contendrá únicamente dos niveles de gris, agrupando los píxeles en dos regiones. Como mejora en el proceso de entrenamiento, se considera un decaimiento exponencial tanto de la tasa de aprendizaje como del radio de vecindad que abarca una neurona. Dado que este tipo de entrenamiento de las neuronas es no supervisado, no es necesario conocer la distribución de los píxeles ni contar con un etiquetado previo de los datos, lo que permite adaptarse a diferentes imágenes con variadas distribuciones de gris. Los resultados obtenidos demuestran la notable eficiencia en la segmentación de imágenes que logran este tipo de redes neuronales artificiales.

 

1.0 Introducción

Una de las tareas de interés dentro del procesamiento de imágenes es la segmentación o agrupado de regiones con un mismo nivel de tonalidad, generan imágenes con regiones definidas, lo cual facilita en procesos posteriores la identificación y análisis de estructuras que estén presentes. Durante el proceso de segmentado se debe tener la capacidad de distinguir entre tonos claros, intermedios y oscuros y agruparlo según alguna característica que compartan, para imágenes médicas llega a ser importante como soporte o ayuda en el momento de realizar un diagnóstico, otra área de aplicación es la robótica, donde los autómatas pueden tomar decisiones basado en estructuras presenten en su entorno de trabajo. Sin embargo, los métodos tradicionales de segmentado se basan principalmente en umbrales fijos o estrategias supervisadas, donde es necesario contar con información previa de la distribución de los píxeles y la tarea se complica al trabajar con distribuciones complejas o no contar con el etiquetado previo de los valores de los píxeles.

Teniendo en mente esta idea, las redes neuronales que desarrollan Mapas Autoorganizados (Self-Organizing Maps, SOM) se presentan como una alternativa viable en el desarrollo de esta tarea. Gracias a su estructura, las redes neuronales SOM aprenden a partir de los datos procesados y se organizan para determinar la similitud entre los píxeles basándose en su tonalidad. Esto ofrece una representación coherente que depende de la frecuencia de los niveles de gris presentes en la imagen. Es decir, los niveles de mayor frecuencia pueden absorber a los de menor frecuencia si se encuentran dentro de un vecindario establecido, el cual representa una medida de similitud entre niveles cercanos.

En este trabajo se demuestra la capacidad de un SOM unidimensional (SOM 1D) para realizar la tarea del agrupado de pixeles, considerando como característica de similitud el valor numérico del nivel de gris y el número de clases (k), el cual está asociado al número de neuronas presentes en la arquitectura neuronal diseñada. De este modo, es posible obtener segmentaciones que van desde binarias hasta más detalladas, capaces de identificar tonalidades intermedias. La estructura de aprendizaje del SOM es de gran interés en este estudio, ya que se presenta la adaptabilidad de la tasa de aprendizaje y la manera en que el vecindario varió conforme avanzaron las épocas de entrenamiento. Estas variaciones facilitan el proceso de determinar la cercanía entre las tonalidades y ayudan a generar regiones que comparten similitudes, además de permitir que las neuronas se adapten para aprender e interpretar las distribuciones numéricas de las tonalidades presentes en las imágenes.

2.0 Fundamentos Teóricos

La regla de aprendizaje de Kohonen [5] se utiliza para desarrollar el concepto de los Mapas Autoorganizados (Self-Organizing Maps, SOM), sin requerir conocimiento previo de los datos a lo que se conoce como un mecanismo de aprendizaje de tipo no supervisado, con lo cual, logra proyectar información de alta dimensionalidad a una representación de menor dimensión; este proceso conserva las relaciones topológicas entre los patrones [5]. En un SOM unidimensional (SOM 1D), las neuronas se organizan a lo largo de una línea, con pesos sinápticos que inicialmente se generan de manera aleatoria. Estos pesos sinápticos iniciales sirven como punto de partida para calcular las distribuciones que luego se irán adaptando y mejorando durante el proceso de aprendizaje.

Inicialmente se presenta un valor de gris g, y se continúan con el proceso que identifica la neurona cuya distancia al peso actual sea mínima; esta neurona se denomina neurona ganadora o BMU (Best Matching Unit) , se continua y se ajustan únicamente los pesos de la BMU y de sus vecinas inmediatas siguiendo una función de vecindad gaussiana, conforme a la ecuación (1). Este ajuste hace que los pesos de las neuronas se acerquen al valor de gris presentado, permitiendo que el SOM aprenda y se autoorganice para poder representar las distribuciones de tonalidades similares de acuerdo con el vecindario.

 

 

donde (t) es la tasa de aprendizaje que disminuye con las épocas representa el factor de vecindad entre la neurona b (ganadora) y la neurona i.

Para la segmentación de imágenes, se busca dividir la imagen en regiones homogéneas que compartan características similares, para nuestro caso la información de exploración es la intensidad de iluminación de cada píxel, representada con un valor numérico en el rango de [0 a 255]. Con un SOM , este criterio se basa en determinar la distancia entre cada valor de gris y los pesos de las neuronas; valores cercanos convergen hacia la misma o similares neuronas, formando clases o regiones de píxeles [1][5].

Al entrenar el SOM con los valores de ocurrencia de cada nivel de gris (histograma de la imagen), la red posiciona sus pesos en torno a los niveles más representativos de la imagen, distribuyendo las neuronas según la densidad de los datos. Cada neurona representa un rango particular de intensidades (vecindario), resultando en una segmentación donde cada clase está asociada a un nivel de gris promedio. Este enfoque combina la autoorganización de Kohonen con la agrupación de intensidades, desarrollando con ello una alternativa adaptable y no supervisada para segmentar imágenes en escala de grises.

3.0 Metodología

Este apartado describe la metodología propuesta para agrupar los niveles de gris de una imagen empleando un Mapa Autoorganizado (SOM) unidimensional, desde la obtención de la imagen y el cálculo de su histograma hasta la reconstrucción final de la imagen segmentada.

3.1 Descripción de la Propuesta

El enfoque central reemplaza el procesamiento individual de cada píxel de la imagen por el análisis del histograma de valores de gris. Dado que la imagen está en escala de grises con niveles en el rango [0, 255], se construye un vector de 256 posiciones donde cada posición i representa la frecuencia del nivel de gris i . Posteriormente, el SOM unidimensional (SOM 1D) se entrena utilizando estos 256 valores ponderados por su frecuencia, en lugar de procesar cada píxel por separado.

Una vez finalizado el entrenamiento, cada nivel de gris se asigna a la neurona cuyo peso sea más cercano. Luego, se clasifica cada píxel de la imagen: el valor de gris del píxel se mapea a la clase correspondiente, y se utiliza el peso de esa clase como intensidad de salida, produciendo la imagen segmentada.

3.2 Detalles de Implementación

Parámetros del SOM:

  • Dimensión de entrada: 1, correspondiente al nivel de gris.
  • Número de neuronas (k): Determina cuántas clases se formarán. En este trabajo se experimenta con k = 2, 3, y 4.
  • Tasa de aprendizaje (): Se inicia en 0.8 y decae exponencialmente con la época:
  • Radio de vecindad inicial (): 3.0, sujeta a un decaimiento exponencial:
  • Número de épocas: 50.
  • Al utilizar el histograma, cada nivel de gris se pondera por su frecuencia de aparición en la imagen. De esta manera, los niveles de gris más comunes tienen mayor influencia en la convergencia del SOM, mientras que los menos frecuentes tienen menor impacto en la actualización de los pesos.

    3.2 Algoritmo de Actualización

    Para cada nivel de gris g:

  • Encontrar la neurona ganadora (BMU): Identificar la neurona cuya distancia al peso sea mínima.
  • Actualizar los pesos: Ajustar el peso de la BMU y de sus vecinas según una función de vecindad gaussiana, multiplicada por la tasa de aprendizaje vigente.
  • Ponderación por frecuencia: El cambio en los pesos se pondera por la frecuencia de g en la imagen, de modo que los niveles de gris más comunes tienen mayor influencia en la convergencia. La ecuación (1) es empleada para la actualización.
  • Recordando que es la función de vecindad que depende de y de la distancia entre la neurona ganadora (b) y la neurona (i).

    4.0 Resultados

    Después de establecer los principios de agrupamiento del SOM unidimensional (SOM 1D), se aplicó este modelo para agrupar los píxeles de una imagen según su nivel de intensidad. A continuación, se describen las condiciones experimentales, la configuración de los parámetros del SOM y el análisis de la segmentación obtenida.

    4.1 Condiciones Experimentales

    La imagen utilizada proviene de la biblioteca de Python denominada skimage. Es una imagen en escala de grises de 8 bits, con valores entre 0 y 255, y un tamaño de 512 X 512 píxeles. La variada distribución de tonos claros y oscuros de esta imagen la hace adecuada para evaluar la capacidad del método de agrupamiento para distinguir diferentes matices. Antes de la segmentación, se calculó el histograma de la imagen para trabajar únicamente con los 256 niveles de gris, reduciendo la complejidad computacional.

    4.2 Análisis de la Segmentación Obtenida

    Tras entrenar el SOM con el histograma, cada nivel de gris se asigna a la neurona (o clase) cuyo peso final sea más cercano a (g). Este mapeo se traslada a la imagen espacial asignando a cada píxel la clase correspondiente a su nivel de gris, utilizando el peso de esa clase como intensidad de salida.

    En la Figura 1, se muestran los resultados de la segmentación para tres configuraciones de (k): 2,3 y 4 clases. Para cada caso:

     

    Figura 1. Histograma de la imagen cameraman con las barras de color según la clase asignada por el SOM para k = 2, 3 y 4.

     

  • Para el caso k = 2: Se tiene obtiene una imagen con dos agrupaciones, también denominada imagen bi-nivel o binario, con lo cual se genera una imagen en tonos blanco y negro. Es habitual designar, para este caso, zonas de interés como el fondo y el objeto dentro de la imagen.
  • Para el caso k = 3 : La segmentación divide la imagen en tres clases, permitiendo una mayor granularidad que el caso binario. Esto facilita la identificación de una tonalidad intermedia además de las regiones claras y oscuras.
  • Para el caso k = 4: Con cuatro clases, la segmentación adquiere una resolución mayor, capturando matices adicionales en los niveles de gris. Esto es beneficioso para imágenes con amplia variabilidad de tonos, permitiendo una representación más detallada de las distintas regiones.
  • 5.0 Discusión de los Resultados

    Para dimensionar la distribución de píxeles en cada clase, se presenta en la Tabla 1, el número de píxeles asignados a cada clase para las configuraciones evaluadas((k=2,3,4)). Se observa que, al aumentar el número de clases, la imagen se divide en más intervalos de gris, capturando matices adicionales.

     

    Tabla 1.
    Distribución de píxeles en cada clase para diferentes valores de k.

     

    5.1 Distribución de Píxeles por Clase

  • Con k = 2: Aproximadamente la mitad de la imagen está en la clase de tonos claros y la otra mitad en la de tonos oscuros.
  • Con k = 3 y k = 4: El reparto se diversifica, surgiendo clases intermedias que detallan mejor las zonas con valores de gris moderados.
  • Este enfoque reduce la complejidad computacional al evitar el procesamiento individual de cada píxel, trabajando en su lugar con 256 niveles de gris. Además, la ponderación por frecuencia asegura que la red neuronal se enfoque en las regiones del histograma con mayor concentración de píxeles.

    V6.0 Conclusiones sobre la Segmentación

    Los resultados muestran que el SOM unidimensional (SOM 1D) permite una segmentación eficiente de imágenes en escala de grises, con una clasificación ajustable mediante el número de clases k. Al ajustar k, se puede obtener desde una simple binarización hasta segmentaciones más detalladas que capturan múltiples matices de intensidad. Este método combina la eficiencia de trabajar con histogramas con la capacidad de autoorganización de los SOM, ofreciendo una alternativa adaptable para el agrupamiento de píxeles en diversas aplicaciones de procesamiento de imágenes.

    Parráfo

    7.0 Referencias

    1. Gonz´alez, R. C., & Woods, R. E. (2018). TDigital Image Processing(4th ed.). Pearson.

    2. Kanungo, T., Mount, D. M., Netanyahu, N., Piatko, C., Silverman, R., & Wu, A. Y. (2002). An Efficient k-Means Clustering Algorithm: Analysis and Implementation. IEEE Transactions on Pattern Analysis and Machine Intelligence, 24(7), 881–892.

    3. MacQueen, J. (1967). Some Methods for Classification and Analysis of Multivariate Observations.In Proceedings of the 5th Berkeley Symposium on Mathematical Statistics and Probability(Vol. 1, pp. 281–297).

    4. LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep Learning. lNature,521, 436–444.

    5. Kohonen, T. (1982). Self-Organized Formation of Topologically Correct Feature Maps.Biological Cybernetics43(1), 59–69.

    6.