Revista ElectroIndustria - ENFOQUE COMBINADO: Visión artificial y redes neuronales para el reconocimiento facial

ENFOQUE COMBINADO

Visión artificial y redes neuronales para el reconocimiento facial


	En este artículo se presenta una aplicación de técnicas de visión artificial y redes neuronales artificiales en reconocimiento facial. Para hacerlo, se utiliza un conjunto de imágenes con diferentes condiciones de iluminación, gestos, accesorios y distancias. Un algoritmo paso a paso permite obtener resultados satisfactorios, obteniendo la identificación correcta de las imágenes dentro y fuera del conjunto de datos.

La visión artificial (VA) es la encargada de obtener imágenes con el fin de procesarlas, adaptarlas (dimensión de imagen, color de imagen, etc.), realizar un análisis de las diversas cualidades que posee el rostro de una persona, y extraer esta información para realizar alguna clasificación específica. El trabajo comienza con el procesamiento de un set de imágenes, extrayendo las características del rostro a través del algoritmo de Viola Jones (VJ). Luego, se programa una red neuronal artificial (RNA) del tipo backpropagation para reconocer el rostro de las personas y,finalmente, probar el desempeño de la RNA al ingresar un set de imágenes diferentes a las usadas en el entrenamiento por la red neuronal. Este procesamiento se realizó mediante pruebas de imágenes estáticas tomadas desde una base de datos, que fueron procesadas a través de una interfaz hombre-máquina (HMI), por lo que queda propuesto como futuro trabajo el entrenamiento y verificación de imágenes en movimiento.

Diseño del experimento

El reconocimiento del rostro está dividido en dos etapas. La primera, corresponde a las técnicas de VA que contiene el procesamiento de imágenes y detección del rostro. La segunda involucra el reconocimiento del rostro a través de una RNA. La adquisición de imágenes se realizó a partir de una base de datos que contenía 50 imágenes de 5 personas diferentes (10 imágenes de cada una), sin aplicación de filtros compensadores de luz y movimiento. Las imágenes fueron extraídas de una base de datos de libre acceso, proporcionado por la Universidad de Yale. Estas imágenes fueron llevadas al programa MatLab, en donde se guardaron en forma de matriz.

A. Técnicas de Visión Artificial

Red neuronal backpropagation simulada en MatLab.

El pre-procesamiento con VA es el encargado de acondicionar las imágenes guardadas en la matriz. Comienza con la transformación de las imágenes en tres dimensiones (en color) a imágenes en escala de grises. Seguido de esto, se transforman las imágenes resultantes en imágenes binarias (en blanco y negro) para poder facilitar el reconocimiento del rostro. Para la segmentación de las imágenes, se utilizó el algoritmo de VJ, que realiza la extracción de características específicas del rostro, considerando diferentes zonas de interés, como pueden ser el contorno, los ojos, la nariz, entre otras. Una vez extraído el rostro de las 50 imágenes, estas se redimensionan con un mismo tamaño (80x80 pixeles) y se procede a crear una nueva matriz con todos los rostros.

B. Red Neuronal Artificial

Los datos de la matriz de entrada a la RNA corresponden a la matriz de características con las imágenes ya segmentadas, obtenidas en la última etapa de visión artificial. Del universo de imágenes (50) ya procesadas por la VA, se seleccionan aleatoriamente 35 de ellas, correspondientes al 70%, para ser incluidas en la fase de entrenamiento, mientras que el resto se deja para la fase de pruebas. A estas 35 imágenes, se le agregan dos señales de ruido para aumentar la tolerancia en la etapa de reconocimiento y evitar el uso de filtros de compensación. Luego de esto, se crea una nueva matriz de características que contiene la concatenación de las imágenes originales y las imágenes con ruido. La RNA utilizada es del tipo backpropagation, el cual es un algoritmo de aprendizaje supervisado. El algoritmo de entrenamiento utilizado es el gradiente descendente con rampa de aprendizaje adaptativa, esto debido a su efectividad y capacidad de anticiparse a los sucesos pasados, permitiendo una mayor adaptación frente a los cambios de rostros que se presentan.

Resultados

La VA y la RNA son implementadas mediante la utilización del programa MatLab. Ambas técnicas fueron programas en un computador marca Lenovo con un procesador Intel Core i7 y una memoria RAM de 8GB. La obtención de las imágenes se realizó mediante un algoritmo que seleccionaba cada imagen de la base de datos. En este estudio en particular, las imágenes ya estaban en escala de grises, por lo que los pasos de la VA se reducen a los que se presentan a continuación. El entrenamiento de la red neuronal tardó un poco más de una hora en finalizar, tiempo en el cual realizó un total de mil iteraciones y el performance alcanzó un valor de 0.00132. Este resultado se considera satisfactorio, por lo que se procede a simular la RNA y presentar su salida mediante una HMI.

Reconocimiento de persona con mayor similitud (25.6%).

Para analizar el funcionamiento del sistema, se realizaron 15 pruebas con las imágenes que no participaron en la etapa de entrenamiento del presente sistema de identificación. El umbral para que puedan ser reconocidos es de un 5%. Por lo tanto, bajo este valor aparecerá como desconocido. De las 15 pruebas se reconocieron 12 imágenes, teniendo el sistema una confiabilidad de un 80%.

Conclusión

El reconocimiento facial a partir de un algoritmo por etapas, que combina técnicas de VA (pre-procesamiento) y RNA (identificación) se ha desarrollado con éxito, permitiendo la validación del sistema con imágenes desconocidas (tanto con fotos de las mismas personas del set de entrenamiento como con imágenes de personas ajenas a este).

Para comparar los resultados obtenidos con investigaciones ya realizadas, nos remitiremos a los presentados en el estado del arte, donde se alcanza una tasa de acierto entre 76,6% y 100%. Sin embargo, estos resultados corresponden a distintas aplicaciones y no especifican la robustez frente a cambios inesperados en las imá- genes, la cual es la principal contribución del presente paper.

Se espera en un futuro próximo, incluir también mayores complejidades en el sistema de identificación, como mayor cantidad de imágenes y perturbaciones tales como giros, movimientos, entre otras.

Por William Leonardo Gutiérrez Pezoa, Universidad Tecnológica de Chile, Inacap. Artículo gentileza del Comité de Educación Superior AIE.