Ideas Centrales

Palabras clave (en inglés)

  • Process Supervision
  • Process Data Mining, Visual Data Mining
  • Dimensionality Reduction
  • Fault Detection and Identification
  • Neural Networks
  • Self Organizing Maps (SOM)
  • Radial Basis Functions (RBF)
  • Kernel Regression
  • Digital Signal Processing (DSP)

Resumen

Mi principal interés reside en la supervisión, monitorización y análisis exploratorio de procesos complejos, utilizando técnicas de visualización basadas en reducción de la dimensionalidad. La idea de este enfoque es que las características más importantes de un proceso pueden ser representadas en un plano o "mapa del proceso", que representa todos los estados posibles de dicho proceso. 

Dicho mapa (mudo, en principio) puede "cartografiarse", definiendo regiones y etiquetándolas a partir de conocimiento previo disponible en distintas formas (modelos, sistemas de inferencia borrosa, correlaciones conocidas entre variables, etc.). Una vez "cartografiado", el mapa constituye una representación muy compacta y visual, que nos facilita tanto el entendimiento del proceso como la monitorización de su estado.

Visualización de Procesos Complejos

Un proceso industrial, económico, biomédico..., es algo con estructura, no totalmente aleatorio, que genera datos que contienen información acerca de esa estructura. Dos objetivos comunes son:
  • Conocer esa estructura
  • Aplicar el conocimiento de esa estructura para
    • determinar el estado (monitorización)
    • para llevarlo a donde queremos (control)
    • o simplemente para conocerlo mejor (modelado, exploración, process data mining)
En procesos complejos, en los que se desconoce -o se conoce superficialmente- un modelo de esa estructura, son necesarios métodos que permitan arrojar luz sobre el proceso a partir de la información presente en los datos, permitiendo además utilizar conocimiento disponible en otras formas tales como reglas empíricas, modelos parciales del proceso, etc. 

Uno de los enfoques para afrontar este problema son las técnicas de visualización de datos. Aproximadamente un 40% de la actividad cerebral está relacionada con la visión y una visualización de datos adecuada puede explotar las capacidades de que dispone el cerebro (capacidades preatentivas) para encontrar de forma automática patrones complejos en imágenes visuales.

Reducción de la Dimensionalidad.

Una forma muy eficiente de visualizar datos multidimensionales son las técnicas de reducción de la dimensionalidad. Este tipo de técnicas consiste en la definición de mapas o proyecciones del espacio de alta dimensión en un espacio visualizable (2D-3D) preservando la información significativa en relación con el problema a resolver, lo que permite "razonar visualmente" sobre imágenes. 

Este enfoque, radicalmente distinto a las técnicas de clasificación y razonamiento automático, donde se le dan las cosas hechas al usuario, es particularmente útil en el análisis y exploración de datos y procesos complejos. El problema se expone en una forma -representación visual- en la que el humano tiene enormes capacidades, tanto para detección de patrones y regularidades (capacidades preatentivas) como para llevar a cabo razonamientos más abstractos. 

La existencia de un mapa uno a uno con el espacio original de los datos, permite "conectar" distintas formas de conocimiento apriorístico, típicamente basadas en propiedades o modelos válidos en el espacio original, con la representación visual, con lo que el usuario puede también "visualizar" dichos conocimientos y utilizarlos en su razonamiento.

Generación y Visualización de residuos físicamente interpretables

Una idea muy reciente en la que estoy trabajando es la generación de residuos físicamente interpretables mediante el uso de modelos autoasociativos basados en el soporte de los datos. Generalmente, los residuos se definen como la diferencia entre las variables de un proceso y sus valores estimados de acuerdo con un modelo. Las técnicas de analisis de residuos se utilizan desde hace tiempo, sin embargo, requieren métodos de clasificación posteriores que a su vez requieren conocimiento apriorístico del proceso que a veces no se tiene. 

Por generación de residuos "interpretables" se entiende:
  • 1) las variables cuyos residuos se desvían significativamente de cero tienen una relación clara con la causa del fallo (ej. en un paciente con fiebre, la temperatura corporal y el ritmo cardíaco deben dar residuos significativos) y
  • 2) que la magnitud y signo de los residuos guardan una relación lógica con la causa del fallo (la temperatura corporal y el ritmo cardíaco deben dar residuos positivos y con valores plausibles ej. temperatura +2 grados y ritmo cardiaco +10 pulsos/min)
Si se consigue este grado de "interpretabilidad", una visualización eficiente de los residuos puede convertirlos en una herramienta extremadamente eficaz, no sólo para detectar fallos, sino también para identificarlos al permitir la aplicación de conocimiento previo sobre el proceso.