Iconografía de las correlaciones
La iconografía de las correlaciones, uno de los métodos de análisis de datos, consiste en reemplazar una matriz de correlación por un esquema o grafo donde las correlaciones «notables» son representadas por un trazo continuo (correlación positiva), o un trazo punteado (correlación negativa).
A partir de un cuadro de datos (por ejemplo, una hoja de cálculo) que contiene columnas («variables») y líneas («observaciones» de estas variables), la iconografía de las correlaciones elimina las «falsas buenas correlaciones» entre estas variables, esto es, las que se deben a una tercera variable, y detecta las correlaciones «enmascaradas». El «esquema» final, que presenta solo los vínculos directos entre las variables cualitativas y\o cuantitativas, es un medio de percibir de una ojeada lo esencial, sobre una figura única, quitando las redundancias.
¿Qué es una correlación «notable»?
editarUna correlación no tiene sentido aisladamente. Recíprocamente una correlación escasa no implica la ausencia de vínculo.
- Ejemplo 1 : las variables A y C se correlacionan fuertemente porque sus variaciones son vinculadas las dos a una variable X. En realidad no hay vínculo AC, sino un vínculo XA y un vínculo XC. En otros términos, la correlación entre A y C es redundante, y desaparece, cuando X es mantenido constante (hablamos de correlación parcial escasa con relación a X). Lo deducimos del esquema de las solas correlaciones notables :
- Ejemplo 2 : la variable Y depende de varias variables C, D, E, F y G independientes. También la correlación de Y con cada una de ellas, consideradas por separado, es escasa (no "significativa" con sentido probabilista del término). En realidad, existen unos vínculos rigurosos CY, DY, EY, FY y GY. Lo deducimos el esquema de las correlaciones notables :
Selección de los vínculos notables
editarIlustrémosla sobre un pequeño ejemplo: en el momento de un control matemático de un nivel de clase de tercer año de bachillerato, ocho alumnos del primer año al último curso, cuyo peso, la edad y la asiduidad conocemos, obtuvieron las notas siguientes:
Alumno | Peso | Edad | Asiduidad | Nota |
---|---|---|---|---|
e1 | 52 | 12 | 12 | 5 |
e2 | 59 | 12,5 | 9 | 5 |
e3 | 55 | 13 | 15 | 9 |
e4 | 58 | 14,5 | 5 | 5 |
e5 | 66 | 15,5 | 11 | 13,5 |
e6 | 62 | 16 | 15 | 18 |
e7 | 63 | 17 | 12 | 18 |
e8 | 69 | 18 | 9 | 18 |
Peso | Edad | Assiduidad | Nota | |
Peso | 1 | |||
Edad | 0,885 | 1 | ||
Asiduidad | -0,160 | -0,059 | 1 | |
Nota | 0,774 | 0,893 | 0,383 | 1 |
Coloquemos nuestras cuatro variables al azar sobre el papel, y tracemos uno trazo entre dos de ellas cada vez que su correlación es superior al umbral 0,3 en valor absoluto.
¡A la vista de este esquema, la correlación (peso, nota) = 0.774, relativamente fuerte, da a pensar que el peso tiene más influencia sobre la nota que la asiduidad! Pero, por otra parte, tenemos las correlaciones (peso, edad) = 0,885, y (edad, nota) = 0,893.
A partir de estos 3 coeficientes de correlación total, la fórmula de la correlación parcial da: correlación (peso, nota) a edad constante : = -0,08
¡La correlación entre nota y peso, a edad constante fuertemente bajó (es hasta ligeramente negativa)! De otro término el peso no tiene influencia sobre la nota. Borremos el vínculo entre peso y nota:
En definitiva, un vínculo no es trazado,
- sea porque su correlación total es inferior al umbral, en valor absoluto,
- sea porque existe por lo menos una correlación parcial inferior al umbral, en valor absoluto, o de signo contrario a la correlación total.
No es necesario, aquí, de borrar otros vínculos, como se lo verifica a partir de los valores de otras correlaciones parciales:
- Correlación (peso, nota) a asiduidad constante = 0,92
- Correlación (edad, peso) a nota constante = 0,68
- Correlación (edad, peso) a asiduidad constante = 0,89
- Correlación (edad, nota) a peso constante= 0,71
- Correlación (asiduidad, peso) a nota constante = -0,78
- Correlación (asiduidad, peso) a edad constante = -0,23
- Correlación (asiduidad, nota) a peso constante = 0,81
- Correlación (asiduidad, nota) a edad constante = 0,97
- Correlación (asiduidad, edad) a peso constante = 0,18
- Correlación (asiduidad, edad) a nota constante = -0,97
Instantes notables del análisis
editarLos datos disponibles permiten llevar más lejos el análisis.
Podemos considerar en efecto cada línea como un «instante» del análisis, caracterizado por una variable indicadora igual a 1 en el instante de la línea considerada, y a 0, en otro caso:
Alumno | Peso | Edad | Asiduidad | Nota | e1 | e2 | e3 | e4 | e5 | e6 | e7 | e8 |
---|---|---|---|---|---|---|---|---|---|---|---|---|
e1 | 52 | 12 | 12 | 5 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
e2 | 59 | 12,5 | 9 | 5 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0 |
e3 | 55 | 13 | 15 | 9 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 |
e4 | 58 | 14,5 | 5 | 5 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 |
e5 | 66 | 15,5 | 11 | 13,5 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 |
e6 | 62 | 16 | 15 | 18 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 0 |
e7 | 63 | 17 | 12 | 18 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 0 |
e8 | 69 | 18 | 9 | 18 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 1 |
Aunque los «instantes» llevan los mismos nombres que los alumnos, hay que recordar que las alumnas son unas líneas (observaciones), mientras que los instantes son unas columnas, que forman parte de las «variables», con el mismo título que las 4 primeras columnas.
Podemos pues adoptar el mismo criterio de trazado de los vínculos para los "instantes" y las variables originales. No obstante, para no agravar el esquema, dibujemos solamente los «instantes» vinculados a una variable por lo menos («instantes notables»).
Los «instantes» son representados por un triángulo, para que se puedan distinguir de las variables originales, que son representadas por un cuadrado.
- Con relación al esquema precedente, el vínculo entre nota y asiduidad desapareció, reemplazó por los vínculos (Nota, e6) y (Asiduidad, e6) . Era pues redundante: el alumno e6, muy asiduo y bien anotado, le explica a solas el vínculo (Nota, Asiduidad) .
- El alumno e3 tiene asiduidad notablemente fuerte, y el alumno e4 asiduidad notablemente escasa (trazo punteado).
Un vínculo es dicho «notable» cuando otros vínculos presentes sobre la figura no bastan con explicarlo.
- El alumno e6 tiene en efecto una nota «notable»: 18/20.
- Los alumnos e7 y e8 que tienen, también, 18/20, no son notables: no aparecen sobre el esquema, porque, más de edad, sus nota es ya explicada por el vínculo (edad, anota).
- Del mismo modo, podemos verificar sobre los datos, que e5 tiene un peso notablemente fuerte para su edad (con relación a los 8 alumnos de la población estudiada); mientras que el alumno e1 tiene un peso notablemente escaso para su edad.
Los vínculos entre cuadrados (variables - variables) subrayan las leyes generales; los vínculos cuadrado-triángulo (variable - instante) subrayan los acontecimientos raros.
Algoritmo de la iconografía de las correlaciones
editarEl principio de la iconografía de las correlaciones es bastante simple para permitir un trazado manual, si el cuadro de datos es pequeño. Si no, hay que recurrir a un programa que contiene, en entrada, la matriz de correlación y el umbral escogido (por ejemplo 0,3). He aquí el algoritmo:
- Para evitar las redundancias, el vínculo AB es trazado si y solamente si la correlación total r(A,B) es superior al umbral en valor absoluto, y si las correlaciones parciales r(A,B), con relación a una variable Z, son superiores al umbral, en valor absoluto, y con lo mismo signo que la correlación total, para todo Z entre las variables disponibles, incluido los «instantes».
Este criterio de trazado es estricto, y garantiza la selección de los vínculos notables.
Las variables pueden ser cuantitativas y\o cualitativas (siempre y cuando estas últimas utilicen una codificación disyuntiva completa).
Posición de los puntos sobre el papel
editarEl ejemplo anterior mostró dos tipos de puntos: las variables (cuadrados), y los «instantes» (triángulos). Una vez encontrados los vínculos entre estos elementos, positivos (trazos continuos) o negativos (trazos punteados), solo queda dibujarlos sobre el papel.
Toda libertad de posicionamiento es dejada al analista, ya que la interpretación depende de vínculos y no de posiciones.
En lo posible, hay que evitar los cruces inútiles entre vínculos, molestando para la lectura. El esquema siguiente, por ejemplo, es menos legible que el precedente, aunque la interpretación sea la misma (vínculos idénticos):
Varias técnicas pueden ser utilizadas para colocar los puntos de modo automático.
Un primer enfoque consiste en proyectar la nube de puntos de las variables sobre los dos primeros ejes de un análisis de los componentes principales. Pero las proyecciones no son adaptadas siempre a una buena legibilidad cuando hay muchos componentes principales estadísticamente significativos, y particularmente en caso de mezcla de variables cualitativas y cuantitativas.
Otro enfoque consiste en sacar partido de la interpretación geométrica del coeficiente de correlación (coseno), y en dibujar el esquema a la superficie de una esfera a 3 dimensiones.
- Al siendo el arco-coseno de la correlación una distancia angular, dos puntos serán tanto más próximos sobre la esfera cuanto serán correlacionados más (positivamente). A la inversa la distancia angular entre dos puntos que se correlacionan negativamente es un ángulo obtuso; si la correlación vale -1, los puntos son opuestos sobre la esfera (ángulo 180°).
- Se trata, desde luego, de un mal menor, porque la esfera efectiva no está a 3 dimensiones, sino a n dimensiones. Si pues dos puntos que se correlacionan mucho forzosamente son próximos sobre el dibujo, lo inverso no está segura: dos puntos muy próximos sobre el dibujo no se correlacionan forzosamente. No obstante, la ausencia de vínculo trazado levanta la ambigüedad.
Podríamos contemplar muchos otros modos de elección de las posiciones: el más utilizado consiste en escoger como distancia angular el arco-coseno del valor absoluto de la correlación. Así, los puntos que se correlacionan negativamente no son opuestos sobre la esfera, y el vínculo punteado es más corto y atesta menos el esquema
- En práctica, en un enfoque software, una primera variable A es dibujada dondequiera sobre la esfera. Luego la variable B que se correlacionan menos a esta primera es puesta sobre la esfera a la distancia arco-coseno(r(A,B)) de la primera. Colocamos entonces, por triangulación, la variable C la menos correlacionada con ambas primeras. Otros puntos son puestos poco a poco. Si la cuarta variable tiene una correlación nula con las tres primeras, no es materialmente posible asignarle una posición exacta. Las distancias son vueltas a calcular de modo proporcional a los valores efectivos. Al cabo de un cierto tiempo, la posición de los primeros puntos es vuelta a calcular según los siguientes. Etc. Así, la figura progresivamente es reajustada.
Elección del umbral
editarEl umbral puede variar entre 0 y 1. Un vínculo es trazado si, no solamente la correlación total pero además todas las correlaciones parciales correspondientes son superiores al umbral en valor absoluto y del mismo signo. Esta condición es severa, y los vínculos que subsisten son ricos, en general, en información.
Aumentar el valor del umbral disminuye el número de vínculos, y clarifica la figura, pero disminuye también la información, sobre todo cuando la variable de interés depende de varias variables independientes.
Es a menudo preferible tomar un umbral bastante bajo. Luego, si la figura completa es demasiado prolija, se puede dibujar sólo los vínculos a la variable de interés.
Por ejemplo, cuando se aborda nuevos datos, y cuando no se sabe cual umbral escoger, podremos comenzar por:
- un umbral = 0.3 para un análisis de datos;
- un umbral = 0.1 para el análisis de los resultados de un diseño de experimentos. En este caso en efecto, todos los factores son controlados, y podemos permitirnos no dibujar los "instantes" (a priori notables por construcción del plano), lo que alivia la figura;
- un umbral = 0.01, o menos, podrá hasta ser escogido cuando la tabla de datos comprende varias centenas de observaciones.
En nuestro ejemplo, hasta el umbral nulo, el vínculo (peso, nota) no es trazado, porque la correlación parcial con relación a la edad está con signo contrario a la correlación total. Pero el vínculo (asiduidad, nota) aparece, y hay más instantes notables.
Organización de los vínculos
editarLa Iconografía de las Correlaciones pretende poner en evidencia la organización de los vínculos, que puede ser cerrada tanto como jerárquica o continuamente repartida.
La ausencia de eje, cualquiera que sea la dimensión del problema permite reemplazar una multitud de proyecciones bidimensionales por una imagen única, o lo esencial aparece de una ojeada.
Retirada de una influencia evidente
editarEs común, en análisis de datos, disponer de una variable Z cuya influencia, preponderante, y ya bien conocida, enmascara fenómenos más finos que procuramos descubrir.
La solución consiste en trazar el esquema, no de la matriz de correlación total, pero de la matriz de las correlaciones parciales con relación a Z, con el fin de retirar toda influencia lineal de Z si existe allí (creciente o decreciente) sobre otras variables. El esquema revela entonces otra organización, abstracción hecha las variaciones de Z.
Por ejemplo, retiremos el componente de la edad, cuya influencia, preponderante, es bien conocida. El esquema revela entonces la influencia directa de la asiduidad sobre la nota. La edad desapareció de la figura, así como su componente en todas las variables. Y el peso se encuentra aislado.
En una tabla de datos que contiene más variables puede ser interesante retirar varias influencias (el resultado no depende del orden en el cual son retirados).
Interacciones lógicas notables
editarLo mismo que los «instantes» son añadidos, más arriba, a la tabla inicial, como de nuevas columnas, lo mismo, podemos añadir otras columnas, por ejemplo funciones de las variables iniciales, en particular las interacciones lógicas, que son unos acoplamientos de variables.
El número de columnas suplementarias importa poco, con tal que se añada sobre el esquema sólo a las que serán vinculadas a uno por lo menos variables iniciales, con el fin de no agravar inútilmente la figura.
Por ejemplo, en respuesta al añadido de nuevas columnas que corresponde a "y" lógica entre dos variables cualquiera, sólo la interacción «Edad&Asiduidad» directamente parece vinculada a la nota :
La interacción lógica aporta algo además a la interpretación (habida cuenta, por supuesto, del pequeño número de variables explicativas disponibles en este ejemplo): para obtener una buena nota no basta con tener mayor edad, hay que también ser asiduo a la clase.
Base de conocimiento asociada con esquema
editarLos vínculos del esquema pueden ser descritos de la manera siguiente: a cada vínculo trazado, asociemos una regla del tipo SI … ENTONCES, seguida por el valor del coeficiente de correlación total, precedido por uno «*» si el vínculo es trazado, y de «?» si el vínculo no es trazado, porque «dudoso» (el valor de la correlación es superior al umbral a causa de una sola observación).
- SI Peso ENTONCES Edad *.885
- SI Edad ENTONCES Peso *.885
- SI Edad ENTONCES Nota *.893
- SI Nota ENTONCES Edad *.893
- SI Asiduidad ENTONCES Edad*Asiduidad ?.493
- SI Peso ENTONCES Edad *.885
- SI Nota ENTONCES Edad*Asiduidad *.960
- SI Edad*Asiduidad ENTONCES Nota *.960
- SI .e1 ENTONCES Peso *.610
- SI .e3 ENTONCES Asiduidad *.484
- SI .e4 ENTONCES Asiduidad *.726
- SI .e5 ENTONCES Peso *.395
- SI .e6 ENTONCES Edad*Asiduidad *.597
- Los vínculos entre variables son indicados aquí en ambas direcciones, porque la causalidad no es directamente deducible de la correlación.
- Los vínculos «instantes notables» - variables pueden ser indicadas en una sola dirección, porque la variable emana de su realización en el instante considerado.
Una base de conocimiento puede servir de entrada a un sistema experto; y el utilizador puede enriquecerlo o precisarlo.
- Por ejemplo, es contrario al sentido común decir que la edad depende de una buena nota. No obstante lo inverso puede ser posible. Lo mismo, los niños engordan aumentando, pero no es el peso que hace el número de los años. El utilizador puede pues suprimir las reglas «SI Nota ENTONCES Edad .893», «SI Nota ENTONCES Edad *Asiduidad .960» y «SI Peso ENTONCES Edad .885».
La base de conocimiento así modificado da un esquema donde ciertos vínculos son orientados en lo sucesivo. Podemos aplicarle la Teoría de grafos y sacarlo flujos de informaciones.
Campos de aplicación
editarEl método se aplica en campos múltiples.
Un medio de no olvidar nada de esencial en un cuadro de datos
editarVéase un ejemplo de aplicación a un gran cuadro de datos astronómicos difícil de aprehender de una ojeada.
Mediante iconografía de las correlaciones se puede representar, en una figura única, las relaciones más notables de la tabla anterior de los Planetas principales. Podemos ver las correlaciones más notables (vínculos), ya sean positivas (trazos continuos) o negativas (trazos punteados) entre las distintas variables.
La figura muestra los vínculos más o menos evidentes (como la de la gravedad con la velocidad de escape); y también los vínculos propios de cada planeta. Es un medio de no olvidar nada de esencial en el cuadro de datos. Se indican a continuación algunas de las correlaciones:
- Los planetas con fuerte velocidad orbital (como Mercurio) tienen también una densidad fuerte y una temperatura de superficie fuerte (en particular Vénus).
- La Tierra tiene una inclinación escasa (trazo punteado), mucho O2 en su atmósfera, y fuerte discriminante planetario (trazos continuos).
- Un gran período de rotación corresponde a una inclinación axial escasa y a una excentricidad fuerte.
El análisis de los tableros de mandos
editarEl tablero de mandos de gestión es un medio de pilotaje y de diagnóstico. Constituido por varios indicadores de realización, permite conocer la carga de trabajo, percibir la hipertrofia o atrofias de ejecución de las diferentes tareas, situar las anomalías de funcionamiento, enderezar ciertas situaciones. Sin embargo, habida cuenta de los límites de nuestra memoria, un tablero de mandos debe contener pocas cifras para ser de empleo fácil.
La iconografía de las correlaciones es un medio de analizar un tablero de mandos que tiene muchas cifras, y de explotar verdaderamente todas las informaciones de la empresa. Pudiendo librarse de influencias exteriores (tales como tendencias económicas o decisiones de marketing), permite poner en evidencia la influencia mutua de las tareas, analizar las causas de desviación entre previsión y realización, y, gracias al esquema sintético, traducir rápidamente la información en forma de preconizaciones operacionales claras y bien apoyadas.