Análisis exploratorio de datos

El análisis exploratorio de datos es una forma de analizar datos definido por John W. Tukey (E.D.A.: Exploratory data analysis) es el tratamiento estadístico al que se someten las muestras recogidas durante un proceso de investigación en cualquier campo científico. Para mayor rapidez y precisión, todo el proceso suele realizarse por medios informáticos, con aplicaciones específicas para el tratamiento estadístico. Los E.D.A., no necesariamente, se llevan a cabo con una base de datos al uso, ni con una hoja de cálculo convencional; no obstante el programa SPSS y los lenguajes de programación R y Python son las aplicaciones más utilizadas, aunque no las únicas.

Por ejemplo, en el campo de la Arqueología el análisis técnico de una pieza puede ser simultáneo a la introducción de los datos, bien porque las fichas estén directamente informatizadas o, bien, porque se usen formularios en papel cuyos datos sean fáciles de introducir en el ordenador o computadora. Es posible, incluso, usar en la propia excavación, una serie de PDAs conectados en red inalámbrica instalada en el yacimiento arqueológico, que envíen numerosos datos de campo a una base de datos central que luego se usarán con fines diversos, entre ellos este. Los pasos seguidos en el E. D. A. son básicamente dos:

Medición y descripción de los datos tecnológicos —tipológicos— y dimensiones, por medio de la Estadística descriptiva. Aquí tenemos, por un lado, las medidas de tendencia central (promedios que, en una sola cifra, resumen todos los valores de una muestra: media, mediana y moda son las más habituales) y, por otro, las medidas de dispersión (que calculan hasta qué punto la muestra se agrupa o no en torno a esos promedios). Dentro de este apartado, se ha de procurar, además, calibrar la confianza de las muestras a través de tres estadímetros básicos: la desviación estándar de la muestra, la curtosis y la asimetría.

La siguiente es una tabla de ejemplo:

Estadísticos descriptivos	Longitud	Anchura	Grosor	Peso
Número de Mediciones	383	383	383	383
Error estándar	1%	0,7%	0,7%	8,6%
Medición máxima	142 mm	127 mm	94 mm	1025 g
Medición mínima	29 mm	27 mm	12 mm	16 g
Recorrido	115 mm	98 mm	82 mm	1009 g
Moda	82 mm	60 mm	38 mm	236 g
Mediana	75 mm	61 mm	39 mm	219 g
Rango intercuartil	25 mm	18 mm	17 mm	207 g
Media aritmética	77 mm	62 mm	39 mm	247 g
Desviación estándar	19 mm	14 mm	13 mm	167 g
Coeficiente de variación	25 %	23 %	33 %	68 %
Varianza	376,84	198,67	170,96	27 838,44
Simetría	0,53	0,53	0,48	1,32
Curtosis	0,47	0,83	0,43	2,44

Comparación de los caracteres de una muestra, o de varias muestras diferentes por medio de la Estadística inferencial. Las pruebas más frecuentemente utilizadas comienzan por las más sencillas comparaciones visuales —a través de gráficas como la campana de Gauss, nubes de dispersión o diagramas de caja y arbotantes—, pasando por las socorridas tablas de contingencia (incluido la prueba del χ²), y por los típicos Análisis de Varianza (que no es más que una confrontación muy precisa de los promedios de varias muestras), hasta llegar a los más complejos análisis multivariantes de conglomerados.

Yacimiento 1⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎫
Yacimiento 2⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎫⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎫                      ⎬⎯⎯⎯⎯⎯⎯⎯
Yacimiento 3⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎭                      ⎬⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎭
Yacimiento 4⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎭

Resultados del análisis de mulivariante de conglomerados por el método de Ward efectuado en los ciertos tipos líticos, computando variables tecnológicas. Es un ejemplo real, en él se permite observar la similitud o disparidad de los yacimientos seleccionados en virtud de una serie de parámetros seleccionados por el investigador.

Los cálculos estadísticos orientan sobre la fiabilidad de las muestras usadas, aunque no son infalibles, e indican si los resultados obtenidos al calcular las pruebas inferenciales son aceptables, es lo que llamamos nivel de confianza (se debe procurar que este nunca sea inferior al 95% = 0,95).

Aplicación en la Minería de Datos

En la minería de datos, aunque no es un requisito obligatorio, resulta beneficioso analizar previamente los datos que se utilizarán. Esto permite observar las características fundamentales de los mismos, comprender la estructura del conjunto de datos, identificar la variable objetivo y explorar posibles técnicas de modelado.

Proceso básico

Transformar los datos: Nos sirve para saber que hacer frente a valores nulos, faltantes o datos atípicos. Además de establecer si hay necesidad de reducir la dimensionalidad de datos.
Visualizar: Utilizar alguna herramienta para hacer una representación gráfica de los datos por ejemplo, R, Jupyter notebook, Google Colab, etc.
Analizar e Interpretar: Analizar e interpretar los datos a través de diferentes visualizaciones.
Documentar: Documentar todas las gráficas y estadísticas generadas.

Este proceso nos es útil también al revisar la descripción de los datos para comprender lo que significa cada característica.

Existen varias actividades al hacer un análisis exploratorio de datos pero en cuanto a la minería de datos los puntos clave que se deben realizar son:

Descripción de la estructura de los datos.
Identificación de datos faltantes.
Detección de valores atípicos.
Identificación de relaciones entre pares variables.

Si realizamos de forma correcta los pasos nos facilitaremos el modo de abordar esos datos sin dejar a un lado el objetivo o el propósito para el cual los necesitamos.

Bibliografía

García Barbancho, Alfonso (1973). Estadística elemental moderna. Editorial Ariel SA, Málaga. ISBN 84-334-0121-5.
García Pérez, Alfonso (1992). Estadística aplicada: Conceptos básicos. Universidad Nacional de Educación a Distancia, Madrid. ISBN 84-362-2811-1.
Martín Tabernero, Francisca y Delgado Álvarez, María del Carmen (1993). Estadística aplicada. Tratamiento informático con Stat View 512+. Publicaciones de la Universidad Pontificia, Salamanca. ISBN 84-7299-308-6.
Shennan, Stephen (1992). Arqueología cuantitativa. Editorial Crítica, Barcelona. ISBN 84-7423-529-4.
Siegel, Sidney (1985). Estadística no Paramétrica aplicada a las ciencias de la conducta. Editorial Trillas, México DF. ISBN 968-24-0146-1.

Datos: Q1322871