Metodología CRISP-DM Parte 2

09 Jun, 2016

Por nuestra SmartB María Victoria Díaz

En el post anterior te mostré hasta la fase número 2 de la Metodología CRISP-DM , comprensión de los datos, hoy veremos las fases 3 y 4.

 Si quieres ver la parte 1 puedes hacerlo AQUI

3. Fase de preparación de los datos

En esta fase y una vez efectuada la recolección inicial de datos, se procede a su preparación para adaptarlos a las técnicas de Data Mining que se utilicen posteriormente, tales como técnicas de visualización de datos, de búsqueda de relaciones entre variables u otras medidas para exploración de los datos.

La preparación de datos incluye las tareas generales de selección de datos a los que se va a aplicar una determinada técnica de modelado, limpieza de datos, generación de variables adicionales, integración de diferentes orígenes de datos y cambios de formato.

mv5

Figura 5. Fase de preparación de los datos.

Esta fase se encuentra relacionada con la fase de modelado, puesto que en función de la técnica de modelado elegida, los datos requieren ser procesados de diferentes formas.

Es así que las fases de preparación y modelado interactúan de forma permanente.

La figura 5, ilustra las áreas de que se compone ésta, e identifica sus salidas. Una descripción de las tareas involucradas en esta fase es la siguiente: 

Selección de datos

En esta etapa, se selecciona un subconjunto de los datos adquiridos en la fase anterior, apoyándose en criterios previamente establecidos en las fases anteriores:

Calidad de los datos en cuanto a completitud

Corrección de los datos y limitaciones en el volumen o en los tipos de datos que están relacionadas con las técnicas de DM seleccionadas.

Limpieza de los datos

Esta tarea complementa a la anterior, y es una de las que más tiempo y esfuerzo consume, debido a la diversidad de técnicas que pueden aplicarse para optimizar la calidad de los datos a objeto de prepararlos para la fase de modelación.

Algunas de las técnicas a utilizar para este propósito son:

Normalización de los datos

Discretización de campos numéricos

Tratamiento de valores ausentes

Reducción del volumen de datos  

Estructuración de los datos.

Esta tarea incluye las operaciones de preparación de los datos tales como:

Generación de nuevos atributos a partir de atributos ya existentes

Integración de nuevos registros o transformación de valores para atributos existentes.

Integración de los datos.

La integración de los datos, involucra la creación de nuevas estructuras, a partir de los datos seleccionados, por ejemplo:

Generación de nuevos campos a partir de otros existentes

Creación de nuevos registros

Fusión de tablas campos o nuevas tablas donde se resumen características de múltiples registros o de otros campos en nuevas tablas de resumen.

 Formateo de los datos

Esta tarea consiste principalmente, en la realización de transformaciones sintácticas de los datos sin modificar su significado, esto, con la idea de permitir o facilitar el empleo de alguna técnica de DM en particular, como por ejemplo:

La re ordenación de los campos y/o registros de la tabla o el ajuste de los valores de los campos a las limitaciones de las herramientas de modelación:

Eliminar comas, tabuladores, caracteres especiales, máximos y mínimos para las cadenas de caracteres, entre otros. 

4. Fase de modelado

En esta fase de CRISP-DM, se seleccionan las técnicas de modelado más apropiadas para el proyecto de Data Mining específico.

Las técnicas a utilizar en esta fase se eligen en función de los siguientes criterios:

       Ser apropiada al problema

       Disponer de datos adecuados

       Cumplir los requisitos del problema

       Tiempo adecuado para obtener un modelo

       Conocimiento de la técnica

mv6

Figura 6. Fase del modelado.

Previamente al modelado de los datos, se debe determinar un método de evaluación de los modelos que permita establecer el grado de bondad de ellos.

Después de concluir estas tareas genéricas, se procede a la generación y evaluación del modelo.

Los parámetros utilizados en la generación del modelo, dependen de las características de los datos y de las características de precisión que se quieran lograr con el modelo.

La figura 6 ilustra las tareas y resultados que se obtienen en esta fase. Una descripción de las principales tareas de esta fase es la siguiente:

Selección de la técnica de modelado.

Esta tarea consiste en la selección de la técnica de DM más apropiada al tipo de problema a resolver.

Para esta selección, se debe considerar el objetivo principal del proyecto y la relación con las herramientas de DM existentes.

Por ejemplo, si el problema es de clasificación, se podrá elegir de entre árboles de decisión, k-nearest neighbour o razonamiento basado en casos (CBR); si el problema es de predicción, análisis de regresión, redes neuronales; o si el problema es de segmentación, redes neuronales, técnicas de visualización, etc.

 Generación del plan de prueba.

Una vez construido un modelo, se debe generar un procedimiento destinado a probar la calidad y validez del mismo.

Por ejemplo, en una tarea supervisada de DM como la clasificación, es común usar la razón de error como medida de la calidad.

Entonces, típicamente se separan los datos en dos conjuntos, uno de entrenamiento y otro de prueba, para luego construir el modelo basado en el conjunto de entrenamiento y medir la calidad del modelo generado con el conjunto de prueba.

Construcción del Modelo

Después de seleccionada la técnica, se ejecuta sobre los datos previamente preparados para generar uno o más modelos. Todas las técnicas de modelado tienen un conjunto de parámetros que determinan las características del modelo a generar. La selección de los mejores parámetros es un proceso iterativo y se basa exclusivamente en los resultados generados. Estos deben ser interpretados y su rendimiento justificado. 

Evaluación del modelo

En esta tarea, los ingenieros de DM interpretan los modelos de acuerdo al conocimiento preexistente del dominio y los criterios de éxito preestablecidos. Expertos en el dominio del problema juzgan los modelos dentro del contexto del dominio y expertos en Data Mining aplican sus propios criterios (seguridad del conjunto de prueba, perdida o ganancia de tablas, entre otros).

                                                                                                                            

Metodología CRISP-DM Parte 3