Metodología CRISP-DM – Parte 1

11 May, 2016

Elaborado nuestra SmartB María Victoria Díaz

Para los proyectos de implementación de minería de datos, SMARTBASE GROUP sigue una metodología que se ha convertido en un estándar en la industria, se trata de la Metodología CRISP-DM  (correspondiente a las siglas en inglés de “Cross-Industry Standard Process for Data Mining”).

mv1

Figura 1. Esquema de los 4 niveles de la Metodología CRISP-DM ([CRISP-DM, 2000]).

Los objetivos de esta metodología son:

– Aplicar y comprender de mejor manera a la Minería de Datos y sus resultados basándose en un proceso jerárquico.
– Dar cumplimiento de objetivos desde el punto de vista empresarial dando preferencia a la comprensión del negocio.
– Desarrollar proyectos de minería de datos mediante un proceso estandarizado.
– Minimizar los costos que implica un proyecto de minería de datos en las empresas

La metodología CRISP-DM , está dividida en 4 niveles de abstracción organizados de forma jerárquica, en tareas que van desde el nivel más general, hasta los casos más específicos y organiza el desarrollo de un proyecto de Data Mining, en una serie de seis fases, como se muestran a continuación:

La sucesión de fases no es necesariamente rígida.

Cada fase es estructurada en varias tareas generales de segundo nivel.

Las tareas generales se proyectan a tareas específicas, donde finalmente se describen las acciones que deben ser desarrolladas para situaciones específicas:

Figura 2. Modelo de proceso de la Metodología CRISP–DM ([CRISP-DM, 2000])

A continuación se describen las dos primerass fases del CRISP-DM.

1. Fase de comprensión del negocio o problema

La primera fase de la guía de referencia de la Metodología CRISP-DM , denominada fase de comprensión del negocio o problema (ver figura 3).

Probablemente la más importante, aglutina las tareas de comprensión de los objetivos y requisitos del proyecto desde una perspectiva empresarial o institucional, debido a que convierte en objetivos técnicos y en un plan de proyecto.

Sin lograr comprender dichos objetivos, ningún algoritmo por muy sofisticado que sea, permitirá obtener resultados fiables.

Por lo tanto para obtener el mejor provecho de Data Mining, es necesario entender de la manera más completa el problema que se desea resolver, esto permitirá recolectar los datos correctos e interpretar correctamente los resultados.

Una descripción de cada una de las principales tareas que componen esta fase es la siguiente:

Determinar los objetivos del negocio.

Esta es la primera tarea a desarrollar y tiene como metas, determinar cuál es el problema que se desea resolver, por qué la necesidad de utilizar Data Mining y definir los criterios de éxito.

Los problemas pueden ser diversos como por ejemplo, detectar fraude en el uso de tarjetas de crédito, detección de intentos de ingreso indebido a un sistema, asegurar el éxito de una determinada campaña publicitaria, entre otros.

En cuanto a los criterios de éxito, estos pueden ser de dos tipos:

Cualitativo, en cuyo caso un experto en el área de dominio, califica el resultado del proceso de DM.

Cuantitativo, por ejemplo la respuesta de clientes ante la introducción de una nueva tarjeta de crédito.

mv3

Figura 3. Fase de compresión del negocio o problema

Evaluación de la situación.

En esta tarea se debe calificar el estado de la situación antes de iniciar el proceso de DM, considerando:

¿Cuál es el conocimiento previo disponible acerca del problema?

¿Se cuenta con la cantidad de datos requerida para resolver el problema?

¿Cuál es la relación coste beneficio de la aplicación de DM?

En esta fase se definen los requisitos del problema, tanto en términos de negocio como en términos de Data Mining.

Determinación de los objetivos de DM.

Esta tarea tiene como objetivo representar los objetivos del negocio en términos de las metas del proyecto de DM, como por ejemplo, si el objetivo del negocio es el desarrollo de una campaña publicitaria para incrementar la asignación de créditos hipotecarios, la meta de DM será por ejemplo, determinar el perfil de los clientes respecto de su capacidad de endeudamiento.

Producción de un plan del proyecto.

Finalmente esta última tarea de la primera fase de CRISP-DM, tiene como meta desarrollar un plan para el proyecto, con los pasos a seguir y las técnicas a emplear.


2. Fase de comprensión de los datos

La segunda fase (figura 4), fase de comprensión de los datos, comprende la recolección inicial de datos, con el objetivo de establecer un primer contacto con el problema, familiarizándose con ellos, identificar su calidad y establecer las relaciones más evidentes que permitan definir las primeras hipótesis.

Esta fase junto a las próximas dos fases, son las que demandan el mayor esfuerzo y tiempo en un proyecto de DM.

Por lo general si la organización cuenta con una base de datos corporativa, es deseable crear una nueva base de datos ad-hoc al proyecto de DM.

Debido a que durante el desarrollo del proyecto, probablemente se generen frecuentes y abundantes accesos a la base de datos a objeto de realizar consultas y probablemente modificaciones, lo cual podría generar muchos problemas.

mv4

Figura 4. Fase de comprensión de los datos.

Las principales tareas a desarrollar en esta fase del proceso son:

Recolección de datos iniciales.

La primera tarea en esta segunda fase, es la recolección de los datos iniciales y su adecuación para el futuro procesamiento.

Esta tarea tiene como objetivo sobretodo:

Elaborar informes con una lista de los datos adquiridos

Su localización

Las técnicas utilizadas en su recolección

Los problemas y soluciones inherentes a este proceso.

Descripción de los datos.

Después de adquiridos los datos iniciales, estos deben ser descritos.

Este proceso involucra establecer volúmenes de datos, su identificación, el significado de cada campo y la descripción del formato inicial.

Exploración de datos.

A continuación, se procede a su exploración, cuyo fin es encontrar una estructura general para los datos.

Esto involucra la aplicación de pruebas estadísticas básicas, que revelen propiedades en los datos, se crean tablas de frecuencia y se construyen gráficos de distribución.

La salida de esta tarea es un informe de exploración de los datos.

Verificación de la calidad de los datos.

En esta tarea, se efectúan verificaciones sobre los datos, para determinar la consistencia de los valores individuales de los campos, la cantidad y distribución de los valores nulos, también para encontrar valores fuera de rango, los cuales pueden constituirse en ruido para el proceso.

En conclusión la idea en este punto, es asegurar la completitud y corrección de los datos.

Artículos relacionados

Metodología CRISP-DM – Parte 2

Metodología CRISP-DM – Parte 3