Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad

Proyecto de Minería de Datos en PLASTICAUCA: Objetivos, Riesgos y Descripción de Datos, Tesis de Minería de Datos

Un proyecto universitario de minería de datos en la empresa plasticauca, donde se utiliza la metodología crisp-dm para mejorar la efectividad de la estrategia de marketing a través de la segmentación precisa de la base de datos de clientes. El documento detalla los objetivos generales, los riesgos, el coste y el beneficio, y la descripción detallada de los datos de la base de datos, incluyendo su verificación y limpieza.

Tipo: Tesis

2015/2016

Subido el 19/01/2024

ana-jaramillo-18
ana-jaramillo-18 🇨🇴

3 documentos

1 / 23

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
TABLA DE CONTENIDO
INTRODUCCIÓN................................................................................................................4
OBJETIVO GENERAL.......................................................................................................6
OBJETIVOS ESPECÍFICOS..............................................................................................6
METODOLOGIA CRISP-DM APLICADA A LA EMPRESA PLASTICAUCA.........7
1. Comprensión del negocio...........................................................................................7
1.1. Determinación de objetivos del negocio...............................................................7
1.2. Valoración de la situación......................................................................................8
1.3. Determinación de los objetivos de minería de datos...........................................9
1.4. Generación de un plan de proyecto......................................................................9
2. Comprensión de los datos........................................................................................10
3. Preparación de los datos..........................................................................................12
4. Modelamiento...........................................................................................................17
4.1. Selección de la técnica..........................................................................................17
4.2 Diseño de los test...................................................................................................18
4.3 Construir el Modelo.............................................................................................19
4.4 Evaluar el modelo.................................................................................................22
BIBLIOGRAFÍA.................................................................................................................24
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17

Vista previa parcial del texto

¡Descarga Proyecto de Minería de Datos en PLASTICAUCA: Objetivos, Riesgos y Descripción de Datos y más Tesis en PDF de Minería de Datos solo en Docsity!

TABLA DE CONTENIDO

  • INTRODUCCIÓN
  • OBJETIVO GENERAL
  • OBJETIVOS ESPECÍFICOS
  • METODOLOGIA CRISP-DM APLICADA A LA EMPRESA PLASTICAUCA
      1. Comprensión del negocio
    • 1.1. Determinación de objetivos del negocio
    • 1.2. Valoración de la situación.
    • 1.3. Determinación de los objetivos de minería de datos.
    • 1.4. Generación de un plan de proyecto.
      1. Comprensión de los datos
      1. Preparación de los datos
      1. Modelamiento
    • 4.1. Selección de la técnica
    • 4.2 Diseño de los test
    • 4.3 Construir el Modelo
    • 4.4 Evaluar el modelo
  • BIBLIOGRAFÍA
  • Tabla 1 Plan de Proyecto........................................................................................................ CONTENIDO DE TABLAS E ILUSTRACIONES
  • Tabla 2 Descripción de los Datos.........................................................................................
  • Ilustración 1 Base de Datos...................................................................................................
  • Ilustración 2 Descripción de datos........................................................................................
  • Ilustración 3 Análisis de las Variables..................................................................................
  • Ilustración 4 Limpieza de datos............................................................................................
  • Ilustración 5 Limpieza de datos 2.........................................................................................
  • Ilustración 6 Corrección de errores.......................................................................................
  • Ilustración 7 Construcción de datos......................................................................................
  • Ilustración 8 Integración de datos.........................................................................................
  • Ilustración 9 Integración de datos 2......................................................................................
  • Ilustración 10 Formato de datos............................................................................................
  • Ilustración 11 ecuación k-means...........................................................................................
  • Ilustración 12 ecuación SSE-total.........................................................................................
  • Ilustración 13 ecuación SSE-ratio.........................................................................................
  • Ilustración 14 ecuación SST.................................................................................................
  • Ilustración 15 Organización de los atributos finales.............................................................
  • Ilustración 16 Ajuste de K-means por medio de simulaciones............................................
  • Ilustración 17 Evaluación del modelo con k-optimo............................................................

OBJETIVO GENERAL

Usar la metodología CRISP-DM, para a través de ella mejorar la efectividad de las

estrategias de marketing de la Empresa PLASTICAUCA por medio de la segmentación

precisa de la base de datos de clientes.

OBJETIVOS ESPECÍFICOS

 Determinar las estrategias adecuadas para la Empresa a través del modelamiento de

datos.

 Aplicar técnicas de minería para las bases de datos suministradas.

 Aplicar cada una de las distintas etapas de la metodología CRISP-DM a la base de

datos suministrada por la Empresa.

Indicadores:

 Índice de satisfacción del cliente.

 Número de reclamaciones.

 % de atención a nuevos clientes.

 Comportamiento de salida de productos.

 Promedio de facturación por cada cliente.

 Margen de utilidad.

 Coste de marketing.

1.2. Valoración de la situación.

Para la implementación de este proyecto hemos podido acceder a una base de datos que

contiene registros comerciales de la empresa, con movimientos efectuados en los últimos

10 años, estos insumos nos permitirán analizar la información y alcanzar el objetivo

planteado, dentro de la información que referencia la base de datos, están los siguientes:

Municipio, Año y mes de venta, identificación del cliente, nombres, sexo, edad, categoría

de producto, canales de venta, valor de ventas, entre los más significativos.

La estructura organizacional de PLASTICAUCA se ve amplia en su organigrama, sin

embargo, no cuenta con personal calificado para la implementación de un proyecto de

minería de datos, por tanto, se debe contemplar dentro de la empresa una consultoría

especializada que permita atender esta importante acción.

Para el desarrollo del proyecto no existe dentro de la compañía un software especializado,

por tanto, se hará uso del lenguaje R, que para proceso educativos ofrece las funciones

básicas que permite hacer el análisis planteado.

Riesgos

Implementar minería de datos en PLASTICAUCA es un reto grande debido a que no hay

un software establecido para dicha labor, sumado a ello los hardware existentes en la

compañía no han sido actualizados hace 5 años, por lo que tendremos que utilizar equipos

externos en la etapa de ejecución, esto puede generar desconfianza por parte de la Gerencia

de la empresa.

Costes y beneficios

Por tratarse de un proyecto universitario, en la actualidad la compañía no cuenta con

recursos o presupuesto destinado para la implementación de minería de datos, en cuánto al

beneficio, se espera en relación con los objetivos que la empresa obtenga insumos que le

permitan mejorar la calidad, aumentar su rentabilidad y sostenerse en el tiempo.

1.3. Determinación de los objetivos de minería de datos.

Los objetivos en termino de minería son:

 Predecir las necesidades de los clientes, partiendo de los insumos que representan

sus hábitos de consumo.

 Segmentar los clientes para ajustar el portafolio de acuerdo con la tendencia de

consumo.

 Crear función que me muestre la dinámica de rotación de productos ofrecidos por la

empresa, para fortalecer el portafolio.

 Predecir inventarios necesarios para cada temporada del año.

1.4. Generación de un plan de proyecto.

ETAPA TIEMPO

ESTIMADO

RECURSOS RIESGOS

  1. Comprensión del

negocio

1 semana Todos los

analistas

Cambio económico

  1. Comprensión de los

datos (Análisis de la

estructura y la

información de la

base de datos,

ejecución de

consultas

2 semanas Todos los

analistas

Problemas de datos,

problemas

tecnológicos

  1. Preparación de los

datos (selección,

limpieza, conversión

y formateo, si fuera

necesario)

5 semanas Asesor de minería

de datos, tiempo

de análisis de base

de datos

Problemas de datos,

problemas

tecnológicos

  1. Modelado (Elección

de las técnicas y

ejecución de estas

sobre los datos)

2 semanas Asesor de minería

de datos, tiempo

de análisis de base

de datos

Problemas de

tecnología,

incapacidad para

encontrar un modelo

adecuado

  1. Evaluación (Análisis

de los resultados

obtenidos en la

etapa anterior, si

fuera necesario

repetir la etapa 4)

1 semana Todos los

analistas

Cambio económico,

incapacidad para

implementar

resultados

  1. Despliegue

(Producción de

informes con los

resultados obtenidos

1 semana Asesor de minería

de datos, tiempo

de análisis de base

de datos

Cambio económico,

incapacidad para

implementar

resultados

Recolección de datos: Recolectar datos iniciales de la Empresa PLASTICAUCA y

adaptarlos a las necesidades del proyecto para su posterior procesamiento. Para ellos

contamos con una base de datos con el registro de 32.422 registros de clientes.

Descripción de los datos: La información que contiene la base de datos detalla las

siguientes categorías; municipio, mes, año, documento, primer nombre, segundo

nombre, primer apellido, segundo apellido, sexo, edad, rango de edad, etnia,

categoría del producto, canal de venta, valor de ventas.

De igual manera haciendo referencia a la descripción de los datos, se analizan las variables

precisas necesarias para el proyecto en curso, esto con el fin de dar propósito al estudio de

minería en mención en donde se busca determinar los picos altos y bajos en las ventas, y

productos con mayor rotación en los últimos años, así mismo la clasificación de productos,

para interpretar sus ventas, segmentación de clientes y ventas totales.

Ilustración 1 Base de Datos

Ilustración 2 Descripción de datos

Ilustración 3 Análisis de las Variables

Verificación de los datos: Una vez realizada la exploración de los datos se puede

afirmar que los datos de la base de datos son completos, cada uno de los datos

cubren las necesidades ante la obtención de los resultados para satisfacer los

objetivos del proyecto a desarrollar.

Exploración de datos: A través de la información que podemos visualizar en la

Base de Datos, se pueden generar diferentes exploraciones de los datos, esto implica

aplicación de pruebas de estadísticas básicas las cuales revelan las propiedades de

los datos, permitiendo determinar si existen faltantes fundamentales, la calidad, las

relaciones, y también es donde se efectúan análisis exploratorios hipotéticos.

3. Preparación de los datos

Conjunto de Datos:

Comenzaremos por recolectar los datos relevantes para nuestros objetivos, que incluyen

información de clientes, historial de compras, preferencias, datos de inventario, datos de

ventas, entre otros. Estos datos pueden provenir de bases de datos internas, sistemas de

ventas, encuestas, entre otros.

Descripción de los datos:

CAMPO DESCRIPCIÓN TIPO DE DATO SUGERIDO

Municipio Municipio de

residencia del cliente

Cadena de Texto

Mes Mes de la transacción Fecha (Mes)

Año Año de la transacción Entero

Municipio:

Útil para análisis geográficos y para adaptar la estrategia de marketing a ubicaciones

específicas.

Canal de Venta:

Ayuda a identificar cómo los clientes interactúan con la empresa.

Limpieza de datos:

La base de datos proporcionada por la empresa PLASTICAUCA presenta reportes de

ventas desde el año 2003 y tiene 32,422 registros de clientes.

Por lo anterior la limpieza de datos que se realizó fueron las siguientes:

Se Verificaron y trataron los valores faltantes en los campos relevantes, como Ventas, Sexo

o Edad. Se utilizaron técnicas de imputación para completar los datos faltantes de manera

adecuada.

Se eliminaron los caracteres especiales encontrados dentro de la base de datos.

Ilustración 4 Limpieza de datos............................................................................................

Ilustración 2 Descripción de datos........................................................................................

Nos aseguramos de que los datos temporales (como Año y Mes) sigan un formato válido y

coherente. Se verifico la integridad de las fechas y se corrigieron los errores presentados.

Ilustración 6 Corrección de errores.......................................................................................

Se normalizaron los datos, como los campos de texto, como nombres y apellidos, para

asegurarnos de que sigan un formato consistente. Verificamos que la información de

Ventas sea consistente con la información de Categoría Producto y Canal de Venta.

Estandarizamos campos de texto, como categorías de productos o municipios, para evitar

ambigüedades en los datos.

Construir Datos:

El atributo derivado que se maneja en la base de datos se usó para calcular el rango de edad

de los clientes de acuerdo con la edad, aquí se define si los clientes se encuentran entre la

categoría de adolescentes, jóvenes, adultos y/o mayores de 60.

Ilustración 5 Limpieza de datos 2.........................................................................................

Integrar datos:

La base de datos contenía el nombre y apellido en columnas separadas.

Ilustración 8 Integración de datos.........................................................................................

4. Modelamiento

La etapa de modelamiento marca un punto crucial en nuestro proyecto de mejora de

estrategias de marketing para PLASTICAUCA. Aquí, traduciremos datos en conocimiento

valioso mediante técnicas y modelos, buscando comprender a fondo a nuestros clientes y

anticipar sus necesidades. A través de este proceso, buscaremos segmentar a nuestros

clientes de manera efectiva y predecir su comportamiento, permitiéndonos diseñar

estrategias de marketing más personalizadas y efectivas.

4.1. Selección de la técnica

La elección de la técnica de clúster se basa en una evaluación integral que considera los

objetivos generales y específicos del proyecto, así como la observación detallada de los

datos proporcionados por PLASTICAUCA. En lugar de optar por técnicas de clasificación

tradicionales, hemos decidido utilizar la segmentación como enfoque principal. Esta

elección se sustenta en la necesidad de la empresa de mejorar la efectividad de sus

estrategias de marketing y en la diversidad de la base de datos que manejamos.

Al optar por la segmentación, buscamos crear segmentos homogéneos de clientes. Estos

grupos permitirán una adaptación precisa de las estrategias de marketing para atender las

cambiantes necesidades de los clientes. Es importante destacar que nuestra decisión de

emplear segmentación nos lleva a descartar las técnicas de clúster jerárquico, ya que

nuestro objetivo es formar grupos independientes en lugar de estructuras jerárquicas.

Esta selección nos posiciona de manera efectiva para mejorar la eficacia de nuestras

estrategias comerciales, ya que nos permite abordar de manera más precisa las distintas

demandas y preferencias de los clientes.

Para ser más precisos, emplearemos la técnica de Clusterización K-means. La fórmula

matemática de K-means se expresa como:

min

S

i = 1

k

x∈ S i

| xμ

i

2

= min

S

i = 1

k

S

i

Var

S

i

Ilustración 11 ecuación k-means...........................................................................................

Donde:

k es el número de clústeres.

 S

i

representa el conjunto de datos pertenecientes al clúster i

x es un punto de datos.

μ

i

es el centroide del clúster i

La idea detrás de la técnica K-means es obtener un número adecuado de clústeres,

generalmente k ≥ 3 , que cumplan con la reducción de la varianza, de modo que los datos

estén bien agrupados. El criterio de mínima varianza tiene como objetivo minimizar la

dispersión dentro de cada grupo. Este criterio se sugiere para medir la calidad de los

segmentos resultantes. (Gareth James, 2023)

Para definir una configuración adecuada, es fundamental buscar un equilibrio entre

minimizar la suma de las varianzas dentro de cada grupo y seleccionar un número

razonable de segmentos. Este proceso de selección de

k se realizará teniendo en cuenta

tanto la optimización del modelo como la interpretabilidad de los resultados, para lograr un

equilibrio que se ajuste a los objetivos específicos del proyecto.

4.2 Diseño de los test

Para asegurar la eficacia y validez de los modelos de segmentación de datos,

PLASTICAUCA se compromete a utilizar una variedad de criterios en el proceso de

evaluación. Estos criterios son esenciales para determinar la calidad de los modelos y

optimizar su rendimiento.

Minimización de la Varianza por Medio de Simulaciones de Ajuste de k:

Un criterio fundamental será la minimización de la varianza (

Var

S

i

)) dentro de los

clústeres. Este objetivo se abordará a través de simulaciones que ajustarán el número de

clústeres (

k ) con el fin de encontrar el valor óptimo. Se buscará reducir la dispersión dentro

de cada grupo para garantizar segmentos homogéneos de clientes.

Métricas de Evaluación Utilizando Cross-Validation (CV):

Otro criterio crucial implicará el uso de métricas de evaluación, específicamente el Sum of

Squared Errors ( SSE total) , el SSE ratio. Estas métricas se aplicarán dividiendo el conjunto

de datos en una proporción de 80-20 (80% Training y 20% Testing), lo que permitirá

evaluar el rendimiento de los modelos en datos de prueba no vistos. El SSE total y el SSE

ratio proporcionarán medidas cuantitativas de la calidad de la segmentación.

Para esto definimos analíticamente las siguientes métricas que evaluaran durante el

entrenamiento para la selección del “mejor” modelo:

Sum of Squared Errors (SSE) total:

La fórmula para calcular el SSE total se expresa como:

SSE =

i = 1

k

x ∈S

i

| xμ

i

2

Ilustración 12 ecuación SSE-total.........................................................................................

Donde:

k

es el número de clústeres.

modelo y asegurar que los atributos sean adecuados para análisis cuantitativos, se ha optado

por utilizar la variable "edad" en lugar del "rango de edad." Esta decisión simplifica el

conjunto de atributos y contribuye a una mayor claridad y coherencia en la modelación

(Wickham, y otros, 2019).

Ilustración 15 Organización de los atributos finales.............................................................

Luego de definir los atributos finales, se procedió a configurar el modelo en R. Utilizando

simulaciones, se buscó el número óptimo de clústeres ( k ) que minimiza la varianza intra-

cluster (

Var

S

i

)), la cual se relaciona directamente con la suma de errores cuadrados ( SSE ).

Este proceso de búsqueda se llevó a cabo iterando a través de valores de k en un rango de 3

a 7. Además, se implementó la validación cruzada ( vfold ) dividiendo los datos en conjuntos

de entrenamiento (80%) y de prueba (20%) para garantizar una evaluación robusta del

modelo (Wickham M. K., 2020).

Ilustración 16 Ajuste de K-means por medio de simulaciones............................................

Tomando en consideración los resultados de las métricas de calidad del modelo, después de

realizar simulaciones para diferentes valores de k , se ha determinado que el valor óptimo de

k , que minimiza la suma de errores cuadrados totales (sse_total), es igual a 7. Esta elección

se basa en la observación de que con k = 7 , el valor de sse_total es el más bajo entre las

opciones evaluadas, lo que sugiere que la dispersión total de los datos en los clústeres es

menor en comparación con otros valores de k.

K (número de grupos) Métrica Valor promedio Error Estándar

SS E

ratio

SS E

ratio

SS E

ratio

SS E

ratio

SS E

ratio

SS E

total

2.32e+17 1.06e+

4 SS E

total

2.32e+17 1.06e+

SS E

total

2.32e+17 1.06e+

6 SS E

total

2.32e+17 1.06e+

SS E

total

2.32e+17 1.06e+

Tabla 3 Resultados de la simulación (k-optimo)

Además, al analizar la métrica de la relación entre sse_total y la suma de errores cuadrados

dentro de los clústeres (sse_ratio), se ha encontrado que este valor es positivo y bajo. En

particular, sse_ratio tiene un valor de aproximadamente 0.022, lo que indica que los

clústeres son cohesivos y bien definidos. Esto significa que la dispersión dentro de cada

clúster es considerablemente menor que la dispersión total de los datos, lo cual es un

indicador positivo de la calidad de la Clusterización.

En consecuencia, con base en estos resultados y considerando que k = 7 optimiza la

reducción de la varianza en los clústeres y que el valor de sse_ratio es bajo y positivo, se ha

decidido que este valor de k es el más adecuado para este análisis. Esto implica que el

modelo K-means ha logrado una segmentación efectiva de los datos en siete clústeres

distintos y bien relacionados entre sí, sin una alta dispersión en los grupos.

Descripción del modelo:

El modelo resultante es un modelo de clustering K-Means que ha dividido los datos en 7

clústeres. Cada clúster tiene un tamaño específico, que varía desde 3899 observaciones en

el Clúster 7 hasta 5695 observaciones en el Clúster 3.

Sin embargo, hay dificultades para la interpretación:

a. Alta dimensionalidad: Se cuenta con 10 atributos por lo cual esto se traduce en

trabajar en un espacio de dimensionalidad 10 que ya de por si es algo extraño pensar

en un espacio de ese tamaño, por lo cual podría ser difícil visualizar los patrones en

los datos y comprender la estructura de los clústeres.

b. Interpretación de las variables: En este caso, la mayoría de nuestras variables son

categóricas, por lo cual es difícil encontrarle un significado directo en términos de

distancia. Esto puede dificultar la interpretación de los resultados a primera vista.