















Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Prepara tus exámenes
Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity
Los mejores documentos en venta realizados por estudiantes que han terminado sus estudios
Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades
Responde a preguntas de exámenes reales y pon a prueba tu preparación
Consigue puntos base para descargar
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Comunidad
Pide ayuda a la comunidad y resuelve tus dudas de estudio
Descubre las mejores universidades de tu país según los usuarios de Docsity
Ebooks gratuitos
Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity
Un proyecto universitario de minería de datos en la empresa plasticauca, donde se utiliza la metodología crisp-dm para mejorar la efectividad de la estrategia de marketing a través de la segmentación precisa de la base de datos de clientes. El documento detalla los objetivos generales, los riesgos, el coste y el beneficio, y la descripción detallada de los datos de la base de datos, incluyendo su verificación y limpieza.
Tipo: Tesis
1 / 23
Esta página no es visible en la vista previa
¡No te pierdas las partes importantes!
Usar la metodología CRISP-DM, para a través de ella mejorar la efectividad de las
estrategias de marketing de la Empresa PLASTICAUCA por medio de la segmentación
precisa de la base de datos de clientes.
Determinar las estrategias adecuadas para la Empresa a través del modelamiento de
datos.
Aplicar técnicas de minería para las bases de datos suministradas.
Aplicar cada una de las distintas etapas de la metodología CRISP-DM a la base de
datos suministrada por la Empresa.
Indicadores:
Índice de satisfacción del cliente.
Número de reclamaciones.
% de atención a nuevos clientes.
Comportamiento de salida de productos.
Promedio de facturación por cada cliente.
Margen de utilidad.
Coste de marketing.
1.2. Valoración de la situación.
Para la implementación de este proyecto hemos podido acceder a una base de datos que
contiene registros comerciales de la empresa, con movimientos efectuados en los últimos
10 años, estos insumos nos permitirán analizar la información y alcanzar el objetivo
planteado, dentro de la información que referencia la base de datos, están los siguientes:
Municipio, Año y mes de venta, identificación del cliente, nombres, sexo, edad, categoría
de producto, canales de venta, valor de ventas, entre los más significativos.
La estructura organizacional de PLASTICAUCA se ve amplia en su organigrama, sin
embargo, no cuenta con personal calificado para la implementación de un proyecto de
minería de datos, por tanto, se debe contemplar dentro de la empresa una consultoría
especializada que permita atender esta importante acción.
Para el desarrollo del proyecto no existe dentro de la compañía un software especializado,
por tanto, se hará uso del lenguaje R, que para proceso educativos ofrece las funciones
básicas que permite hacer el análisis planteado.
Riesgos
Implementar minería de datos en PLASTICAUCA es un reto grande debido a que no hay
un software establecido para dicha labor, sumado a ello los hardware existentes en la
compañía no han sido actualizados hace 5 años, por lo que tendremos que utilizar equipos
externos en la etapa de ejecución, esto puede generar desconfianza por parte de la Gerencia
de la empresa.
Costes y beneficios
Por tratarse de un proyecto universitario, en la actualidad la compañía no cuenta con
recursos o presupuesto destinado para la implementación de minería de datos, en cuánto al
beneficio, se espera en relación con los objetivos que la empresa obtenga insumos que le
permitan mejorar la calidad, aumentar su rentabilidad y sostenerse en el tiempo.
1.3. Determinación de los objetivos de minería de datos.
Los objetivos en termino de minería son:
Predecir las necesidades de los clientes, partiendo de los insumos que representan
sus hábitos de consumo.
Segmentar los clientes para ajustar el portafolio de acuerdo con la tendencia de
consumo.
Crear función que me muestre la dinámica de rotación de productos ofrecidos por la
empresa, para fortalecer el portafolio.
Predecir inventarios necesarios para cada temporada del año.
1.4. Generación de un plan de proyecto.
negocio
1 semana Todos los
analistas
Cambio económico
datos (Análisis de la
estructura y la
información de la
base de datos,
ejecución de
consultas
2 semanas Todos los
analistas
Problemas de datos,
problemas
tecnológicos
datos (selección,
limpieza, conversión
y formateo, si fuera
necesario)
5 semanas Asesor de minería
de datos, tiempo
de análisis de base
de datos
Problemas de datos,
problemas
tecnológicos
de las técnicas y
ejecución de estas
sobre los datos)
2 semanas Asesor de minería
de datos, tiempo
de análisis de base
de datos
Problemas de
tecnología,
incapacidad para
encontrar un modelo
adecuado
de los resultados
obtenidos en la
etapa anterior, si
fuera necesario
repetir la etapa 4)
1 semana Todos los
analistas
Cambio económico,
incapacidad para
implementar
resultados
(Producción de
informes con los
resultados obtenidos
1 semana Asesor de minería
de datos, tiempo
de análisis de base
de datos
Cambio económico,
incapacidad para
implementar
resultados
Recolección de datos: Recolectar datos iniciales de la Empresa PLASTICAUCA y
adaptarlos a las necesidades del proyecto para su posterior procesamiento. Para ellos
contamos con una base de datos con el registro de 32.422 registros de clientes.
Descripción de los datos: La información que contiene la base de datos detalla las
siguientes categorías; municipio, mes, año, documento, primer nombre, segundo
nombre, primer apellido, segundo apellido, sexo, edad, rango de edad, etnia,
categoría del producto, canal de venta, valor de ventas.
De igual manera haciendo referencia a la descripción de los datos, se analizan las variables
precisas necesarias para el proyecto en curso, esto con el fin de dar propósito al estudio de
minería en mención en donde se busca determinar los picos altos y bajos en las ventas, y
productos con mayor rotación en los últimos años, así mismo la clasificación de productos,
para interpretar sus ventas, segmentación de clientes y ventas totales.
Ilustración 1 Base de Datos
Ilustración 2 Descripción de datos
Ilustración 3 Análisis de las Variables
Verificación de los datos: Una vez realizada la exploración de los datos se puede
afirmar que los datos de la base de datos son completos, cada uno de los datos
cubren las necesidades ante la obtención de los resultados para satisfacer los
objetivos del proyecto a desarrollar.
Exploración de datos: A través de la información que podemos visualizar en la
Base de Datos, se pueden generar diferentes exploraciones de los datos, esto implica
aplicación de pruebas de estadísticas básicas las cuales revelan las propiedades de
los datos, permitiendo determinar si existen faltantes fundamentales, la calidad, las
relaciones, y también es donde se efectúan análisis exploratorios hipotéticos.
3. Preparación de los datos
Conjunto de Datos:
Comenzaremos por recolectar los datos relevantes para nuestros objetivos, que incluyen
información de clientes, historial de compras, preferencias, datos de inventario, datos de
ventas, entre otros. Estos datos pueden provenir de bases de datos internas, sistemas de
ventas, encuestas, entre otros.
Descripción de los datos:
Municipio Municipio de
residencia del cliente
Cadena de Texto
Mes Mes de la transacción Fecha (Mes)
Año Año de la transacción Entero
Municipio:
Útil para análisis geográficos y para adaptar la estrategia de marketing a ubicaciones
específicas.
Canal de Venta:
Ayuda a identificar cómo los clientes interactúan con la empresa.
Limpieza de datos:
La base de datos proporcionada por la empresa PLASTICAUCA presenta reportes de
ventas desde el año 2003 y tiene 32,422 registros de clientes.
Por lo anterior la limpieza de datos que se realizó fueron las siguientes:
Se Verificaron y trataron los valores faltantes en los campos relevantes, como Ventas, Sexo
o Edad. Se utilizaron técnicas de imputación para completar los datos faltantes de manera
adecuada.
Se eliminaron los caracteres especiales encontrados dentro de la base de datos.
Nos aseguramos de que los datos temporales (como Año y Mes) sigan un formato válido y
coherente. Se verifico la integridad de las fechas y se corrigieron los errores presentados.
Se normalizaron los datos, como los campos de texto, como nombres y apellidos, para
asegurarnos de que sigan un formato consistente. Verificamos que la información de
Ventas sea consistente con la información de Categoría Producto y Canal de Venta.
Estandarizamos campos de texto, como categorías de productos o municipios, para evitar
ambigüedades en los datos.
Construir Datos:
El atributo derivado que se maneja en la base de datos se usó para calcular el rango de edad
de los clientes de acuerdo con la edad, aquí se define si los clientes se encuentran entre la
categoría de adolescentes, jóvenes, adultos y/o mayores de 60.
Integrar datos:
La base de datos contenía el nombre y apellido en columnas separadas.
4. Modelamiento
La etapa de modelamiento marca un punto crucial en nuestro proyecto de mejora de
estrategias de marketing para PLASTICAUCA. Aquí, traduciremos datos en conocimiento
valioso mediante técnicas y modelos, buscando comprender a fondo a nuestros clientes y
anticipar sus necesidades. A través de este proceso, buscaremos segmentar a nuestros
clientes de manera efectiva y predecir su comportamiento, permitiéndonos diseñar
estrategias de marketing más personalizadas y efectivas.
4.1. Selección de la técnica
La elección de la técnica de clúster se basa en una evaluación integral que considera los
objetivos generales y específicos del proyecto, así como la observación detallada de los
datos proporcionados por PLASTICAUCA. En lugar de optar por técnicas de clasificación
tradicionales, hemos decidido utilizar la segmentación como enfoque principal. Esta
elección se sustenta en la necesidad de la empresa de mejorar la efectividad de sus
estrategias de marketing y en la diversidad de la base de datos que manejamos.
Al optar por la segmentación, buscamos crear segmentos homogéneos de clientes. Estos
grupos permitirán una adaptación precisa de las estrategias de marketing para atender las
cambiantes necesidades de los clientes. Es importante destacar que nuestra decisión de
emplear segmentación nos lleva a descartar las técnicas de clúster jerárquico, ya que
nuestro objetivo es formar grupos independientes en lugar de estructuras jerárquicas.
Esta selección nos posiciona de manera efectiva para mejorar la eficacia de nuestras
estrategias comerciales, ya que nos permite abordar de manera más precisa las distintas
demandas y preferencias de los clientes.
Para ser más precisos, emplearemos la técnica de Clusterización K-means. La fórmula
matemática de K-means se expresa como:
min
S
i = 1
k
x∈ S i
| x − μ
i
2
= min
S
i = 1
k
i
⋅ Var
i
Donde:
k es el número de clústeres.
i
representa el conjunto de datos pertenecientes al clúster i
x es un punto de datos.
μ
i
es el centroide del clúster i
La idea detrás de la técnica K-means es obtener un número adecuado de clústeres,
generalmente k ≥ 3 , que cumplan con la reducción de la varianza, de modo que los datos
estén bien agrupados. El criterio de mínima varianza tiene como objetivo minimizar la
dispersión dentro de cada grupo. Este criterio se sugiere para medir la calidad de los
segmentos resultantes. (Gareth James, 2023)
Para definir una configuración adecuada, es fundamental buscar un equilibrio entre
minimizar la suma de las varianzas dentro de cada grupo y seleccionar un número
razonable de segmentos. Este proceso de selección de
k se realizará teniendo en cuenta
tanto la optimización del modelo como la interpretabilidad de los resultados, para lograr un
equilibrio que se ajuste a los objetivos específicos del proyecto.
4.2 Diseño de los test
Para asegurar la eficacia y validez de los modelos de segmentación de datos,
PLASTICAUCA se compromete a utilizar una variedad de criterios en el proceso de
evaluación. Estos criterios son esenciales para determinar la calidad de los modelos y
optimizar su rendimiento.
Minimización de la Varianza por Medio de Simulaciones de Ajuste de k:
Un criterio fundamental será la minimización de la varianza (
Var
i
clústeres. Este objetivo se abordará a través de simulaciones que ajustarán el número de
clústeres (
k ) con el fin de encontrar el valor óptimo. Se buscará reducir la dispersión dentro
de cada grupo para garantizar segmentos homogéneos de clientes.
Métricas de Evaluación Utilizando Cross-Validation (CV):
Otro criterio crucial implicará el uso de métricas de evaluación, específicamente el Sum of
Squared Errors ( SSE total) , el SSE ratio. Estas métricas se aplicarán dividiendo el conjunto
de datos en una proporción de 80-20 (80% Training y 20% Testing), lo que permitirá
evaluar el rendimiento de los modelos en datos de prueba no vistos. El SSE total y el SSE
ratio proporcionarán medidas cuantitativas de la calidad de la segmentación.
Para esto definimos analíticamente las siguientes métricas que evaluaran durante el
entrenamiento para la selección del “mejor” modelo:
Sum of Squared Errors (SSE) total:
La fórmula para calcular el SSE total se expresa como:
i = 1
k
x ∈S
i
| x − μ
i
2
Donde:
k
es el número de clústeres.
modelo y asegurar que los atributos sean adecuados para análisis cuantitativos, se ha optado
por utilizar la variable "edad" en lugar del "rango de edad." Esta decisión simplifica el
conjunto de atributos y contribuye a una mayor claridad y coherencia en la modelación
(Wickham, y otros, 2019).
Luego de definir los atributos finales, se procedió a configurar el modelo en R. Utilizando
simulaciones, se buscó el número óptimo de clústeres ( k ) que minimiza la varianza intra-
cluster (
Var
i
Este proceso de búsqueda se llevó a cabo iterando a través de valores de k en un rango de 3
a 7. Además, se implementó la validación cruzada ( vfold ) dividiendo los datos en conjuntos
de entrenamiento (80%) y de prueba (20%) para garantizar una evaluación robusta del
modelo (Wickham M. K., 2020).
Tomando en consideración los resultados de las métricas de calidad del modelo, después de
realizar simulaciones para diferentes valores de k , se ha determinado que el valor óptimo de
k , que minimiza la suma de errores cuadrados totales (sse_total), es igual a 7. Esta elección
se basa en la observación de que con k = 7 , el valor de sse_total es el más bajo entre las
opciones evaluadas, lo que sugiere que la dispersión total de los datos en los clústeres es
menor en comparación con otros valores de k.
K (número de grupos) Métrica Valor promedio Error Estándar
ratio
ratio
ratio
ratio
ratio
total
2.32e+17 1.06e+
total
2.32e+17 1.06e+
total
2.32e+17 1.06e+
total
2.32e+17 1.06e+
total
2.32e+17 1.06e+
Tabla 3 Resultados de la simulación (k-optimo)
Además, al analizar la métrica de la relación entre sse_total y la suma de errores cuadrados
dentro de los clústeres (sse_ratio), se ha encontrado que este valor es positivo y bajo. En
particular, sse_ratio tiene un valor de aproximadamente 0.022, lo que indica que los
clústeres son cohesivos y bien definidos. Esto significa que la dispersión dentro de cada
clúster es considerablemente menor que la dispersión total de los datos, lo cual es un
indicador positivo de la calidad de la Clusterización.
En consecuencia, con base en estos resultados y considerando que k = 7 optimiza la
reducción de la varianza en los clústeres y que el valor de sse_ratio es bajo y positivo, se ha
decidido que este valor de k es el más adecuado para este análisis. Esto implica que el
modelo K-means ha logrado una segmentación efectiva de los datos en siete clústeres
distintos y bien relacionados entre sí, sin una alta dispersión en los grupos.
Descripción del modelo:
El modelo resultante es un modelo de clustering K-Means que ha dividido los datos en 7
clústeres. Cada clúster tiene un tamaño específico, que varía desde 3899 observaciones en
el Clúster 7 hasta 5695 observaciones en el Clúster 3.
Sin embargo, hay dificultades para la interpretación:
a. Alta dimensionalidad: Se cuenta con 10 atributos por lo cual esto se traduce en
trabajar en un espacio de dimensionalidad 10 que ya de por si es algo extraño pensar
en un espacio de ese tamaño, por lo cual podría ser difícil visualizar los patrones en
los datos y comprender la estructura de los clústeres.
b. Interpretación de las variables: En este caso, la mayoría de nuestras variables son
categóricas, por lo cual es difícil encontrarle un significado directo en términos de
distancia. Esto puede dificultar la interpretación de los resultados a primera vista.