APPZYFY

Herramienta Anterior Siguiente Herramienta

Módulo 2intermediate

🎯

Clustering K-Means

45 min

Entender aprendizaje no supervisado

Aprender mecánica del algoritmo K-Means

Usar Método del Codo para encontrar K óptimo

Aplicar clustering a problemas reales

APPZYFY

Constructor de Árboles de Decisión

Volver a la Ruta

Laboratorio de Regresión

K-Means Clustering

Visualiza el algoritmo de agrupamiento K-Means

Agregar Puntos

Estadísticas

Iteración

Convergió

Inercia

0.0000

Parameters

Clusters (K): 3

Iteraciones Máximas: 50

Métrica de Distancia

Método del Codo

Guía de Aprendizaje

Intermedio⏱️ 30 min

Elige tu estilo de aprendizaje

¿Qué Hace?

K-Means es un algoritmo de aprendizaje no supervisado que particiona n observaciones en k clusters minimizando la varianza intra-cluster (WCSS). Asigna iterativamente puntos al centroide más cercano, luego recomputa centroides hasta convergencia.

¿Cómo Funciona?

1Inicializar k centroides aleatorios desde distribución de datos
2Paso de asignación: asignar cada punto al centroide más cercano (distancia Euclidiana/Manhattan)
3Paso de actualización: recomputar centroides como media de puntos asignados
4Repetir hasta que centroides se estabilicen (convergencia) o max iteraciones
5Evaluar calidad de clustering mediante método Elbow (WCSS vs k), Silhouette score
6Manejar casos borde: clusters vacíos, sensibilidad a inicialización

Analogía Simple

K-Means es como organizar un almacén: coloca k "estaciones de gerente" (centroides), asigna cada item al gerente más cercano, luego reposiciona gerentes al centro de sus items asignados. Repite hasta que gerentes dejen de moverse.

Concepto Clave

K-Means converge a óptimos locales dependientes de inicialización. Usa k-means++ para init inteligente, ejecuta múltiples veces, valida con Elbow/Silhouette. Funciona mejor para clusters esféricos de tamaño similar.

Conceptos Fundamentales

Método del Codo

Grafica WCSS vs k. Punto "codo" indica k óptimo donde agregar más clusters produce retornos decrecientes.

Inicialización K-Means++

Siembra inteligente de centroides: primero aleatorio, centroides subsecuentes elegidos con probabilidad proporcional a D²(x). Reduce sensibilidad a inicialización.

Criterios de Convergencia

Detener cuando: (1) centroides mueven < ε, (2) cambio WCSS < ε, o (3) max iteraciones alcanzadas. Típico: 100-300 iteraciones.

Métricas de Distancia

Euclidiana (default), Manhattan (L1), similitud Coseno. Elección afecta forma de cluster y sensibilidad a outliers.

Aplicaciones del Mundo Real

🛒

Segmentación de Clientes

E-commerce agrupa clientes por comportamiento (altos gastadores, cazadores de ofertas, curiosos) para personalizar marketing.

🎨

Compresión de Imágenes

Agrupa colores de píxeles, reemplaza con centroides. 16M colores → 16 colores = 99% reducción de tamaño.

📄

Agrupación de Documentos

Agregadores de noticias agrupan artículos similares. Vectores TF-IDF → k-means → clusters de tópicos.

🏥

Diagnóstico Médico

Agrupa síntomas de pacientes para descubrir subtipos de enfermedad y optimizar protocolos de tratamiento.

Pruébalo Tú Mismo

Experimento del Codo

Prueba k=2,3,4,5,6. Grafica WCSS. Nota caída aguda luego meseta. Codo = k óptimo.

Comparación de Métricas de Distancia

Mismos datos, prueba Euclidiana vs Manhattan. Observa cómo cambian fronteras de clusters.

Sensibilidad a Inicialización

Ejecuta 10 veces con init aleatoria. Ve clusters finales distintos. K-means++ estabiliza resultados.

Errores Comunes a Evitar

❌ Asumir que k óptimo es obvio

¿Por Qué? Debe validarse con Elbow, Silhouette. Conocimiento de dominio ayuda pero datos pueden sorprender.

❌ Ignorar escalado de features

¿Por Qué? Features con rangos grandes dominan cálculos de distancia. Normaliza/estandariza primero.

❌ Usar K-Means para clusters no esféricos

¿Por Qué? K-Means asume clusters esféricos. Para formas complejas, usa DBSCAN, Gaussian Mixture Models.

Constructor de Árboles de Decisión

Volver a la Ruta

Laboratorio de Regresión

Herramienta Anterior

🌳 Constructor de Árboles de Decisión

Siguiente Herramienta

Laboratorio de Detección de Bordes 🔲

Decisiones

Finanzas

Hogar

Productividad

Relajación

Más

Clustering K-Means

K-Means Clustering

Agregar Puntos

Estadísticas

Parameters

Método del Codo

Guía de Aprendizaje

Elige tu estilo de aprendizaje

¿Qué Hace?

¿Cómo Funciona?

Analogía Simple

Concepto Clave

Conceptos Fundamentales

Método del Codo

Inicialización K-Means++

Criterios de Convergencia

Métricas de Distancia

Aplicaciones del Mundo Real

Segmentación de Clientes

Compresión de Imágenes

Agrupación de Documentos

Diagnóstico Médico

Pruébalo Tú Mismo

Experimento del Codo

Comparación de Métricas de Distancia

Sensibilidad a Inicialización

Errores Comunes a Evitar