Entender aprendizaje no supervisado
Aprender mecánica del algoritmo K-Means
Usar Método del Codo para encontrar K óptimo
Aplicar clustering a problemas reales
Visualiza el algoritmo de agrupamiento K-Means
K-Means es un algoritmo de aprendizaje no supervisado que particiona n observaciones en k clusters minimizando la varianza intra-cluster (WCSS). Asigna iterativamente puntos al centroide más cercano, luego recomputa centroides hasta convergencia.
K-Means es como organizar un almacén: coloca k "estaciones de gerente" (centroides), asigna cada item al gerente más cercano, luego reposiciona gerentes al centro de sus items asignados. Repite hasta que gerentes dejen de moverse.
K-Means converge a óptimos locales dependientes de inicialización. Usa k-means++ para init inteligente, ejecuta múltiples veces, valida con Elbow/Silhouette. Funciona mejor para clusters esféricos de tamaño similar.
Grafica WCSS vs k. Punto "codo" indica k óptimo donde agregar más clusters produce retornos decrecientes.
Siembra inteligente de centroides: primero aleatorio, centroides subsecuentes elegidos con probabilidad proporcional a D²(x). Reduce sensibilidad a inicialización.
Detener cuando: (1) centroides mueven < ε, (2) cambio WCSS < ε, o (3) max iteraciones alcanzadas. Típico: 100-300 iteraciones.
Euclidiana (default), Manhattan (L1), similitud Coseno. Elección afecta forma de cluster y sensibilidad a outliers.
E-commerce agrupa clientes por comportamiento (altos gastadores, cazadores de ofertas, curiosos) para personalizar marketing.
Agrupa colores de píxeles, reemplaza con centroides. 16M colores → 16 colores = 99% reducción de tamaño.
Agregadores de noticias agrupan artículos similares. Vectores TF-IDF → k-means → clusters de tópicos.
Agrupa síntomas de pacientes para descubrir subtipos de enfermedad y optimizar protocolos de tratamiento.
Prueba k=2,3,4,5,6. Grafica WCSS. Nota caída aguda luego meseta. Codo = k óptimo.
Mismos datos, prueba Euclidiana vs Manhattan. Observa cómo cambian fronteras de clusters.
Ejecuta 10 veces con init aleatoria. Ve clusters finales distintos. K-means++ estabiliza resultados.
❌ Asumir que k óptimo es obvio
¿Por Qué? Debe validarse con Elbow, Silhouette. Conocimiento de dominio ayuda pero datos pueden sorprender.
❌ Ignorar escalado de features
¿Por Qué? Features con rangos grandes dominan cálculos de distancia. Normaliza/estandariza primero.
❌ Usar K-Means para clusters no esféricos
¿Por Qué? K-Means asume clusters esféricos. Para formas complejas, usa DBSCAN, Gaussian Mixture Models.