APPZYFY
Módulo 2intermediate
🎯

Clustering K-Means

45 min
1

Entender aprendizaje no supervisado

2

Aprender mecánica del algoritmo K-Means

3

Usar Método del Codo para encontrar K óptimo

4

Aplicar clustering a problemas reales

APPZYFY

K-Means Clustering

Visualiza el algoritmo de agrupamiento K-Means

Agregar Puntos

Estadísticas

Iteración
0
Convergió
No
Inercia
0.0000

Parameters

Método del Codo

Guía de Aprendizaje

Intermedio⏱️ 30 min

Elige tu estilo de aprendizaje

¿Qué Hace?

K-Means es un algoritmo de aprendizaje no supervisado que particiona n observaciones en k clusters minimizando la varianza intra-cluster (WCSS). Asigna iterativamente puntos al centroide más cercano, luego recomputa centroides hasta convergencia.

¿Cómo Funciona?

  1. 1Inicializar k centroides aleatorios desde distribución de datos
  2. 2Paso de asignación: asignar cada punto al centroide más cercano (distancia Euclidiana/Manhattan)
  3. 3Paso de actualización: recomputar centroides como media de puntos asignados
  4. 4Repetir hasta que centroides se estabilicen (convergencia) o max iteraciones
  5. 5Evaluar calidad de clustering mediante método Elbow (WCSS vs k), Silhouette score
  6. 6Manejar casos borde: clusters vacíos, sensibilidad a inicialización

Analogía Simple

K-Means es como organizar un almacén: coloca k "estaciones de gerente" (centroides), asigna cada item al gerente más cercano, luego reposiciona gerentes al centro de sus items asignados. Repite hasta que gerentes dejen de moverse.

Concepto Clave

K-Means converge a óptimos locales dependientes de inicialización. Usa k-means++ para init inteligente, ejecuta múltiples veces, valida con Elbow/Silhouette. Funciona mejor para clusters esféricos de tamaño similar.

Conceptos Fundamentales

Método del Codo

Grafica WCSS vs k. Punto "codo" indica k óptimo donde agregar más clusters produce retornos decrecientes.

Inicialización K-Means++

Siembra inteligente de centroides: primero aleatorio, centroides subsecuentes elegidos con probabilidad proporcional a D²(x). Reduce sensibilidad a inicialización.

Criterios de Convergencia

Detener cuando: (1) centroides mueven < ε, (2) cambio WCSS < ε, o (3) max iteraciones alcanzadas. Típico: 100-300 iteraciones.

Métricas de Distancia

Euclidiana (default), Manhattan (L1), similitud Coseno. Elección afecta forma de cluster y sensibilidad a outliers.

Aplicaciones del Mundo Real

🛒
Segmentación de Clientes

E-commerce agrupa clientes por comportamiento (altos gastadores, cazadores de ofertas, curiosos) para personalizar marketing.

🎨
Compresión de Imágenes

Agrupa colores de píxeles, reemplaza con centroides. 16M colores → 16 colores = 99% reducción de tamaño.

📄
Agrupación de Documentos

Agregadores de noticias agrupan artículos similares. Vectores TF-IDF → k-means → clusters de tópicos.

🏥
Diagnóstico Médico

Agrupa síntomas de pacientes para descubrir subtipos de enfermedad y optimizar protocolos de tratamiento.

Pruébalo Tú Mismo

Experimento del Codo

Prueba k=2,3,4,5,6. Grafica WCSS. Nota caída aguda luego meseta. Codo = k óptimo.

Comparación de Métricas de Distancia

Mismos datos, prueba Euclidiana vs Manhattan. Observa cómo cambian fronteras de clusters.

Sensibilidad a Inicialización

Ejecuta 10 veces con init aleatoria. Ve clusters finales distintos. K-means++ estabiliza resultados.

Errores Comunes a Evitar

Asumir que k óptimo es obvio

¿Por Qué? Debe validarse con Elbow, Silhouette. Conocimiento de dominio ayuda pero datos pueden sorprender.

Ignorar escalado de features

¿Por Qué? Features con rangos grandes dominan cálculos de distancia. Normaliza/estandariza primero.

Usar K-Means para clusters no esféricos

¿Por Qué? K-Means asume clusters esféricos. Para formas complejas, usa DBSCAN, Gaussian Mixture Models.