Constructor de Árboles de Decisión
Construir árboles de decisión interpretables
Entender impureza de Gini y entropía
Comparar árboles vs redes neuronales
Aprender cuándo importa la interpretabilidad
Constructor de Árboles de Decisión
Construye y visualiza árboles de decisión interactivamente
Conjunto de Datos
Parameters
Visualización del Árbol
Guía de Aprendizaje
Elige tu estilo de aprendizaje
¿Qué Hace?
Construye árboles de clasificación/regresión mediante división binaria recursiva. Selecciona divisiones maximizando ganancia de información (impureza Gini o reducción de entropía). Maneja features categóricos/numéricos, estrategias de poda, trade-offs interpretabilidad vs accuracy.
¿Cómo Funciona?
- 1Comenzar con dataset completo en nodo raíz
- 2Para cada feature, evaluar todos los puntos de división posibles
- 3Elegir división maximizando ganancia de información: IG = H(padre) - Σ(w_i * H(hijo_i))
- 4Gini: G = 1 - Σp_i², Entropía: H = -Σp_i log₂(p_i)
- 5Dividir recursivamente hijos hasta criterios de parada: max profundidad, min muestras, min ganancia
- 6Podar árbol mediante poda de complejidad de costo (parámetro α)
Analogía Simple
Árbol de decisión es juego de 20 preguntas: cada nodo pregunta binariamente dividiendo datos en grupos homogéneos. Gini/Entropía miden "pureza" – meta son nodos hoja puros (una clase).
Concepto Clave
Árboles son interpretables pero propensos a sobreajuste. Controla mediante max_depth, min_samples_split. Métodos ensemble (Random Forest, XGBoost) sacrifican interpretabilidad por accuracy.
Conceptos Fundamentales
Gini vs Entropía
Gini: cómputo más rápido, entropía: mejor fundamento teórico. Resultados prácticamente similares. Gini default en scikit-learn.
Poda
Pre-poda: detener crecimiento temprano (max_depth, min_samples). Post-poda: crecer árbol completo, luego cortar ramas mediante complejidad de costo.
Importancia de Features
Suma de ganancia de información ponderada por muestras en cada división de nodo. Identifica features más predictivos.
Aplicaciones del Mundo Real
Puntuación Crediticia
Bancos usan árboles de decisión para aprobación de préstamos: ingreso > $X? → puntaje crédito > Y? → aprobar/rechazar. Interpretable para reguladores.
Diagnóstico Médico
Diagnosticar enfermedad mediante árbol de síntomas: fiebre? → tos? → viaje reciente? → diagnóstico malaria/gripe/COVID.
Detección de Spam
Filtro de correo: contiene "urgente"? → muchas exclamaciones? → link sospechoso? → spam/no spam.
Pruébalo Tú Mismo
Demo de Sobreajuste
Max depth 1 = subajuste (línea recta). Max depth 10 = sobreajuste (ondulada). Max depth 3-5 = justo.
División Gini vs Entropía
Mismos datos, cambiar criterio. Ver si puntos de división difieren (usualmente muy similar).
Errores Comunes a Evitar
❌ Sin poda (demasiado profundo)
¿Por Qué? Memoriza datos de entrenamiento, falla en datos nuevos. Siempre configura max_depth o min_samples_split.
❌ Ignorar desbalance de clases
¿Por Qué? Clase mayoritaria domina divisiones. Usa class_weight o resampling.