APPZYFY

Herramienta Anterior Siguiente Herramienta

Módulo 2intermediate

🌳

Constructor de Árboles de Decisión

45 min

Construir árboles de decisión interpretables

Entender impureza de Gini y entropía

Comparar árboles vs redes neuronales

Aprender cuándo importa la interpretabilidad

APPZYFY

Simulador de Sobreajuste

Volver a la Ruta

Agrupamiento K-Means

Constructor de Árboles de Decisión

Construye y visualiza árboles de decisión interactivamente

Conjunto de Datos

Parameters

Profundidad Máxima: 3

Muestras Mínimas: 2

Criterio de División

Visualización del Árbol

Guía de Aprendizaje

Intermedio⏱️ 30 min

Elige tu estilo de aprendizaje

¿Qué Hace?

Construye árboles de clasificación/regresión mediante división binaria recursiva. Selecciona divisiones maximizando ganancia de información (impureza Gini o reducción de entropía). Maneja features categóricos/numéricos, estrategias de poda, trade-offs interpretabilidad vs accuracy.

¿Cómo Funciona?

1Comenzar con dataset completo en nodo raíz
2Para cada feature, evaluar todos los puntos de división posibles
3Elegir división maximizando ganancia de información: IG = H(padre) - Σ(w_i * H(hijo_i))
4Gini: G = 1 - Σp_i², Entropía: H = -Σp_i log₂(p_i)
5Dividir recursivamente hijos hasta criterios de parada: max profundidad, min muestras, min ganancia
6Podar árbol mediante poda de complejidad de costo (parámetro α)

Analogía Simple

Árbol de decisión es juego de 20 preguntas: cada nodo pregunta binariamente dividiendo datos en grupos homogéneos. Gini/Entropía miden "pureza" – meta son nodos hoja puros (una clase).

Concepto Clave

Árboles son interpretables pero propensos a sobreajuste. Controla mediante max_depth, min_samples_split. Métodos ensemble (Random Forest, XGBoost) sacrifican interpretabilidad por accuracy.

Conceptos Fundamentales

Gini vs Entropía

Gini: cómputo más rápido, entropía: mejor fundamento teórico. Resultados prácticamente similares. Gini default en scikit-learn.

Poda

Pre-poda: detener crecimiento temprano (max_depth, min_samples). Post-poda: crecer árbol completo, luego cortar ramas mediante complejidad de costo.

Importancia de Features

Suma de ganancia de información ponderada por muestras en cada división de nodo. Identifica features más predictivos.

Aplicaciones del Mundo Real

🏦

Puntuación Crediticia

Bancos usan árboles de decisión para aprobación de préstamos: ingreso > $X? → puntaje crédito > Y? → aprobar/rechazar. Interpretable para reguladores.

🩺

Diagnóstico Médico

Diagnosticar enfermedad mediante árbol de síntomas: fiebre? → tos? → viaje reciente? → diagnóstico malaria/gripe/COVID.

📧

Detección de Spam

Filtro de correo: contiene "urgente"? → muchas exclamaciones? → link sospechoso? → spam/no spam.

Pruébalo Tú Mismo

Demo de Sobreajuste

Max depth 1 = subajuste (línea recta). Max depth 10 = sobreajuste (ondulada). Max depth 3-5 = justo.

División Gini vs Entropía

Mismos datos, cambiar criterio. Ver si puntos de división difieren (usualmente muy similar).

Errores Comunes a Evitar

❌ Sin poda (demasiado profundo)

¿Por Qué? Memoriza datos de entrenamiento, falla en datos nuevos. Siempre configura max_depth o min_samples_split.

❌ Ignorar desbalance de clases

¿Por Qué? Clase mayoritaria domina divisiones. Usa class_weight o resampling.

Herramienta Anterior

⚠️ Simulador de Sobreajuste

Siguiente Herramienta

Clustering K-Means 🎯

Decisiones

Finanzas

Hogar

Productividad

Relajación

Más

Constructor de Árboles de Decisión

Constructor de Árboles de Decisión

Conjunto de Datos

Parameters

Visualización del Árbol

Guía de Aprendizaje

Elige tu estilo de aprendizaje

¿Qué Hace?

¿Cómo Funciona?

Analogía Simple

Concepto Clave

Conceptos Fundamentales

Gini vs Entropía

Poda

Importancia de Features

Aplicaciones del Mundo Real

Puntuación Crediticia

Diagnóstico Médico

Detección de Spam

Pruébalo Tú Mismo

Demo de Sobreajuste

División Gini vs Entropía

Errores Comunes a Evitar