Zoológico de Funciones de Activación
Aprender por qué se necesitan funciones de activación
Comparar ReLU, Sigmoid, Tanh y otras
Entender el problema del gradiente desvaneciente
Elegir la activación correcta para tu problema
Zoológico de Funciones de Activación
Explora 12 funciones de activación
🎯 Instrucciones:
- • Selecciona una función de activación del panel derecho
- • Activa "Modo Comparación" para ver múltiples funciones
- • Marca "Mostrar Derivada" para ver gradientes
Visualización de Función
Seleccionar Función
- ✓Cómputo rápido
- ✓Sin gradiente que desaparece
- ✓Activación dispersa
- ✗Problema de ReLU muerto
- ✗No centrado en cero
- ✗Salida sin límite
- • Capas ocultas (opción por defecto)
- • CNNs
- • Redes profundas
Guía de Aprendizaje
Elige tu estilo de aprendizaje
¿Qué Hace?
Comparación interactiva de funciones de activación (ReLU, Leaky ReLU, GELU, Sigmoid, Tanh, Swish). Muestra curvas de transferencia, derivadas, flujo de gradiente y adecuación por capa.
¿Cómo Funciona?
- 1Graficar activación σ(x) y derivada σ'(x)
- 2Alimentar red dummy para visualizar propagación de gradientes
- 3Activar ruido/bias para inspeccionar saturación
- 4Comparar salidas para entradas idénticas en cada activación
- 5Observar curvas de entrenamiento por activación
- 6Resumir casos de uso (ReLU para ocultas, sigmoid para salida, GELU para transformers)
Analogía Simple
Activaciones son válvulas que controlan el flujo de señal. ReLU es un interruptor on/off, sigmoid es un dimmer (pero se atasca), GELU es una válvula suave optimizada para transformers.
Concepto Clave
Elige activación según rol de la capa. Monitorea magnitud de derivadas para evitar gradientes que desaparecen/explotan. Default moderno: ReLU/LeakyReLU en ocultas, GELU en transformers, sigmoid/softmax para salidas.
Conceptos Fundamentales
Saturación
Regiones donde la derivada ≈ 0 (colas sigmoid/tanh). Causa gradientes que desaparecen y aprendizaje lento.
Neuronas Muertas
ReLU produce 0 para x<0. Bias negativo grande puede matar neuronas permanentemente. Leaky ReLU lo soluciona permitiendo pendiente pequeña.
Suavidad
Activaciones diferenciables (tanh, GELU) proveen gradientes más suaves, mejorando estabilidad de optimización.
Aplicaciones del Mundo Real
Transformers/GELU
BERT, GPT y ViT usan GELU para mejorar velocidad y precisión frente a ReLU.
Mobile Nets/ReLU6
ReLU6 limita valores a 6 para cuantización entera en dispositivos edge.
Pruébalo Tú Mismo
Detector de ReLU Muertas
Baja el bias por debajo de -3 y observa neuronas planas. Cambia a Leaky ReLU para revivirlas.
Carrera de Activaciones
Entrena la misma red con ReLU, tanh, GELU. Compara epochs para alcanzar 95% accuracy.
Errores Comunes a Evitar
❌ Usar sigmoid en todas partes
¿Por Qué? Causa aprendizaje lento por saturación. Usa sigmoid solo para salidas binarias.
❌ Ignorar pares activación-batchnorm
¿Por Qué? BatchNorm funciona mejor antes/después de ReLU. Algunas activaciones (Swish) ya se auto-normalizan.