APPZYFY
Módulo 2beginner
⚙️

Zoológico de Funciones de Activación

30 min
1

Aprender por qué se necesitan funciones de activación

2

Comparar ReLU, Sigmoid, Tanh y otras

3

Entender el problema del gradiente desvaneciente

4

Elegir la activación correcta para tu problema

Zoológico de Funciones de Activación

Explora 12 funciones de activación

🎯 Instrucciones:

  • Selecciona una función de activación del panel derecho
  • Activa "Modo Comparación" para ver múltiples funciones
  • Marca "Mostrar Derivada" para ver gradientes

Visualización de Función

Seleccionar Función

Fórmula
f(x) = max(0, x)
Rango
[0, ∞)
Ventajas
  • Cómputo rápido
  • Sin gradiente que desaparece
  • Activación dispersa
Desventajas
  • Problema de ReLU muerto
  • No centrado en cero
  • Salida sin límite
Casos de Uso
  • Capas ocultas (opción por defecto)
  • CNNs
  • Redes profundas

Guía de Aprendizaje

Principiante⏱️ 20 min

Elige tu estilo de aprendizaje

¿Qué Hace?

Comparación interactiva de funciones de activación (ReLU, Leaky ReLU, GELU, Sigmoid, Tanh, Swish). Muestra curvas de transferencia, derivadas, flujo de gradiente y adecuación por capa.

¿Cómo Funciona?

  1. 1Graficar activación σ(x) y derivada σ'(x)
  2. 2Alimentar red dummy para visualizar propagación de gradientes
  3. 3Activar ruido/bias para inspeccionar saturación
  4. 4Comparar salidas para entradas idénticas en cada activación
  5. 5Observar curvas de entrenamiento por activación
  6. 6Resumir casos de uso (ReLU para ocultas, sigmoid para salida, GELU para transformers)

Analogía Simple

Activaciones son válvulas que controlan el flujo de señal. ReLU es un interruptor on/off, sigmoid es un dimmer (pero se atasca), GELU es una válvula suave optimizada para transformers.

Concepto Clave

Elige activación según rol de la capa. Monitorea magnitud de derivadas para evitar gradientes que desaparecen/explotan. Default moderno: ReLU/LeakyReLU en ocultas, GELU en transformers, sigmoid/softmax para salidas.

Conceptos Fundamentales

Saturación

Regiones donde la derivada ≈ 0 (colas sigmoid/tanh). Causa gradientes que desaparecen y aprendizaje lento.

Neuronas Muertas

ReLU produce 0 para x<0. Bias negativo grande puede matar neuronas permanentemente. Leaky ReLU lo soluciona permitiendo pendiente pequeña.

Suavidad

Activaciones diferenciables (tanh, GELU) proveen gradientes más suaves, mejorando estabilidad de optimización.

Aplicaciones del Mundo Real

🤖
Transformers/GELU

BERT, GPT y ViT usan GELU para mejorar velocidad y precisión frente a ReLU.

📱
Mobile Nets/ReLU6

ReLU6 limita valores a 6 para cuantización entera en dispositivos edge.

Pruébalo Tú Mismo

Detector de ReLU Muertas

Baja el bias por debajo de -3 y observa neuronas planas. Cambia a Leaky ReLU para revivirlas.

Carrera de Activaciones

Entrena la misma red con ReLU, tanh, GELU. Compara epochs para alcanzar 95% accuracy.

Errores Comunes a Evitar

Usar sigmoid en todas partes

¿Por Qué? Causa aprendizaje lento por saturación. Usa sigmoid solo para salidas binarias.

Ignorar pares activación-batchnorm

¿Por Qué? BatchNorm funciona mejor antes/después de ReLU. Algunas activaciones (Swish) ya se auto-normalizan.