Laboratorio de Redes Neuronales
Construir redes neuronales con múltiples capas
Entender backpropagation visualmente
Experimentar con hiperparámetros
Entrenar redes con datasets reales
Simulador de Redes Neuronales
Construye y entrena redes neuronales visualmente
Cómo Usar Esta Herramienta
¿Qué son las Redes Neuronales?
Las redes neuronales son modelos computacionales inspirados en el cerebro humano. Consisten en nodos interconectados (neuronas) organizados en capas que aprenden a reconocer patrones en los datos.
¿Cómo Funcionan?
Los datos fluyen a través de capas de neuronas. Cada conexión tiene un peso que se ajusta durante el entrenamiento. La red aprende comparando sus predicciones con los resultados reales y actualizando los pesos para minimizar errores.
Componentes Clave
Capa de Entrada: Recibe datos • Capas Ocultas: Procesan información • Capa de Salida: Produce predicciones • Pesos: Fuerzas de conexión entre neuronas • Funciones de Activación: Determinan la salida de la neurona
📚 Sigue estos pasos para entrenar tu primera red neuronal:
1. Elige un Conjunto de Datos
Selecciona un dataset predefinido (XOR, Círculo, Espiral, Gaussiana) o dibuja tus propios puntos haciendo clic en el lienzo.
2. Diseña la Red
Agrega o quita capas ocultas. Ajusta el número de neuronas por capa. Elige funciones de activación para cada capa.
3. Configura Parámetros de Entrenamiento
Tasa de Aprendizaje: Comienza con 0.01-0.05 • Épocas: Prueba 100-200 inicialmente • Monitorea la curva de pérdida para ver si el entrenamiento funciona.
4. Entrena y Observa
Haz clic en "Entrenar" y observa cómo la pérdida disminuye. La precisión debería aumentar. Si no, intenta ajustar capas, tasa de aprendizaje o épocas.
✨ Consejos Pro
💡 Comienza simple: 1-2 capas ocultas con 4-8 neuronas • 💡 Observa la pérdida: Debe disminuir consistentemente • 💡 Experimenta: Prueba diferentes arquitecturas • 💡 Más capas ≠ siempre mejor
Tasa de Aprendizaje
Controla cuánto ajusta la red los pesos durante el entrenamiento. Muy alta = aprendizaje inestable, muy baja = convergencia lenta. Recomendado: 0.01-0.05
Épocas
Una época = un pase completo por los datos de entrenamiento. Más épocas permiten mejor aprendizaje pero toman más tiempo. Observa la curva de pérdida para saber cuándo parar.
Pérdida
Mide el error de predicción. Menor pérdida = mejor precisión. El objetivo del entrenamiento es minimizar la pérdida. Si la pérdida aumenta, reduce la tasa de aprendizaje.
Precisión
Porcentaje de predicciones correctas. 100% = clasificación perfecta. Alta precisión con baja pérdida indica entrenamiento exitoso.
Funciones de Activación Explicadas
Elige la función de activación correcta para cada capa para optimizar el aprendizaje:
Función Sigmoid
Salidas entre 0 y 1. Curva suave en forma de S. Buena para: Clasificación binaria, probabilidades de salida. Fórmula: σ(x) = 1/(1+e⁻ˣ). Limitación: Desvanecimiento de gradientes en redes profundas.
ReLU (Unidad Lineal Rectificada)
Salida 0 para entradas negativas, x para positivas. Activación más popular. Buena para: Capas ocultas, entrenamiento rápido, evitar desvanecimiento de gradientes. Fórmula: f(x) = max(0, x). Ventaja: Computacionalmente eficiente.
Tanh (Tangente Hiperbólica)
Salidas entre -1 y 1. Centrada en cero (mejor que sigmoid). Buena para: Capas ocultas, normalización de datos. Fórmula: tanh(x) = (eˣ - e⁻ˣ)/(eˣ + e⁻ˣ). Nota: Aún sufre desvanecimiento de gradientes.
📊 Quick Comparison:
Dibujar Puntos
Conjunto de Datos
Arquitectura de Red
Entrenamiento
Guía de Aprendizaje
Elige tu estilo de aprendizaje
¿Qué Hace?
Sandbox interactivo para prototipar perceptrones multicapa (MLPs). Configura arquitectura, activación, tasa de aprendizaje y dataset para observar trade-offs bias/variance, dinámica de convergencia y fronteras de decisión en tiempo real.
¿Cómo Funciona?
- 1Selecciona dataset (spiral, moons, blobs, linear) con distinta separabilidad
- 2Diseña red: capas, neuronas, activación (ReLU, tanh, sigmoid)
- 3Configura hiperparámetros del optimizador: learning rate, epochs, batch size
- 4Forward pass computa z = Wx + b, activación a = σ(z) capa por capa
- 5Backpropaga gradientes vía regla de la cadena, actualiza pesos con gradiente descendente
- 6Monitorea curva de pérdida, accuracy y evolución de frontera de decisión por epoch
Analogía Simple
Piensa en una orquesta: cada capa es una sección (cuerdas, metales) transformando la melodía (features). El director (optimizador) ajusta el tempo (learning rate) para minimizar la disonancia (loss). Muy pocas secciones subajustan, demasiadas sobreajustan.
Concepto Clave
La profundidad/ancho controla capacidad; la activación controla no linealidad; learning rate y epochs controlan convergencia. Retroalimentación visual acelera intuición para búsqueda de arquitectura e hiperparámetros.
Conceptos Fundamentales
Funciones de Activación
Introducen no linealidad para que la red modele patrones complejos. ReLU evita gradientes que desaparecen, sigmoid entrega probabilidades, tanh centra activaciones.
Learning Rate
Tamaño de paso para gradiente descendente. Muy alto diverge, muy bajo se estanca. El visualizador muestra sobrepasos vs convergencia suave.
Overfitting vs Underfitting
Redes pequeñas subajustan (alto bias). Redes enormes sobreajustan (alta varianza). Monitorea loss de entrenamiento vs validación para mantener balance.
Batch Size y Epochs
Batch size controla ruido en gradiente; epochs controlan duración. Mini-batch SGD ofrece convergencia rápida con buena generalización.
Aplicaciones del Mundo Real
Clasificación de Imágenes
Los MLPs son la base de los sistemas de visión tempranos y aún alimentan las capas finales en CNNs y transformers modernos.
Reconocimiento de Voz
Capas totalmente conectadas mapean características acústicas a probabilidades de fonemas, habilitando asistentes como Siri y Alexa.
Detección de Fraude
Los bancos usan MLPs para detectar patrones de transacción anómalos en tiempo real, reduciendo pérdidas por millones.
Pruébalo Tú Mismo
Demo de Gradientes que Desaparecen
Apila 6 capas sigmoides y observa el estancamiento. Cambia a ReLU – la convergencia vuelve. Visualiza el problema clásico de gradientes que desaparecen.
Barrido de Learning Rate
Configura LR=1.0 (diverge), 0.1 (rápido pero oscila), 0.01 (estable). Entiende por qué los schedules importan.
Errores Comunes a Evitar
❌ Demasiada poca capacidad
¿Por Qué? Una capa oculta con pocas neuronas no separa patrones complejos como espirales. Aumenta ancho/profundidad gradualmente.
❌ Ignorar normalización
¿Por Qué? Entradas sin escalar ralentizan convergencia y agravan saturación. Normaliza features a [-1,1] o usa batch normalization.