APPZYFY
Módulo 4advanced
🌊

Simulador de Modelo de Difusión

90 min
1

Entender difusión hacia adelante y reversa

2

Aprender proceso DDPM (Difusión con Eliminación de Ruido)

3

Explorar arquitectura U-Net de eliminación de ruido

4

Reconocer tecnología detrás de Stable Diffusion/Midjourney

Simulador de Modelo de Difusión

Simula procesos de difusión forward y reverse paso a paso

Guía de Aprendizaje

Intermedio⏱️ 30 min

Elige tu estilo de aprendizaje

¿Qué Hace?

Implementa modelos probabilísticos de difusión denoising (DDPM). Demuestra difusión forward (adición de ruido) y difusión reverse (denoising). Muestra denoiser U-Net, scheduling de ruido, condicionamiento de texto mediante cross-attention.

¿Cómo Funciona?

  1. 1Proceso forward: q(x_t|x_{t-1}) = N(x_t; √(1-β_t)x_{t-1}, β_t I) para t=1..T
  2. 2Schedule de ruido: β_1..β_T creciendo linealmente o cosinalmente. T=1000 típico
  3. 3Proceso reverse: p_θ(x_{t-1}|x_t) = N(x_{t-1}; μ_θ(x_t,t), Σ_θ(x_t,t))
  4. 4Entrenamiento: ε_θ predice ruido, loss = ||ε - ε_θ(x_t, t)||²
  5. 5Sampling: comenzar desde x_T ~ N(0,I), denoise iterativamente x_T → x_0
  6. 6Guidance: classifier-free guidance escala puntajes condicionales vs incondicionales

Analogía Simple

Difusión = adición progresiva de ruido (forward) y denoising aprendido (reverse). Analogía: desenfocar foto gradualmente, aprender a enfocar paso a paso. U-Net predice ruido en cada timestep.

Concepto Clave

Modelos de difusión superan GANs en calidad de síntesis de imágenes. Entrenamiento estable (sin dinámicas adversariales). Sampling lento (1000 pasos) pero mejorado mediante DDIM, DPM-Solver (10-50 pasos). Stable Diffusion = text-to-image mediante condicionamiento CLIP.

Conceptos Fundamentales

Difusión Forward

Adición progresiva de ruido sobre T pasos. x_0 (limpio) → x_T (ruido puro). Cadena Markov fija.

Difusión Reverse (Denoising)

Proceso aprendido: x_T (ruido) → x_0 (limpio). U-Net predice ruido ε_θ(x_t, t) en cada paso. Denoising iterativo.

Guidance Sin Clasificador

Mezcla predicciones condicionales e incondicionales. Mayor escala de guidance = condicionamiento más fuerte. Habilita control text-to-image.

Aplicaciones del Mundo Real

🎨
Text-to-Image (Stable Diffusion)

Generar imágenes desde prompts de texto. DALL-E 2, Midjourney, Stable Diffusion usan modelos de difusión con condicionamiento de texto CLIP.

🎵
Síntesis de Audio

DiffWave, WaveGrad generan formas de onda de audio de alta calidad. Text-to-speech, generación de música mediante difusión.

🧬
Diseño Molecular

Modelos de difusión generan moléculas novedosas con propiedades deseadas. Descubrimiento de drogas, ciencia de materiales.

Pruébalo Tú Mismo

Comparación de Schedule de Ruido

Schedule lineal: adición uniforme de ruido. Schedule coseno: ruido más lento al inicio, más rápido al final. Coseno = mejor calidad.

Efecto de Escala de Guidance

Escala 1.0: condicionamiento débil (genérico). Escala 7.5: condicionamiento fuerte (coincide con prompt). Escala 15: artefactos sobre-saturados.

Errores Comunes a Evitar

Usar muy pocos pasos de sampling

¿Por Qué? Calidad se degrada. Usa al menos 50 pasos (DDIM) o 1000 (DDPM). Samplers rápidos: DPM-Solver (20 pasos).

Escala de guidance extrema

¿Por Qué? Escala >10: sobre-saturado, artefactos. Escala <5: genérico, ignora prompt. Punto dulce: 7-8.

Fase: Difusión Forward

Agregando ruido a imagen...

1 (No guidance)7.5 (Balanced)15 (Strong)

Algoritmo DDPM

Modelos Probabilísticos de Difusión con Denoise (DDPM): Proceso forward agrega ruido Gaussiano en T=1000 pasos. Proceso reverse entrenado para predecir y remover ruido en cada paso. q(x_t | x_{t-1}) agrega ruido, p_θ(x_{t-1} | x_t) remueve ruido.

Denoiser U-Net

Arquitectura U-Net con conexiones skip. Encoder downsample (4→8→16→32), bottleneck procesa, decoder upsample (32→16→8→4). Toma imagen ruidosa + embedding timestep, output ruido predicho. Entrenado con pérdida MSE.

Condicionamiento de Texto

CLIP codifica prompt de texto a embedding. Cross-attention en U-Net condiciona en texto. Classifier-Free Guidance (CFG): interpola entre predicciones condicionales e incondicionales. Scale > 1 fortalece adherencia a prompt.

Stable Diffusion

Trabaja en espacio latente (64x64) en lugar de espacio pixel (512x512). Encoder VAE comprime imagen, difusión en latente, decoder VAE reconstruye. 8x más rápido, 4GB VRAM vs 24GB. SDXL, DALL-E 3 usan difusión latente.