Entender cómo los transformers "se enfocan"
Aprender matrices Query, Key, Value
Visualizar atención multi-cabeza
Reconocer atención en arquitectura ChatGPT/GPT
Entiende cómo Transformers atienden a palabras relevantes
Visualiza self-attention y multi-head attention en Transformers. Muestra matrices Q/K/V, cómputo de pesos de atención, scaled dot-product attention. Fundamento de BERT, GPT, Vision Transformers.
Atención = recuperación ponderada. Cada token consulta (Q) todos los tokens, computa relevancia (K), recupera información (V). Softmax asegura que pesos sumen 1. Multi-head = múltiples perspectivas simultáneamente.
Atención habilita contexto global: cada token atiende a todos los tokens (complejidad O(n²)). Transformers = atención + codificación de posición + feed-forward. Scaled dot-product previene desvanecimiento de gradiente (escalado √d_k).
Q = qué estoy buscando. K = qué tengo para ofrecer. V = qué realmente contengo. Atención = emparejar Q con K, recuperar V.
Escalar por √d_k para prevenir dot products grandes (que causan gradientes pequeños después de softmax). Crítico para entrenamiento estable.
8-16 cabezas de atención paralelas. Cada cabeza aprende patrones distintos: sintaxis, semántica, correferencia. Concatenar + proyectar salidas.
Transformers con self-attention. Cada token atiende a todos los tokens previos. Genera texto coherente mediante patrones de atención.
Atención bidireccional: cada token atiende a todos los tokens (izquierda + derecha). Pre-entrenado en corpora masivos, fine-tuned para tareas.
Divide imagen en parches, trata como tokens. Self-attention aprende relaciones espaciales. Competitivo con CNNs en ImageNet.
Visualiza A[i,j] como mapa de calor. Brillante = atención fuerte. Ve qué tokens atienden a cuáles (conexiones sujeto ← → verbo).
Compara 8 cabezas de atención. Cabeza 1 = sintaxis. Cabeza 2 = semántica. Cabeza 3 = posicional. Cabezas aprenden patrones complementarios.
❌ Olvidar escalado √d_k
¿Por Qué? Dot products grandes → gradientes pequeños después de softmax. Siempre escalar por √d_k.
❌ Usar atención sin codificación posicional
¿Por Qué? Atención es invariante a permutación (sin info de orden). Agregar codificación posicional (embeddings sin/cos).
Haz clic en un token para ver atención
Head 1
The
cat
sat
on
the
mat
Head 2
The
cat
sat
on
the
mat
Head 3
The
cat
sat
on
the
mat
Head 4
The
cat
sat
on
the
mat
Attention(Q, K, V) = softmax(QKT / √dk) V
Q = matriz Query, K = matriz Key, V = matriz Value, d_k = dimensión de keys
Múltiples cabezas de atención aprenden diferentes relaciones: sintaxis, semántica, co-referencia. Combinadas para representación rica.
Cada palabra atiende a todas las palabras en oración (incluyéndose a sí misma). Captura contexto y dependencias.
Attention(Q,K,V) = softmax(QK^T / √d_k) V. Escala por √d_k para prevenir saturación en softmax.
BERT, GPT usan atención multi-cabeza. Sin recurrencia, procesa secuencia completa en paralelo. Revolucionó NLP.