Loading AI modules...

APPZYFY

Volver a Academia IA

Herramienta Anterior Siguiente Herramienta

Módulo 3advanced

👁️

Visualizador de Mecanismo de Atención

60 min

Entender cómo los transformers "se enfocan"

Aprender matrices Query, Key, Value

Visualizar atención multi-cabeza

Reconocer atención en arquitectura ChatGPT/GPT

Embeddings de Palabras

Volver a la Ruta

Tokenización

Visualizador de Mecanismo de Atención

Entiende cómo Transformers atienden a palabras relevantes

Guía de Aprendizaje

Intermedio⏱️ 30 min

Elige tu estilo de aprendizaje

¿Qué Hace?

Visualiza self-attention y multi-head attention en Transformers. Muestra matrices Q/K/V, cómputo de pesos de atención, scaled dot-product attention. Fundamento de BERT, GPT, Vision Transformers.

¿Cómo Funciona?

1Entrada: X ∈ ℝ^(n×d) (n tokens, d dimensiones)
2Proyecciones lineales: Q = XW_Q, K = XW_K, V = XW_V
3Puntajes de atención: A = softmax(QK^T / √d_k) ∈ ℝ^(n×n)
4Valores ponderados: Z = AV ∈ ℝ^(n×d)
5Multi-head: cabezas de atención paralelas, concatenar salidas
6Add & Norm: conexión residual + normalización de capa

Analogía Simple

Atención = recuperación ponderada. Cada token consulta (Q) todos los tokens, computa relevancia (K), recupera información (V). Softmax asegura que pesos sumen 1. Multi-head = múltiples perspectivas simultáneamente.

Concepto Clave

Atención habilita contexto global: cada token atiende a todos los tokens (complejidad O(n²)). Transformers = atención + codificación de posición + feed-forward. Scaled dot-product previene desvanecimiento de gradiente (escalado √d_k).

Conceptos Fundamentales

Query, Key, Value (Q/K/V)

Q = qué estoy buscando. K = qué tengo para ofrecer. V = qué realmente contengo. Atención = emparejar Q con K, recuperar V.

Dot-Product Escalado

Escalar por √d_k para prevenir dot products grandes (que causan gradientes pequeños después de softmax). Crítico para entrenamiento estable.

Multi-Head Attention

8-16 cabezas de atención paralelas. Cada cabeza aprende patrones distintos: sintaxis, semántica, correferencia. Concatenar + proyectar salidas.

Aplicaciones del Mundo Real

🤖

ChatGPT / GPT-4

Transformers con self-attention. Cada token atiende a todos los tokens previos. Genera texto coherente mediante patrones de atención.

🔤

BERT / Clasificación de Texto

Atención bidireccional: cada token atiende a todos los tokens (izquierda + derecha). Pre-entrenado en corpora masivos, fine-tuned para tareas.

🖼️

Vision Transformers (ViT)

Divide imagen en parches, trata como tokens. Self-attention aprende relaciones espaciales. Competitivo con CNNs en ImageNet.

Pruébalo Tú Mismo

Mapa de Calor de Atención

Visualiza A[i,j] como mapa de calor. Brillante = atención fuerte. Ve qué tokens atienden a cuáles (conexiones sujeto ← → verbo).

Diversidad Multi-Head

Compara 8 cabezas de atención. Cabeza 1 = sintaxis. Cabeza 2 = semántica. Cabeza 3 = posicional. Cabezas aprenden patrones complementarios.

Errores Comunes a Evitar

❌ Olvidar escalado √d_k

¿Por Qué? Dot products grandes → gradientes pequeños después de softmax. Siempre escalar por √d_k.

❌ Usar atención sin codificación posicional

¿Por Qué? Atención es invariante a permutación (sin info de orden). Agregar codificación posicional (embeddings sin/cos).

Seleccionar Oración

Número de Cabezas: 4

Mostrar Matrices Q/K/V

Haz clic en un token para ver atención

Mapa de Calor de Atención

Head 1

10%

The

19%

cat

44%

sat

19%

the

mat

Head 2

The

26%

cat

26%

sat

26%

the

mat

Head 3

21%

The

17%

cat

28%

sat

17%

10%

the

mat

Head 4

The

17%

cat

28%

sat

17%

the

21%

mat

Consulta (Q)

0.4

0.8

-0.0

0.0

-0.9

0.7

-0.9

0.0

-0.1

0.7

0.9

-0.7

0.9

-0.0

-0.8

0.8

Clave (K)

-0.5

0.3

0.1

0.4

-0.8

-0.2

-0.9

-0.2

-0.5

0.8

0.2

0.5

0.1

0.0

-0.3

Valor (V)

0.9

1.0

0.1

-0.8

-0.1

-0.6

0.2

-0.7

1.0

-0.0

-0.8

-0.1

0.1

0.8

-0.1

0.7

Attention Formula

Attention(Q, K, V) = softmax(QK^T / √d_k) V

Q = matriz Query, K = matriz Key, V = matriz Value, d_k = dimensión de keys

Atención Multi-Cabeza

Múltiples cabezas de atención aprenden diferentes relaciones: sintaxis, semántica, co-referencia. Combinadas para representación rica.

Auto-Atención

Cada palabra atiende a todas las palabras en oración (incluyéndose a sí misma). Captura contexto y dependencias.

Producto Punto Escalado

Attention(Q,K,V) = softmax(QK^T / √d_k) V. Escala por √d_k para prevenir saturación en softmax.

Arquitectura Transformer

BERT, GPT usan atención multi-cabeza. Sin recurrencia, procesa secuencia completa en paralelo. Revolucionó NLP.

📝 Explorador de Word Embeddings

Siguiente Herramienta

Laboratorio de Tokenización 🔤

Loading AI modules...

APPZYFY

Volver a Academia IA

Herramienta Anterior Siguiente Herramienta

Módulo 3advanced

👁️

Visualizador de Mecanismo de Atención

60 min

Entender cómo los transformers "se enfocan"

Aprender matrices Query, Key, Value

Visualizar atención multi-cabeza

Reconocer atención en arquitectura ChatGPT/GPT

Embeddings de Palabras

Volver a la Ruta

Tokenización

Visualizador de Mecanismo de Atención

Entiende cómo Transformers atienden a palabras relevantes

Guía de Aprendizaje

Intermedio⏱️ 30 min

Elige tu estilo de aprendizaje

¿Qué Hace?

Visualiza self-attention y multi-head attention en Transformers. Muestra matrices Q/K/V, cómputo de pesos de atención, scaled dot-product attention. Fundamento de BERT, GPT, Vision Transformers.

¿Cómo Funciona?

1Entrada: X ∈ ℝ^(n×d) (n tokens, d dimensiones)
2Proyecciones lineales: Q = XW_Q, K = XW_K, V = XW_V
3Puntajes de atención: A = softmax(QK^T / √d_k) ∈ ℝ^(n×n)
4Valores ponderados: Z = AV ∈ ℝ^(n×d)
5Multi-head: cabezas de atención paralelas, concatenar salidas
6Add & Norm: conexión residual + normalización de capa

Analogía Simple

Concepto Clave

Conceptos Fundamentales

Query, Key, Value (Q/K/V)

Q = qué estoy buscando. K = qué tengo para ofrecer. V = qué realmente contengo. Atención = emparejar Q con K, recuperar V.

Dot-Product Escalado

Escalar por √d_k para prevenir dot products grandes (que causan gradientes pequeños después de softmax). Crítico para entrenamiento estable.

Multi-Head Attention

8-16 cabezas de atención paralelas. Cada cabeza aprende patrones distintos: sintaxis, semántica, correferencia. Concatenar + proyectar salidas.

Aplicaciones del Mundo Real

🤖

ChatGPT / GPT-4

Transformers con self-attention. Cada token atiende a todos los tokens previos. Genera texto coherente mediante patrones de atención.

🔤

BERT / Clasificación de Texto

Atención bidireccional: cada token atiende a todos los tokens (izquierda + derecha). Pre-entrenado en corpora masivos, fine-tuned para tareas.

🖼️

Vision Transformers (ViT)

Divide imagen en parches, trata como tokens. Self-attention aprende relaciones espaciales. Competitivo con CNNs en ImageNet.

Pruébalo Tú Mismo

Mapa de Calor de Atención

Visualiza A[i,j] como mapa de calor. Brillante = atención fuerte. Ve qué tokens atienden a cuáles (conexiones sujeto ← → verbo).

Diversidad Multi-Head

Compara 8 cabezas de atención. Cabeza 1 = sintaxis. Cabeza 2 = semántica. Cabeza 3 = posicional. Cabezas aprenden patrones complementarios.

Errores Comunes a Evitar

❌ Olvidar escalado √d_k

¿Por Qué? Dot products grandes → gradientes pequeños después de softmax. Siempre escalar por √d_k.

❌ Usar atención sin codificación posicional

¿Por Qué? Atención es invariante a permutación (sin info de orden). Agregar codificación posicional (embeddings sin/cos).

Seleccionar Oración

Número de Cabezas: 4

Mostrar Matrices Q/K/V

Haz clic en un token para ver atención

Mapa de Calor de Atención

Head 1

10%

The

19%

cat

44%

sat

19%

the

mat

Head 2

The

26%

cat

26%

sat

26%

the

mat

Head 3

21%

The

17%

cat

28%

sat

17%

10%

the

mat

Head 4

The

17%

cat

28%

sat

17%

the

21%

mat

Consulta (Q)

0.4

0.8

-0.0

0.0

-0.9

0.7

-0.9

0.0

-0.1

0.7

0.9

-0.7

0.9

-0.0

-0.8

0.8

Clave (K)

-0.5

0.3

0.1

0.4

-0.8

-0.2

-0.9

-0.2

-0.5

0.8

0.2

0.5

0.1

0.0

-0.3

Valor (V)

0.9

1.0

0.1

-0.8

-0.1

-0.6

0.2

-0.7

1.0

-0.0

-0.8

-0.1

0.1

0.8

-0.1

0.7

Attention Formula

Attention(Q, K, V) = softmax(QK^T / √d_k) V

Q = matriz Query, K = matriz Key, V = matriz Value, d_k = dimensión de keys

Atención Multi-Cabeza

Múltiples cabezas de atención aprenden diferentes relaciones: sintaxis, semántica, co-referencia. Combinadas para representación rica.

Auto-Atención

Cada palabra atiende a todas las palabras en oración (incluyéndose a sí misma). Captura contexto y dependencias.

Producto Punto Escalado

Attention(Q,K,V) = softmax(QK^T / √d_k) V. Escala por √d_k para prevenir saturación en softmax.

Arquitectura Transformer

BERT, GPT usan atención multi-cabeza. Sin recurrencia, procesa secuencia completa en paralelo. Revolucionó NLP.

📝 Explorador de Word Embeddings

Siguiente Herramienta

Laboratorio de Tokenización 🔤