APPZYFY
Módulo 3intermediate
📝

Explorador de Word Embeddings

60 min
1

Entender representación de palabras como vectores

2

Explorar relaciones semánticas (king - man + woman = queen)

3

Aprender similitud coseno

4

Visualizar espacios de palabras en 3D

Explorador de Word Embeddings

Visualiza relaciones semánticas en espacio vectorial

Guía de Aprendizaje

Intermedio⏱️ 30 min

Elige tu estilo de aprendizaje

¿Qué Hace?

Mapea palabras a vectores densos en espacio continuo tal que similitud semántica = proximidad geométrica. Demuestra Word2Vec (Skip-gram/CBOW), GloVe, FastText. Visualiza similitud coseno, analogías (rey-hombre+mujer=reina), y clustering.

¿Cómo Funciona?

  1. 1Word2Vec Skip-gram: predecir contexto desde objetivo. Objetivo: max Σ log p(contexto|objetivo)
  2. 2Word2Vec CBOW: predecir objetivo desde contexto. Entrenamiento más rápido que Skip-gram
  3. 3GloVe: factorizar matriz de co-ocurrencia. Captura estadísticas globales
  4. 4Capa de embedding: tabla lookup E ∈ ℝ^(V×d) donde V=tamaño vocab, d=dim embedding
  5. 5Similitud coseno: sim(u,v) = (u·v)/(||u|| ||v||). Rango [-1,1], 1=idéntico
  6. 6Analogías: resolver rey - hombre + mujer ≈ reina mediante aritmética vectorial

Analogía Simple

Embeddings = coordenadas para palabras en espacio-de-significado. Significados similares = coordenadas cercanas. Aritmética de palabras funciona porque relaciones están codificadas como offsets vectoriales.

Concepto Clave

Embeddings densos (50-300d) superan one-hot esparsos (10K-100Kd). Capturan sintaxis (plurales, tiempo) y semántica (sinónimos, analogías). Pre-entrenados (Word2Vec, GloVe) transfieren bien a tareas posteriores.

Conceptos Fundamentales

Similitud Coseno

Mide ángulo entre vectores. sim=1 (paralelos, idénticos), sim=0 (perpendiculares, no relacionados), sim=-1 (opuestos).

Analogías Vectoriales

Resolver a:b::c:d mediante d = argmax similitud(c-a+b, v). Ejemplo: París:Francia::Berlín:? → Alemania.

Dimensionalidad de Embedding

Común: 50-300d. Mayor = más expresividad, más lento, riesgo sobreajuste. Word2Vec default: 100d. BERT: 768d.

Aplicaciones del Mundo Real

🔍
Motores de Búsqueda

Búsqueda semántica: query "laptop" coincide con "computadora", "notebook" mediante similitud de embedding. Mejor que coincidencia exacta de palabra clave.

💬
Chatbots / Análisis de Sentimiento

Convertir texto a embeddings, alimentar clasificador. "Genial" y "excelente" tienen vectores similares → ambos sentimiento positivo.

🌐
Traducción Automática

Embeddings multilingües: alinear "dog" inglés con "perro" español en espacio vectorial compartido. Habilita traducción zero-shot.

Pruébalo Tú Mismo

Resolvedor de Analogías

Prueba rey-hombre+mujer, París-Francia+Alemania, lento-lentamente+rápido. Ve aritmética vectorial encontrar respuestas correctas.

Vecinos Más Cercanos

Buscar palabras más cercanas a "feliz": alegría, contento, complacido. Verifica embeddings capturan sinónimos.

Errores Comunes a Evitar

Usar embeddings sin pre-entrenamiento

¿Por Qué? Init aleatoria tiene mal desempeño. Usa Word2Vec/GloVe pre-entrenado o entrena en corpus grande.

Ignorar palabras fuera de vocabulario (OOV)

¿Por Qué? Word2Vec falla en palabras no vistas. Usa FastText (embeddings de subpalabras) o tokenización BPE.

Palabras Seleccionadas

Visualización del Espacio Vectorial

kingqueenmanwoman

Analogías de Palabras

king - man + womanqueen

Aritmética vectorial: king - man + woman debería estar cerca de queen

dog - puppy + catkitten

Aritmética vectorial: dog - puppy + cat debería estar cerca de kitten

happy - joy + sadsadness

Aritmética vectorial: happy - joy + sad debería estar cerca de sadness

Vecinos Más Cercanos

king

  • princess (1.00)
  • woman (1.00)
  • queen (1.00)

queen

  • princess (1.00)
  • king (1.00)
  • woman (1.00)

man

  • prince (1.00)
  • woman (1.00)
  • king (1.00)

Embeddings GloVe

Global Vectors (GloVe) aprende analizando estadísticas de co-ocurrencia. Palabras que aparecen juntas tienen vectores similares.

Word2Vec

Word2Vec usa redes neuronales con Skip-gram o CBOW. Predice palabras de contexto desde palabra objetivo (o viceversa).

Relaciones Semánticas

Palabras con significados similares tienen vectores similares. Distancia mide similitud semántica.

Aritmética Vectorial

Embeddings soportan analogías: king - man + woman ≈ queen. Vectores capturan relaciones semánticas.