Entender representación de palabras como vectores
Explorar relaciones semánticas (king - man + woman = queen)
Aprender similitud coseno
Visualizar espacios de palabras en 3D
Visualiza relaciones semánticas en espacio vectorial
Mapea palabras a vectores densos en espacio continuo tal que similitud semántica = proximidad geométrica. Demuestra Word2Vec (Skip-gram/CBOW), GloVe, FastText. Visualiza similitud coseno, analogías (rey-hombre+mujer=reina), y clustering.
Embeddings = coordenadas para palabras en espacio-de-significado. Significados similares = coordenadas cercanas. Aritmética de palabras funciona porque relaciones están codificadas como offsets vectoriales.
Embeddings densos (50-300d) superan one-hot esparsos (10K-100Kd). Capturan sintaxis (plurales, tiempo) y semántica (sinónimos, analogías). Pre-entrenados (Word2Vec, GloVe) transfieren bien a tareas posteriores.
Mide ángulo entre vectores. sim=1 (paralelos, idénticos), sim=0 (perpendiculares, no relacionados), sim=-1 (opuestos).
Resolver a:b::c:d mediante d = argmax similitud(c-a+b, v). Ejemplo: París:Francia::Berlín:? → Alemania.
Común: 50-300d. Mayor = más expresividad, más lento, riesgo sobreajuste. Word2Vec default: 100d. BERT: 768d.
Búsqueda semántica: query "laptop" coincide con "computadora", "notebook" mediante similitud de embedding. Mejor que coincidencia exacta de palabra clave.
Convertir texto a embeddings, alimentar clasificador. "Genial" y "excelente" tienen vectores similares → ambos sentimiento positivo.
Embeddings multilingües: alinear "dog" inglés con "perro" español en espacio vectorial compartido. Habilita traducción zero-shot.
Prueba rey-hombre+mujer, París-Francia+Alemania, lento-lentamente+rápido. Ve aritmética vectorial encontrar respuestas correctas.
Buscar palabras más cercanas a "feliz": alegría, contento, complacido. Verifica embeddings capturan sinónimos.
❌ Usar embeddings sin pre-entrenamiento
¿Por Qué? Init aleatoria tiene mal desempeño. Usa Word2Vec/GloVe pre-entrenado o entrena en corpus grande.
❌ Ignorar palabras fuera de vocabulario (OOV)
¿Por Qué? Word2Vec falla en palabras no vistas. Usa FastText (embeddings de subpalabras) o tokenización BPE.
king - man + woman ≈ queen
Aritmética vectorial: king - man + woman debería estar cerca de queen
dog - puppy + cat ≈ kitten
Aritmética vectorial: dog - puppy + cat debería estar cerca de kitten
happy - joy + sad ≈ sadness
Aritmética vectorial: happy - joy + sad debería estar cerca de sadness
king
queen
man
Global Vectors (GloVe) aprende analizando estadísticas de co-ocurrencia. Palabras que aparecen juntas tienen vectores similares.
Word2Vec usa redes neuronales con Skip-gram o CBOW. Predice palabras de contexto desde palabra objetivo (o viceversa).
Palabras con significados similares tienen vectores similares. Distancia mide similitud semántica.
Embeddings soportan analogías: king - man + woman ≈ queen. Vectores capturan relaciones semánticas.