Entender cómo el texto se convierte en números
Comparar tokenización Word, Subword, BPE
Aprender compromisos de vocabulario
Reconocer por qué los LLMs tienen límites de tokens
Compara métodos de tokenización: Word, Subword, BPE, SentencePiece
Compara estrategias de tokenización: nivel palabra, subpalabra (BPE, WordPiece, SentencePiece), nivel carácter. Demuestra trade-off tamaño vocab vs granularidad token, manejo OOV, tasas de compresión.
Tokenización = estrategia de fragmentación de texto. Nivel palabra = fragmentos grandes (rápido, incompleto). Nivel carácter = fragmentos pequeños (completo, lento). Subpalabra = zona Goldilocks (balanceada).
BPE/WordPiece dominan NLP moderna (GPT, BERT). Manejan palabras raras mediante unidades subpalabra: "infelicidad" → ["in", "felicidad"]. Vocab ~30K cubre mayoría de idiomas con buena compresión.
Fusiona iterativamente pares de símbolos adyacentes más frecuentes. Usado por modelos GPT. Tamaño vocab 30K-50K típico.
Similar a BPE pero usa fusión basada en likelihood. Usado por BERT. Tokens subpalabra marcados con ##.
Palabras desconocidas no en vocabulario. Nivel palabra sufre OOV. Subpalabra/carácter evita OOV mediante descomposición.
Tokenización BPE habilita entrenamiento eficiente en texto diverso. Maneja palabras raras, errores tipográficos, código, emojis.
SentencePiece unifica tokenización entre idiomas. Sin preprocesamiento específico de idioma (espacios, segmentación).
Subpalabra maneja jerga de dominio: "superconductividad" → ["super", "conduct", "ividad"]. Tokenización de código: "int main()" → ["int", "main", "(", ")"].
Vocab 1K: muchas divisiones, lento. Vocab 50K: pocas divisiones, memoria grande. Vocab 30K: balanceado.
Nivel palabra: "supergenialidad" → [UNK]. Subpalabra: ["super", "genial", "idad"]. Carácter: ["s","u","p","e","r",...].
❌ Usar tokenización nivel palabra
¿Por Qué? Problemas OOV con palabras raras, vocab grande (100K+). Usa BPE/WordPiece en su lugar.
❌ Tokenización inconsistente
¿Por Qué? Desajuste tokenización train vs test rompe modelos. Usa mismo tokenizador (guardar/cargar vocab).
División simple por espacios. Vocab grande, problemas OOV.
Conteo de Tokens: 9
Divide palabras raras en sub-palabras. Vocab balanceado.
Conteo de Tokens: 9
Fusiona pares de caracteres frecuentes. Usado en GPT.
Conteo de Tokens: 15
Independiente del idioma, trata texto como unicode. Usado en T5, ALBERT.
Conteo de Tokens: 14
BPE fusiona iterativamente pares de caracteres más frecuentes. Ejemplo: "low" + "er" → "lower". Balance entre tamaño vocab y conteo tokens.
Vocab pequeño (10K): muchos tokens, inferencia lenta, palabras raras divididas. Vocab grande (100K): menos tokens, rápido, pero embeddings dispersos.
Divide palabras raras (ej: "infelicidad" → "in", "felicidad"). Maneja OOV gracefully. WordPiece (BERT) usa likelihood, BPE usa frecuencia.
Palabras Out-of-Vocabulary se dividen en sub-palabras o caracteres. Ejemplo: "Transformerizar" → "Transform", "##er", "##izar". Sin tokens <UNK>.