Cómo Funcionan los Modelos de IA: Pesos, Tokens y Predicción de Patrones
Tabla de contenido

Cómo Funcionan los Modelos de IA: Pesos, Tokens y Predicción de Patrones

Un modelo de inteligencia artificial no es un cerebro — es una tabla gigantesca de estadísticas que predice la siguiente palabra. Aquí te platico cómo funciona, sin tecnicismos.

Mi sobrina me mandó un mensaje el mes pasado: “Tío, ChatGPT me dijo que la capital de Australia es Sídney. Lo puse en mi tarea. Me sacaron mal.” Ella tiene 12 años. La respuesta incorrecta de ChatGPT no fue una falla misteriosa del sistema. Fue una consecuencia completamente predecible de cómo funciona un modelo de lenguaje. Si alguien le hubiera explicado el mecanismo antes de que usara la herramienta, ella habría verificado la respuesta.

Eso es exactamente lo que quiero hacer aquí.

ChatGPT no es inteligente. Tampoco lo es Gemini ni Llama. Son sistemas extraordinariamente grandes y sofisticados, pero no son inteligentes en ningún sentido real de la palabra. Una vez que tu hijo entiende lo que es un modelo de IA, deja de verse intimidado por él — y empieza a usarlo con criterio.

Por Qué Todos Malentendemos Esto

El problema empieza con el nombre. “Inteligencia artificial” suena como una máquina que piensa. Cuando un niño escucha “IA”, imagina los robots de las películas — entidades que razonan, sienten y deciden. La publicidad no ayuda. Las empresas tecnológicas describen sus productos como si “entendieran” el lenguaje, “supieran” hechos y “razonaran” a través de problemas.

Nada de eso es exacto.

Un modelo de lenguaje de IA no entiende nada. No sabe hechos. Procesa tokens — fragmentos de texto — y produce la continuación estadísticamente más probable. Eso es todo. Eso es todo el truco. Los resultados pueden ser hermosos, convincentes, a veces profundos. Pero el mecanismo es coincidencia de patrones, no pensamiento.

Los papás necesitan entender esto porque los niños que creen que la IA es inteligente le entregan su confianza ciega. Los niños que entienden lo que realmente es usan la IA como herramienta y verifican los resultados. Esa diferencia importará cada vez más.

Lo Que Te Explico Como Si Tuvieras 5 Años: La Máquina de Autocompletar

¿Conoces el autocompletado cuando escribes en el celular? Tu teléfono sugiere la siguiente palabra. Si sigues seleccionando sugerencias sin escribir nada tú mismo, terminas con una oración gramaticalmente correcta pero un poco rara. Eso es más o menos lo que hace un modelo de lenguaje — excepto que el autocompletar ha leído prácticamente todo lo que existe en internet.

La versión con LEGO: imagina un cuarto con un billón de piezas. Cada pieza tiene una etiqueta con la probabilidad de que vaya junto a cada otra pieza. Un modelo de IA es una máquina que, dado un montón de piezas (tu pregunta), escoge la siguiente pieza según la que estadísticamente encaje mejor — y repite hasta tener una estructura completa.

La estructura puede ser impresionante. Pero la máquina nunca “sabe” lo que está construyendo. Está siguiendo gravedad estadística.

Cómo Funciona en Realidad

Cada modelo de lenguaje tiene dos componentes principales: parámetros (también llamados pesos) y un tokenizador.

Los tokens son los fragmentos que lee el modelo. Un token equivale aproximadamente a 0.75 palabras en español. Cuando escribes “¿Cómo funciona la fotosíntesis?”, el modelo divide eso en tokens — quizás 8 o 9 — y los procesa uno a uno.

Los pesos son donde vive la magia real. Los pesos de un modelo son miles de millones de números de punto flotante, ajustados durante el entrenamiento para capturar los patrones estadísticos en todo el conjunto de datos de entrenamiento. Piensa en cada peso como una perilla en una mesa de mezclas enorme. Durante el entrenamiento, esas perillas se ajustan — miles de millones de pequeños cambios — hasta que el modelo puede predecir con fiabilidad qué palabra debería venir después en casi cualquier contexto.

Cuando haces una pregunta, el modelo no “busca” una respuesta. Ejecuta tu entrada a través de capa tras capa de operaciones matemáticas hasta producir una distribución de probabilidad sobre la siguiente palabra posible. Escoge la más probable (o muestrea cerca de la cima, para variedad), la agrega a la secuencia, y repite. Palabra por palabra.

Esa es toda la arquitectura de lo que llamamos “IA”.

Por Qué los Niños Deben Saber Esto Hoy

Una encuesta de Common Sense Media de 2024 encontró que el 52% de los adolescentes usan herramientas de IA para la tarea al menos una vez por semana, mientras que menos del 20% pueden describir correctamente lo que hace un modelo de lenguaje. Esa brecha es peligrosa.

El Foro Económico Mundial, en su informe Future of Jobs 2025, estima que la alfabetización en IA — incluyendo la capacidad de evaluar críticamente los resultados de IA — será una de las 10 habilidades más importantes del mercado laboral para 2030. Los niños que entienden estos sistemas a nivel conceptual no solo usarán herramientas de IA. Las supervisarán, las auditarán y eventualmente las construirán.

También hay una razón más inmediata: la alucinación. Porque el modelo siempre produce la siguiente palabra estadísticamente probable, producirá con confianza tonterías plausibles cuando la respuesta correcta no esté bien representada en sus datos de entrenamiento. Un niño que entiende la predicción de tokens sabe por qué sucede esto. Un niño que piensa que la IA es “inteligente” simplemente confía en la respuesta incorrecta — como la capital de Australia.

Cómo Enseñarle Esto a Tu Hijo

Para 5 a 8 años: El Juego de Predecir Oraciones

Juega esto en la cena. Dices una palabra, tu hijo adivina cuál viene después. Luego dices un fragmento de oración y adivina el final. Esto es, esencialmente, lo que hace un modelo de lenguaje — predice el siguiente token dado todo lo anterior.

Después de unos turnos, explica: “Eso es lo que hace ChatGPT, pero ha leído millones de libros y páginas web, entonces sus suposiciones son mucho mejores que las nuestras.”

Para 9 a 12 años: Rompe el Autocompletar

Abre cualquier chatbot de IA y haz este experimento juntos. Hazle una pregunta factual en un dominio que conozcas bien — un deporte, una ciudad de México, algo específico de la escuela. Escribe la respuesta. Luego busca la respuesta real. Compara.

Donde acierta: los datos de entrenamiento para ese tema son buenos. Donde falla: los datos eran escasos, o el modelo predijo lo plausible en lugar de lo preciso.

Luego di: “No estaba mintiendo. Hizo su mejor suposición. La diferencia importa.”

Para 13 años en adelante: Lee Sobre la Arquitectura

El paper original que cambió el campo, “Attention Is All You Need” (Vaswani et al., 2017), es legible en secciones para un preparatoriano motivado. La idea clave: los mecanismos de atención permiten al modelo ponderar qué palabras previas importan más al predecir la siguiente.

Herramienta gratuita: Teachable Machine de Google permite a los niños construir modelos de clasificación simples. No es un modelo de lenguaje, pero el ciclo de entrenamiento y prueba da intuición real sobre cómo aprenden los modelos.

Comparación de Modelos de IA por Tamaño

ModeloParámetrosDónde correQué hace bien
GPT-4 (OpenAI)~1.8 billones (est.)Solo en la nubeRazonamiento complejo, código, documentos largos
Gemini 1.5 Pro (Google)~1 billón (est.)Solo en la nubeContexto largo, multimodal (texto + imágenes)
Llama 3 70B (Meta)70 mil millonesServidor/nube avanzadoCódigo abierto, investigación
Llama 3 8B (Meta)8 mil millonesLaptop modernoResúmenes, preguntas básicas
Phi-3 Mini (Microsoft)3.8 mil millonesCelular modernoTareas simples, rápido, privado
Apple Intelligence~3 mil millonesiPhone/iPadResúmenes, ayuda para escribir, privado

Más parámetros generalmente significa mejor rendimiento, pero también más cómputo y memoria para correr.

Ejemplos del Día a Día de tu Hijo

El autocompletado del celular — las sugerencias de palabras mientras escribes son una versión pequeña y temprana de la predicción del siguiente token.

Los Overviews de Google — cuando Google muestra un resumen generado por IA al inicio de una búsqueda, un modelo de lenguaje predijo cómo sería la mejor respuesta basándose en patrones del internet.

Aplicaciones de tutoría con IA — herramientas como Duolingo, Khan Academy o apps del SEP que usan IA responden preguntas de estudiantes. No están buscando respuestas en una base de datos; predicen la respuesta más útil token por token.

El filtro de spam — el filtro de spam de tu correo usa un clasificador entrenado en millones de ejemplos de spam y no-spam. Cuando predice “spam”, está haciendo coincidencia de patrones — la misma idea fundamental.

Qué Observar en 3 Meses

Mes 1: ¿Puede tu hijo explicar, en una sola oración, qué hace un modelo de lenguaje? No lo que puede hacer — lo que es. “Predice la siguiente palabra según patrones.” Ese es el objetivo.

Mes 2: ¿Verifica tu hijo los hechos generados por IA antes de usarlos? Obsérvalo específicamente en tareas e investigaciones. Un niño que revisa sus fuentes está demostrando que entiende las limitaciones del modelo.

Mes 3: ¿Puede tu hijo explicar por qué la IA se equivocó en algo, en lugar de simplemente notar que lo hizo? “Se equivocó porque sus datos de entrenamiento sobre ese tema probablemente eran escasos” es un pensamiento sofisticado. Ese es el techo — vale la pena celebrarlo.

Preguntas Frecuentes

¿La IA realmente piensa cuando responde a mi hijo?

No. Un modelo de lenguaje produce la continuación estadísticamente más probable del texto que recibió. No hay razonamiento, comprensión ni conciencia. Las respuestas pueden imitar el pensamiento con tanta precisión que es fácil confundir la simulación con la realidad.

¿En qué se diferencia un modelo de lenguaje de un buscador?

Un buscador recupera documentos que coinciden con tu búsqueda — fuentes reales. Un modelo de lenguaje genera una respuesta desde cero basándose en patrones en sus datos de entrenamiento. No “busca” nada durante tu conversación. Por eso las herramientas de IA pueden dar respuestas incorrectas con confianza de una manera que los buscadores generalmente no hacen.

¿Por qué ChatGPT a veces inventa cosas?

Porque siempre predice la siguiente palabra más probable, no recupera hechos. Cuando la información correcta no está bien representada en sus datos de entrenamiento, produce texto plausible que resulta ser incorrecto. Esto se llama “alucinación”. No es una mentira — es una consecuencia de cómo funciona el sistema.

¿A qué edad deberían empezar los niños a aprender cómo funciona la IA?

El concepto básico — “adivina la siguiente palabra según patrones” — es accesible para niños desde los 7 u 8 años. La comprensión más profunda de la arquitectura puede construirse a partir de los 10 años. No hay razón para esperar.

¿Debería mi hijo confiar en la IA para la tarea?

Confiar pero verificar. Las herramientas de IA son útiles para hacer lluvias de ideas, explicar conceptos y hacer borradores. Nunca deben ser la fuente final de afirmaciones factuales. El hábito a desarrollar: usar la IA para empezar, luego verificar cualquier hecho con una fuente primaria.

¿Funciona igual la IA en español que en inglés?

No exactamente. La mayoría de los modelos grandes fueron entrenados predominantemente en inglés. El español está bien representado (es el cuarto idioma más común en internet), pero algunos dialectos y acentos regionales tienen representación más escasa. Esto afecta directamente la calidad de los resultados.


Sobre el autor Ricky Flores es el fundador de HiWave Makers e ingeniero eléctrico con más de 15 años de experiencia desarrollando tecnología de consumo en Apple, Samsung y Texas Instruments. Escribe sobre cómo los niños aprenden a construir, pensar y crear en un mundo saturado de tecnología. Lee más en hiwavemakers.com.


Fuentes

  1. Vaswani, A., Shazeer, N., Parmar, N., et al. (2017). “Attention Is All You Need.” Advances in Neural Information Processing Systems, 30. https://arxiv.org/abs/1706.03762
  2. Common Sense Media. (2024). AI and the Future of Learning. https://www.commonsensemedia.org/research
  3. World Economic Forum. (2025). Future of Jobs Report 2025. https://www.weforum.org/publications/the-future-of-jobs-report-2025/
  4. Brown, T., Mann, B., Ryder, N., et al. (2020). “Language Models are Few-Shot Learners.” Advances in Neural Information Processing Systems, 33. https://arxiv.org/abs/2005.14165
  5. Bender, E. M., Gebru, T., McMillan-Major, A., & Shmitchell, S. (2021). “On the Dangers of Stochastic Parrots.” Proceedings of FAccT 2021. https://dl.acm.org/doi/10.1145/3442188.3445922
  6. Bubeck, S., et al. (2023). “Sparks of Artificial General Intelligence: Early Experiments with GPT-4.” https://arxiv.org/abs/2303.12712
Ricky Flores
Escrito por Ricky Flores

Fundador de HiWave Makers e ingeniero eléctrico con más de 15 años trabajando en proyectos con Apple, Samsung, Texas Instruments y otras empresas Fortune 500. Escribe sobre cómo los niños aprenden a construir, pensar y crear en un mundo impulsado por la tecnología.