Tabla de contenido

General 14 min de lectura

Cómo Funciona ChatGPT: LLMs Explicados para Padres (Sin Doctorado Requerido)

Los LLMs predicen la siguiente palabra basándose en patrones de billones de tokens. Qué significan tokenización, ventanas de contexto, temperatura y alucinación — y por qué esto cambia cómo tu hijo usa la IA.

Tu adolescente probablemente usa ChatGPT más horas por semana que las que pasa en clase de matemáticas. Puede usarlo para redactar ensayos, generar ideas, explicar conceptos, escribir código, o simplemente tener conversaciones cuando se aburre. Lo que probablemente no entiende — y lo que la mayoría de los adultos tampoco entiende — es qué ocurre realmente cuando escribe un mensaje y presiona enviar.

La explicación no es magia, y no es un motor de búsqueda inteligente, y no es inteligencia general artificial. Es algo más específico: un modelo estadístico muy grande entrenado para predecir qué texto debería venir a continuación. Esa descripción suena poco impresionante hasta que entiendes las implicaciones, que son tanto más impresionantes como más limitadas de lo que la mayoría de la gente se da cuenta.

Entender esto cambia cómo tu hijo debería usar estas herramientas. No solo “úsalas críticamente” — sino específicamente, concretamente, con conocimiento.

Qué Significa Realmente LLM

LLM significa Modelo de Lenguaje Grande (Large Language Model). Cada palabra importa:

Grande: Los LLMs modernos tienen cientos de miles de millones a billones de parámetros — valores numéricos que codifican patrones estadísticos aprendidos de los datos de entrenamiento. GPT-4, el modelo detrás de ChatGPT, se estima en aproximadamente 1.76 billones de parámetros. Esta escala no es accidental; escalar el tamaño del modelo y los datos de entrenamiento ha sido el principal impulsor de las mejoras de capacidad en el campo.

Lenguaje: Los LLMs procesan y generan texto. Fueron desarrollados principalmente para tareas basadas en texto, aunque las versiones multimodales modernas también pueden manejar imágenes y audio.

Modelo: Este es un modelo estadístico — una estructura matemática que ha aprendido a representar patrones en el lenguaje. No es una base de datos de hechos. No es un motor de razonamiento en el sentido clásico.

La operación central: dado una secuencia de texto, predecir qué viene a continuación. Eso es todo. Esa tarea aparentemente simple, entrenada a una escala sin precedentes, produce algo que puede escribir ensayos, explicar mecánica cuántica, depurar código y pasar exámenes de licencia médica — y también inventar citas científicas, equivocarse en aritmética básica, y a veces producir disparates con total confianza.

Cómo los LLMs Procesan el Texto

Tokenización: El Lenguaje de los LLMs

Antes de que un modelo de lenguaje pueda procesar texto, tiene que convertir el texto en tokens. Un token es una unidad de texto — aproximadamente una palabra o fragmento de palabra en español, aunque el mapeo varía.

“Increíble” podría ser un token. “Electroencefalografía” podría ser tres o cuatro. La tokenización es determinada por un vocabulario desarrollado durante el entrenamiento.

¿Por qué importa esto prácticamente? Un par de razones:

Primero, los conteos de tokens determinan el costo y el procesamiento. La mayoría de los precios de LLM son por token, y la mayoría de los límites de ventana de contexto están en tokens.

Segundo, la tokenización afecta cómo el modelo maneja texto inusual. Una palabra que el modelo rara vez vio en el entrenamiento puede dividirse en fragmentos de tokens extraños, lo que puede afectar cómo procesa esa palabra. Esta es una razón por la que los LLMs pueden tener dificultades con nombres propios poco comunes o jerga técnica en campos especializados.

Tercero — y este es un punto sutil pero importante — el modelo no está realmente procesando palabras o significados directamente. Está procesando representaciones numéricas de secuencias de tokens.

Ventanas de Contexto: La Memoria de Trabajo de la IA

Una ventana de contexto es la cantidad máxima de texto que un LLM puede “ver” a la vez. Todo lo que está fuera de la ventana de contexto es invisible para el modelo en esa interacción.

Los primeros modelos GPT tenían ventanas de contexto de 4,096 tokens (aproximadamente 3,000 palabras). Los modelos actuales tienen ventanas de contexto que van desde 32,000 hasta más de 1 millón de tokens.

Aquí está la analogía de ingeniería que hace que las ventanas de contexto hagan clic: piensa en la ventana de contexto como la pizarra en una sala de reuniones. Todos en la reunión pueden ver todo lo que hay en la pizarra y trabajar con ello. Pero cualquier cosa que se borre — o cualquier cosa que nunca se haya escrito en la pizarra — no existe para las personas en la sala. El modelo no tiene acceso a memorias de sesiones anteriores (a menos que estén explícitamente incluidas en el contexto actual), no puede recordar el nombre de tu hijo de la conversación de la semana pasada, y no tiene ninguna información sobre eventos después de su fecha de corte de entrenamiento.

Temperatura: El Marcador de Aleatoriedad

Cuando un LLM predice el siguiente token, no siempre elige el token más probable. Muestrea de una distribución de probabilidad sobre los posibles siguientes tokens. La temperatura es un parámetro que controla qué tan “extendida” está esa distribución.

Temperatura baja (cerca de 0): el modelo casi siempre elige el token más probable. Los resultados son predecibles y repetitivos.

Temperatura alta (cerca de 1 o superior): el modelo muestrea más ampliamente de los posibles tokens, incluidos los menos probables. Los resultados son más variados y sorprendentes — potencialmente más creativos, pero también más propensos a errores.

Para el uso práctico de tu hijo: la mayoría de las interfaces de chat usan una temperatura optimizada para respuestas útiles y variadas. Pero ayuda saber que este marcador existe, porque “pregúntale de nuevo y podría dar una respuesta diferente” no es un error — es una característica del proceso de muestreo.

El Problema de la Alucinación, Explicado con Precisión

La alucinación es la palabra que usa el campo para cuando un LLM produce información falsa que suena segura. El término es ligeramente engañoso porque implica que el modelo “piensa” que está diciendo la verdad. Más precisamente: el modelo está haciendo lo que siempre hace — predecir tokens estadísticamente probables — y la continuación probable resulta ser falsa.

La analogía de ingeniería: imagina entrenar una IA para completar oraciones mostrándole millones de libros de texto. Luego le muestras el fragmento de oración: “La capital de México es…” La continuación estadísticamente más probable es “Ciudad de México” — y eso es correcto. Ahora muéstrale: “Una investigación del Dr. Carlos Mendoza del Tecnológico de Monterrey muestra que…” La continuación estadísticamente más probable es un hallazgo de investigación que suena plausible. Puede que no exista tal persona, ni tal investigación. El modelo ha aprendido cómo suenan las oraciones sobre investigación académica, y completa la estructura de manera convincente.

Esto es alucinación. El modelo no está mintiendo. No tiene concepto de mentir, porque no tiene concepto de verdad. Tiene distribuciones de probabilidad de tokens. Cuando produce una cita falsa, no está haciendo trampa — está completando un patrón.

Por Qué Esto Es una Característica Estructural, No un Error

Algunas personas creen que las empresas de IA podrían simplemente “arreglar” la alucinación si lo intentaran lo suficiente. Esto malentiende la arquitectura. La alucinación es una consecuencia de cómo funcionan estos modelos. Un sistema que predice texto estadísticamente probable a veces producirá texto que suena como hechos, citas o afirmaciones de expertos, porque el texto que suena como hechos y citas es común en los datos de entrenamiento.

Puedes reducir la alucinación a través de técnicas de entrenamiento adicionales. Los LLMs modernos han mejorado sustancialmente en esta dirección. Pero la tensión fundamental no desaparece: la operación central del modelo es predecir texto probable, y el texto que suena probable no es lo mismo que el texto verdadero.

Vale la pena explicar esto explícitamente a los niños: la razón por la que la IA inventa fuentes con confianza no es descuido o pereza. Es porque el modelo fue entrenado para producir texto que suena como fuentes creíbles, y lo hace — ya sea que las fuentes sean reales o no.

Fortalezas y Limitaciones de los LLM: Guía Práctica para Padres

Tipo de Tarea	Rendimiento del LLM	Por Qué	Ejemplo Práctico para Niños
Ayuda con escritura (redacción, edición)	Excelente	Entrenado en grandes cantidades de escritura de alta calidad	Redactar una primera versión de un ensayo escolar para reaccionar y mejorar
Lluvia de ideas e ideación	Excelente	Bueno para generar variaciones sobre patrones	Generar ideas de temas para un proyecto
Explicar conceptos	Bueno a excelente	Amplia cobertura de texto educativo en el entrenamiento	Pedir una explicación de la fotosíntesis en diferentes niveles
Resumir	Bueno	El patrón del texto de resumen está bien representado	Resumir un artículo largo para una guía de estudio
Responder preguntas de hechos	Variable — poco confiable para temas nicho	Solo tan bueno como la representación en los datos de entrenamiento	Sólido en historia popular; poco confiable en eventos recientes, hechos oscuros
Aritmética y cálculo exacto	Deficiente	Procesa tokens, no números	No confíes en él para matemáticas de múltiples pasos sin verificación
Citar fuentes con precisión	Deficiente — alto riesgo de alucinación	Aprende patrones de citación, no fuentes reales	Nunca uses citas generadas por IA sin verificar cada una
Razonamiento verdaderamente novedoso	Limitado	Recombina patrones de entrenamiento	Débil en problemas lógicos novedosos que no estaban en los datos de entrenamiento
Generación de código	Bueno para patrones comunes; deficiente para código complejo/novedoso	Entrenado en enormes repositorios de código	Excelente para código repetitivo; necesita revisión para secciones con lógica compleja
Eventos actuales (después del corte de entrenamiento)	Ninguno	Sin información después del corte	Usa herramientas de búsqueda, no LLMs, para noticias recientes

Qué Significa Esto Para Cómo Tu Hijo Debe Usar Estas Herramientas

Para Investigación y Escuela

El hábito más importante: tratar el resultado del LLM de la misma manera que un periodista trata una fuente — un punto de partida, no una conclusión. Los LLMs pueden darte rápidamente el panorama de un tema, identificar preguntas para investigar, y sugerir marcos de pensamiento. No pueden darte hechos precisos de manera confiable sin verificación.

Orientación específica para estudiantes: nunca cites una fuente que encontraste de la IA sin localizar y leer independientemente esa fuente. La cita puede estar completamente inventada. El autor puede no existir. La revista puede ser real pero el artículo puede no estar en ella. Esto no es hipotético — ha ocurrido en casos judiciales y artículos académicos.

Para Escritura

Usar IA para mejorar la escritura es genuinamente valioso — pero la secuencia importa. Escribir tu propio borrador primero, luego usar IA para criticarlo o refinarlo, desarrolla tanto la habilidad de escritura como el juicio para evaluar las sugerencias de IA. Ir primero a la IA, luego editar su resultado, es un conjunto de habilidades diferente con diferentes implicaciones para el desarrollo.

Para Aprender Nuevos Conceptos

Los LLMs son a menudo excelentes para explicar conceptos en diferentes niveles de complejidad. “Explícame el entrelazamiento cuántico como si tuviera 12 años” es exactamente el tipo de prompt que produce resultados genuinamente útiles. La advertencia: verifica que la explicación sea precisa antes de aceptarla como tu modelo mental.

Para Programación

Los asistentes de código de IA pueden acelerar dramáticamente el aprendizaje para los niños interesados en la programación. Son excelentes para explicar qué hace un fragmento de código, generar código repetitivo y depurar errores comunes. La habilidad importante a desarrollar en paralelo: leer y entender el código generado, no solo aceptar que funciona.

Qué Vigilar

Llenado de la ventana de contexto. En conversaciones muy largas, el contexto temprano puede caer fuera de la ventana, haciendo que la IA “olvide” cosas que sabía antes. Esto no es que la IA sea inconsistente — es una característica estructural de cómo funciona el contexto.

Inyección de prompts. Cuando los LLMs procesan documentos o páginas web, el contenido malicioso en esos documentos puede intentar alterar el comportamiento de la IA a través de instrucciones incrustadas. Esta es una preocupación de seguridad emergente.

Actualizaciones del modelo sin aviso. El ChatGPT que tu hijo usó el mes pasado puede haber sido actualizado desde entonces. Las actualizaciones del modelo de las empresas de IA pueden cambiar significativamente el comportamiento.

La combinación de “seguro y equivocado” es cada vez más convincente. A medida que los modelos mejoran, sus resultados incorrectos se vuelven más convincentes, no menos. Un modelo menos capaz puede producir texto obviamente equivocado. Un modelo altamente capaz produce texto incorrectamente seguro que requiere conocimiento de dominio para detectar.

Preguntas Frecuentes

¿Por qué ChatGPT a veces da respuestas completamente diferentes a la misma pregunta?

Por la temperatura — el parámetro de aleatoriedad en el proceso de muestreo. El modelo no siempre elige el siguiente token más probable; muestrea de una distribución. Haz la misma pregunta dos veces y puedes obtener respuestas significativamente diferentes. Esto es por diseño, no un error.

¿Qué es una fecha de corte de entrenamiento y cómo afecta a mi hijo?

La fecha de corte es la fecha después de la cual el modelo no tiene información. Un modelo con un corte de septiembre de 2023 no sabe nada sobre eventos que ocurrieron después de esa fecha. Para investigación escolar sobre eventos actuales o descubrimientos científicos recientes, los LLMs son poco confiables.

¿Por qué la IA no puede hacer matemáticas confiables?

Los LLMs procesan tokens, no números. Han aprendido patrones sobre cómo se ve el texto matemático, pero no están realmente computando. Para aritmética simple, la coincidencia de patrones a menudo produce la respuesta correcta. Para cálculos de múltiples pasos o problemas inusuales, falla de maneras difíciles de predecir. Los LLMs modernos a menudo incluyen acceso a una calculadora herramienta exactamente por esta razón.

¿Puede la IA realmente “aprender” de nuestras conversaciones?

En la mayoría de los productos de consumo, el modelo en sí no se actualiza en tiempo real a partir de tus conversaciones. Tus conversaciones pueden usarse como datos de entrenamiento para futuras versiones del modelo, pero el modelo con el que estás hablando hoy no está cambiando mientras hablas con él.

¿Cuál es la diferencia entre ChatGPT y un motor de búsqueda?

Un motor de búsqueda indexa documentos y recupera los que coinciden. Un resultado de búsqueda enlaza a fuentes reales que puedes visitar y verificar. Un modelo de lenguaje genera texto basado en patrones estadísticos — no recupera documentos y puede no estar vinculado a ninguna fuente en absoluto.

¿Cómo le explico esto a mi hijo de 10 años?

Una buena analogía: “Imagina que leíste un millón de libros y te volviste muy bueno adivinando qué palabra viene después en cualquier oración. Eso es básicamente lo que hace la IA. Se volvió tan buena adivinando la siguiente palabra que sus suposiciones suenan como respuestas reales — pero aún está adivinando, no recordando hechos.”

Sobre el autor

Ricky Flores es el fundador de HiWave Makers e ingeniero eléctrico con más de 15 años de experiencia desarrollando tecnología de consumo en Apple, Samsung y Texas Instruments. Escribe sobre cómo los niños aprenden a construir, pensar y crear en un mundo saturado de tecnología. Lee más en hiwavemakers.com.

Fuentes

Brown, T., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., … & Amodei, D. (2020). Language Models are Few-Shot Learners. NeurIPS. https://arxiv.org/abs/2005.14165
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A., … & Polosukhin, I. (2017). Attention Is All You Need. NeurIPS. https://arxiv.org/abs/1706.03762
Ji, Z., Lee, N., Frieske, R., Yu, T., Su, D., Xu, Y., … & Fung, P. (2023). Survey of Hallucination in Natural Language Generation. ACM Computing Surveys, 55(12). https://doi.org/10.1145/3571730
Bubeck, S., Chandrasekaran, V., Eldan, R., Gehrke, J., Horvitz, E., Kamar, E., … & Zhang, Y. (2023). Sparks of Artificial General Intelligence: Early experiments with GPT-4. Microsoft Research. https://arxiv.org/abs/2303.12528
Ouyang, L., Wu, J., Jiang, X., Almeida, D., Wainwright, C., Mishkin, P., … & Lowe, R. (2022). Training language models to follow instructions with human feedback. NeurIPS. https://arxiv.org/abs/2203.02155
Kambhampati, S. (2024). Can LLMs Really Reason and Plan? Communications of the ACM. https://cacm.acm.org/

Escrito por Ricky Flores

Fundador de HiWave Makers e ingeniero eléctrico con más de 15 años trabajando en proyectos con Apple, Samsung, Texas Instruments y otras empresas Fortune 500. Escribe sobre cómo los niños aprenden a construir, pensar y crear en un mundo impulsado por la tecnología.