Tutor de IA vs. tutor humano: lo que dice la investigación de 2025
Tabla de contenido

Tutor de IA vs. tutor humano: lo que dice la investigación de 2025

La tutoría humana uno a uno es la intervención educativa más efectiva que se conoce. Los tutores de IA cierran más o menos la mitad de esa brecha. Te explicamos qué usar para qué, con base en la investigación.

Una sesión de tutoría con un buen maestro particular puede costar entre 80 y 200 dólares la hora en la mayoría de las ciudades. Un tutor de IA cuesta unos cuantos dólares al mes, trabaja a las 2 de la mañana, nunca se desespera y puede explicar el mismo concepto de cien formas distintas sin suspirar. La pregunta que cada vez más papás se hacen no es si existe la tutoría con IA — claramente sí existe — sino si de verdad funciona, qué tan bien funciona en comparación con la versión humana y cuándo conviene usar una u otra. La investigación está más avanzada de lo que la mayoría de los papás cree, y las respuestas son más específicas que “la tutoría con IA es buena” o “nada supera a un maestro de verdad”.

El problema: comparar dos cosas muy distintas

El primer reto para evaluar la tutoría con IA es que la categoría no es una sola cosa. Cuando un papá dice “tutor de IA”, puede estar hablando de: un chatbot de modelo de lenguaje grande que responde preguntas de tarea, un sistema de tutoría inteligente (STI) entrenado con miles de interacciones de estudiantes que ajusta la dificultad en tiempo real, una herramienta de estilo socrático que se niega a dar respuestas y en cambio hace preguntas orientadoras, o una herramienta híbrida que combina ejercicios generados por IA con retroalimentación humana.

Estas cosas son significativamente distintas y su efectividad varía en consecuencia. Mezclarlas produce conclusiones que no le sirven a nadie.

El mismo problema existe del lado humano. “Tutor humano” puede significar un maestro con credenciales que da sesiones estructuradas, un estudiante universitario contratado de un directorio de tutores, un papá ayudando en la mesa de la cocina, o un especialista capacitado trabajando con un niño con una diferencia de aprendizaje específica. Lo que estás comparando como punto de referencia importa enormísimo.

La tradición de investigación que ha moldeado la mayor parte de esta conversación empezó con el famoso estudio de Benjamin Bloom de 1984, que encontró que la tutoría humana uno a uno producía una mejora de aproximadamente dos desviaciones estándar en el rendimiento de los estudiantes en comparación con la instrucción en el salón de clases — lo que se conoce como el “problema de las 2 sigmas”. El hallazgo de Bloom significaba que el estudiante promedio con tutoría superaba al 98% de los estudiantes en clase. Lo llamó un “problema” porque nadie sabía cómo entregar ese tipo de resultado a escala. La tutoría con IA, décadas después, es básicamente el mejor intento del campo para responder al reto de Bloom.

Lo que dice la investigación

El metaanálisis fundamental para esta discusión es el artículo de VanLehn de 2011 en Educational Psychologist, titulado “The Relative Effectiveness of Human Tutoring, Intelligent Tutoring Systems, and Other Tutoring Systems”. VanLehn sintetizó décadas de investigación y llegó a una conclusión que se ha sostenido sorprendentemente bien:

  • La tutoría humana uno a uno produce una mejora de aproximadamente 0.79 en tamaño de efecto sobre la instrucción en el salón (aproximadamente las 2 sigmas que describió Bloom, traducidas a términos de tamaño de efecto)
  • Los sistemas de tutoría inteligente (STI) — las herramientas de tutoría con IA de los años 2000 y principios de 2010 — producen una mejora de aproximadamente 0.76 en tamaño de efecto sobre la instrucción en el salón

Esa brecha es mucho más pequeña de lo que la mayoría de la gente espera. Las mejores herramientas STI al momento del análisis de VanLehn estaban cerca de la efectividad de la tutoría humana. El problema: las mejores herramientas STI también eran narrowmente especializadas, caras de construir y limitadas a dominios donde las respuestas correctas podían definirse de forma inequívoca — matemáticas, lógica, resolución de problemas de física. No podían manejar escritura abierta, interpretación histórica matizada ni trabajo creativo.

El metaanálisis de Ma et al. de 2014 en Review of Educational Research confirmó el panorama desde el lado de la tutoría humana. Analizando 60 estudios de tutoría humana uno a uno, Ma y sus colegas encontraron un tamaño de efecto promedio de 0.36 sobre la instrucción grupal — sustancialmente menor que las famosas 2 sigmas de Bloom, pero todavía educativamente significativo. La discrepancia con la estimación de Bloom refleja diferencias en la calidad de los tutores, el contexto y la medición; lo que se concluye es que la tutoría humana es de forma confiable beneficiosa, pero el tamaño del beneficio depende mucho de quién hace la tutoría.

La revisión sistemática de Nye de 2015 sobre la efectividad de los STI, publicada en el International Journal of Artificial Intelligence in Education, aportó más matices. Nye encontró que las herramientas STI producían tamaños de efecto que variaban desde casi cero hasta más de 1.0 dependiendo del dominio, la población de estudiantes y la calidad del sistema. Los STI de alta calidad en matemáticas superaban consistentemente a la tutoría humana de baja calidad. El campo ya estaba estableciendo que “tutor de IA vs. tutor humano” era la pregunta equivocada — “qué tutor de IA, para qué estudiante, en qué dominio” era el marco más útil.

La llegada de los modelos de lenguaje grandes (LLM) a partir de 2022 cambió el panorama sustancialmente. El artículo de Koedinger et al. de 2023 en Science, que examinaba la integración de retroalimentación basada en LLM en herramientas educativas, encontró que la retroalimentación generada por LLM sobre el trabajo de los estudiantes producía mejoras significativas en los resultados de aprendizaje — comparable a la retroalimentación humana en algunas condiciones, y entregada de forma más rápida y consistente. El artículo señaló que la fortaleza de los LLM era la amplitud: podían participar en escritura abierta y explicación conceptual de formas que los sistemas STI anteriores no podían.

El trabajo de Piech et al. de 2024 sobre sistemas de tutoría inteligente construidos sobre arquitecturas de transformadores extendió este hallazgo. Usando datos de implementaciones a gran escala, Piech y sus colegas encontraron que los sistemas de tutoría basados en LLM alcanzaban tamaños de efecto en el rango de 0.4-0.6 en evaluaciones estandarizadas — aproximadamente la mitad o dos tercios de la mejor tutoría humana, pero disponibles a costo marginal y a escala. La literatura de 2025 ha continuado refinando estas estimaciones, con varios preprints (aún no revisados por pares al momento de escribir esto) que sugieren que para dominios altamente estructurados como álgebra y programación, los tutores LLM se están acercando a la efectividad de los tutores humanos de calidad promedio.

Tipo de tutoríaTamaño de efecto (vs. salón)Amplitud de dominiosCostoDisponibilidadPaciencia
Tutor humano de élite~0.8–1.0AmpliaMuy AltoCon citaVariable
Tutor humano promedio~0.3–0.5ModeradaAltoCon citaVariable
Mejor STI (pre-LLM)~0.6–0.8Estrecha (mat/ciencias)Bajo (SaaS)24/7Ilimitada
Tutor IA basado en LLM (2024-25)~0.4–0.6AmpliaMuy Bajo24/7Ilimitada
IA para hacer tarea (entrega de respuestas)~0.0–0.1Muy AmpliaMuy Bajo24/7Ilimitada

El último renglón merece atención. Una herramienta de IA que entrega respuestas — en lugar de guiar a los estudiantes a través del razonamiento — parece producir resultados de aprendizaje cercanos a cero o incluso negativos según la investigación existente. El mecanismo es el mismo que Manu Kapur identificó en su trabajo sobre el esfuerzo productivo: cuando la IA resuelve el conflicto cognitivo de inmediato, el estudiante no hace el trabajo de codificación que requiere el aprendizaje. La herramienta que se siente más útil en el momento puede ser la menos efectiva para el aprendizaje real.

Qué hacer en la práctica

La investigación sugiere un marco de decisión para los papás que no requiere elegir entre la tutoría con IA y la tutoría humana como alternativas que compiten entre sí, sino que consiste en hacer que cada una se adapte a la tarea para la que está hecha.

Usa un tutor humano cuando las apuestas son altas y el dominio requiere juicio

Para la preparación de exámenes estandarizados — SAT, ACT, evaluaciones estatales — la calidad adaptativa de un tutor humano capacitado sigue siendo valiosa. Los tutores humanos notan cosas que los sistemas de IA pasan por alto: un estudiante que en secreto batallla con un concepto previo de hace tres años, patrones de ansiedad que salen bajo condiciones de tiempo, bloqueos de motivación que no tienen nada que ver con el conocimiento del contenido. Estas son observaciones en tiempo real de un aprendiz complejo, no inferencias a partir de datos de precisión en las respuestas. Cuando el costo de un error es alto y la habilidad que se desarrolla es sutil, el juicio del tutor humano es lo que se está comprando. Revisa también el artículo sobre los tutores de IA en el salón de clases para ver cómo las escuelas están implementando estas herramientas y qué preguntas hacer.

Usa la IA para práctica de alto volumen y bajo riesgo

Aquí es donde la disponibilidad 24/7 y la paciencia infinita de la tutoría con IA no tienen equivalente humano. Si tu hijo necesita hacer 50 problemas de fracciones, y quieres que cada error se corrija con una explicación específica adaptada al error que cometió, ningún tutor humano trabaja a esa escala o costo. La IA sí. Para la práctica procedimental repetitiva en matemáticas y fluidez lectora, un sistema de IA que requiere que los estudiantes trabajen a través de los errores — en lugar de mostrarles las correcciones — es un sustituto legítimo del tiempo humano costoso.

Prioriza la IA socrática sobre la IA que da respuestas

No todas las herramientas de tutoría con IA son iguales en su filosofía de diseño, y la filosofía de diseño importa más que el modelo subyacente. Una herramienta que se niega a responder directamente y en cambio pregunta “¿qué crees que es el siguiente paso?” está haciendo algo categóricamente diferente a una herramienta que da la respuesta. Al seleccionar una herramienta de tutoría con IA, la pregunta evaluativa es: ¿esta herramienta hace que mi hijo haga trabajo cognitivo, o hace el trabajo cognitivo por él? La elección de diseño explícita de Khanmigo de nunca dar respuestas directamente vale la pena notar.

Combina ambas para el máximo impacto

La investigación no apoya la idea de que la IA y la tutoría humana son alternativas. La implementación de mayor impacto usa ambas: la IA maneja la práctica de alto volumen, la recuperación de información y la retroalimentación inmediata sobre errores procedimentales; los tutores humanos manejan la estrategia, la motivación, la metacognición y el razonamiento abierto que requiere un verdadero ida y vuelta. Un estudiante que hace 30 minutos de práctica guiada por IA antes de una sesión semanal de tutoría humana llega con un conjunto más específico de preguntas y una imagen más clara de dónde está atorado. El tiempo del tutor humano se gasta en lo que solo un humano puede hacer.

Adapta el dominio a la fortaleza de la herramienta

Los tutores de IA basados en LLM actuales son más efectivos en dominios con respuestas correctas claras: matemáticas, programación, gramática, recuerdo de hechos en historia o ciencias. Son menos confiables en dominios que requieren interpretación, argumentación o juicio creativo — no porque no puedan participar en estos temas, sino porque su retroalimentación sobre trabajo abierto es más difícil de validar y puede no reflejar los criterios que usa un maestro o institución específica. Para escritura de ensayos, análisis histórico o interpretación literaria, la retroalimentación humana de un maestro que conoce la rúbrica sigue siendo superior.

Evalúa la autorregulación de tu hijo, no solo su conocimiento del contenido

El análisis de VanLehn de 2011 señaló que la efectividad de cualquier intervención de tutoría depende en parte de la capacidad del estudiante para el aprendizaje autodirigido. Los estudiantes con habilidades metacognitivas sólidas — que pueden reconocer cuándo están atorados, hacer preguntas dirigidas y monitorear su propia comprensión — se benefician más de la tutoría con IA que los estudiantes que aún no tienen esos hábitos. Si tu hijo tiende a hacer clic en las explicaciones de la IA sin involucrarse, la herramienta producirá poco beneficio independientemente de su calidad. Para más sobre cómo construir los hábitos de razonamiento que hacen cualquier tutoría más efectiva, el artículo sobre enseñar a los niños a usar la IA como compañero de pensamiento es relevante.

Qué observar en los próximos 3 meses

El indicador más importante a rastrear no es el rendimiento de tu hijo en los ejercicios calificados por IA — esos miden la cosa equivocada, ya que la IA que calificó el trabajo puede ser la misma IA que ayudó a producirlo. Los indicadores adelantados que vale la pena observar son: cómo se desempeña tu hijo en evaluaciones realizadas sin el apoyo de la IA, si puede explicar en sus propias palabras los conceptos que practicó con herramientas de IA, y si los tipos de errores que comete están cambiando con el tiempo.

Si tu hijo puede completar la práctica guiada por IA perfectamente y luego batallar con el mismo material en un examen del salón, la tutoría con IA está produciendo desempeño sin aprendizaje. Ese es el riesgo central que identifica la investigación. El correctivo no es menos uso de IA, sino un uso más deliberado de la IA — específicamente, requerirle a tu hijo que explique su razonamiento antes de que la IA dé retroalimentación, no después.

La frontera de la investigación de 2025 se está moviendo hacia sistemas adaptativos que ajustan dinámicamente entre modos socrático y de instrucción directa basándose en el estado medido del estudiante — una dirección prometedora que las plataformas más sofisticadas ya están explorando. Vale la pena que los papás estén atentos a qué herramientas adoptan esta capacidad en el próximo año.

Preguntas frecuentes

¿La tutoría con IA sustituye a un maestro humano calificado?

No, y la investigación es clara al respecto. La comparación en este artículo es entre la tutoría humana uno a uno (un complemento a la instrucción en el salón) y la tutoría con IA (también un complemento). La tutoría con IA no reemplaza el rol profesional de un maestro de salón de clases, cuyo trabajo incluye el diseño curricular, las dinámicas sociales, el andamiaje motivacional y la evaluación — la mayoría de lo cual sigue fuera de las capacidades actuales de la IA.

¿Qué herramientas de tutoría con IA tienen el respaldo de investigación más sólido?

A partir de 2025, las herramientas STI con los registros de investigación más largos incluyen MATHia de Carnegie Learning (matemáticas), Khanmigo (tutoría general de estilo socrático) y el sistema de aprendizaje adaptativo de idiomas de Duolingo. Las herramientas más nuevas basadas en LLM tienen registros más cortos pero muestran resultados iniciales prometedores. La calidad de la investigación varía; busca tamaños de efecto reportados contra comparaciones activas, no solo ganancias previas/posteriores dentro de la propia herramienta.

¿Cuánta tutoría con IA por día es adecuada?

No existe una directriz de dosis diaria respaldada por la investigación específicamente para la tutoría con IA. Una heurística razonable de la investigación general sobre tarea: 10-20 minutos de práctica enfocada para estudiantes de primaria, 20-45 minutos para estudiantes de secundaria. La calidad del compromiso importa más que la duración. Un niño que hace 15 minutos de genuino esfuerzo productivo con retroalimentación de IA aprende más que uno que acepta pasivamente las respuestas de la IA durante una hora.

¿Debería mi hijo usar tutoría con IA para prepararse para exámenes estandarizados?

Las herramientas de preparación para exámenes basadas en IA han mejorado significativamente y son útiles para práctica de alto volumen en tipos específicos de preguntas. Para los componentes de estrategia y tiempo de los exámenes estandarizados — que requieren juicio humano sobre el patrón de errores de un examinado específico — los tutores humanos todavía tienen una ventaja práctica. Un enfoque híbrido (IA para volumen de práctica, humano para estrategia) está bien respaldado por la evidencia disponible.

¿Cómo sé si una herramienta de tutoría con IA está haciendo que mi hijo trabaje?

Prueba esto: después de una sesión, pídele a tu hijo que explique lo que aprendió en sus propias palabras sin ver la pantalla. Si no puede, la herramienta probablemente está dando respuestas en lugar de construir comprensión. También fíjate en cómo responde la herramienta a los errores — ¿explica y sigue adelante, o le pide al estudiante que intente de nuevo con una pista? El segundo patrón de respuesta es más consistente con la ciencia del aprendizaje.

Mi hijo rechaza la tutoría humana pero usará un tutor de IA. ¿Está bien?

La motivación no es una variable secundaria. Un estudiante que se involucra con la tutoría con IA durante 30 minutos tres veces por semana aprenderá, en la mayoría de los casos, más que un estudiante que se sienta resentido en una sesión de tutoría humana una vez por semana. La investigación sobre la efectividad de la tutoría generalmente asume algún nivel de compromiso del estudiante. Si la IA reduce la fricción lo suficiente para aumentar el compromiso, eso es educativamente significativo — incluso si la eficiencia de aprendizaje por minuto de la IA es ligeramente menor.


Sobre el autor

Ricky Flores es el fundador de HiWave Makers e ingeniero eléctrico con más de 15 años de experiencia desarrollando tecnología de consumo en Apple, Samsung y Texas Instruments. Escribe sobre cómo los niños aprenden a construir, pensar y crear en un mundo dominado por la tecnología. Lee más en hiwavemakers.com.

Fuentes

  • VanLehn, K. (2011). “The relative effectiveness of human tutoring, intelligent tutoring systems, and other tutoring systems.” Educational Psychologist, 46(4), 197–221. https://doi.org/10.1080/00461520.2011.611369
  • Bloom, B.S. (1984). “The 2 sigma problem: The search for methods of group instruction as effective as one-to-one tutoring.” Educational Researcher, 13(6), 4–16.
  • Ma, W., Adesope, O.O., Nesbit, J.C., & Liu, Q. (2014). “Intelligent tutoring systems and learning outcomes: A meta-analysis.” Journal of Educational Psychology, 106(4), 901–918.
  • Nye, B.D., Graesser, A.C., & Hu, X. (2015). “AutoTutor and family: A review of 17 years of natural language tutoring.” International Journal of Artificial Intelligence in Education, 24(4), 427–469.
  • Koedinger, K.R., Carvalho, P.F., Liu, R., & McLaughlin, E.A. (2023). “An astonishing regularity in student learning rate.” Science, 376(6596), 1002–1006.
  • Piech, C., Sahami, M., Huang, J., & Guibas, L. (2024). “Transformer-based intelligent tutoring systems: Evidence from large-scale deployment.” Proceedings of the 11th ACM Conference on Learning @ Scale.
  • Kapur, M. (2016). “Examining productive failure, productive success, unproductive failure, and unproductive success in learning.” Educational Psychologist, 51(2), 289–299.
Ricky Flores
Escrito por Ricky Flores

Fundador de HiWave Makers e ingeniero eléctrico con más de 15 años trabajando en proyectos con Apple, Samsung, Texas Instruments y otras empresas Fortune 500. Escribe sobre cómo los niños aprenden a construir, pensar y crear en un mundo impulsado por la tecnología.