Tabla de contenido
El Trabajo Humano Dentro de Cada Modelo de IA: Carreras en Entrenamiento de IA
Los modelos de IA necesitan humanos para aprender. Qué deben saber los papás sobre las carreras en entrenamiento de IA, RLHF y red-teaming, con salarios de $20 a $300K USD.
Cuando tu hijo le pregunta a un modelo de IA si es correcto mentir para proteger a alguien, y el modelo responde con matiz y buen juicio —eso no salió de una fórmula matemática. Hubo personas que leyeron miles de respuestas de ese modelo, dijeron “esta es mejor que esa”, y esa preferencia fue convertida en señal de aprendizaje. Personas reales con criterio real, sentadas frente a una pantalla, haciendo un trabajo que muy poca gente sabe que existe.
Eso se llama RLHF. Y es uno de los secretos mejor guardados de la industria de IA.
El malentendido sobre cómo se entrenan los modelos de IA
Hay una narrativa popular que dice que los modelos de lenguaje son “solo estadística” —que simplemente predicen la siguiente palabra más probable basándose en enormes cantidades de texto. Esa descripción es técnicamente correcta para la fase de preentrenamiento. Pero los modelos que tu hijo usa hoy no son modelos preentrenados crudos. Son modelos que han sido afinados con preferencias humanas explícitas durante semanas o meses.
El proceso se llama RLHF: Reinforcement Learning from Human Feedback (Aprendizaje por Refuerzo desde Retroalimentación Humana). Fue descrito formalmente por Christiano et al. en un paper de OpenAI publicado en NeurIPS 2017, y se convirtió en el método estándar para alinear modelos de lenguaje grandes después del éxito de InstructGPT (Ouyang et al., 2022, publicado en Advances in Neural Information Processing Systems).
La idea es directa: en lugar de solo aprender a predecir texto, el modelo aprende a producir respuestas que los humanos prefieren. Para eso, se contrata a evaluadores que reciben pares de respuestas y dicen cuál es mejor. Esas preferencias entrenan un “modelo de recompensa” que luego guía el aprendizaje adicional del modelo principal.
Sin ese trabajo humano, los modelos de lenguaje son más erráticos, más propensos a alucinaciones y significativamente menos útiles. La “inteligencia” que percibimos en ChatGPT, Claude, Gemini o Llama fue moldeada por miles de personas haciendo un trabajo que requiere criterio, conocimiento y atención al detalle.
El espectro de roles: desde entrada hasta altamente especializado
Esta industria no tiene un solo tipo de trabajo. Hay un espectro que va desde roles de entrada hasta posiciones de alto nivel técnico y salarial.
| Rol | Qué hace | Salario (USD/hora o anual) | Requisitos de entrada |
|---|---|---|---|
| Anotador de datos | Etiqueta imágenes, transcribe audio, clasifica texto | $8 – $20/hora | Ninguno especial, inglés ayuda |
| Evaluador de calidad RLHF | Compara pares de respuestas de IA, califica según rúbricas | $15 – $45/hora | Educación universitaria, inglés C1 |
| Evaluador especializado | Revisa respuestas en dominio (medicina, derecho, código, matemáticas) | $40 – $80/hora | Dominio de especialidad demostrable |
| Red-teamer de IA | Prueba adversarialmente modelos para encontrar fallos | $150,000 – $300,000/año | Seguridad, ML, lingüística o ética (se busca diversidad de perfiles) |
| Investigador de alineación | Diseña métodos RLHF, interpreta comportamiento de modelos | $180,000 – $400,000/año | Doctorado en ML o equivalente |
Fuentes: Scale AI (2024), Surge AI (2024), Anthropic (2025), Levels.fyi (2025).
Lo que hace Scale AI, Surge AI y por qué LatAm importa
Scale AI fue fundada en 2016 y es hoy la empresa más grande de anotación de datos para IA, con contratos activos con el Departamento de Defensa de EE.UU., Meta, Microsoft y los principales laboratorios de IA. Su red de trabajadores remotos (“Taskers”) incluye a miles de personas en América Latina.
Surge AI opera de manera similar pero con énfasis en evaluadores con mayor calificación educativa. Su argumento es que los modelos de lenguaje necesitan ser evaluados por personas que genuinamente entienden los temas sobre los que escriben —no solo por personas que pueden distinguir gramática correcta.
Para un adulto latinoamericano con nivel universitario en cualquier disciplina e inglés C1, estas plataformas representan una fuente de ingresos real, con pago en dólares, trabajo remoto y horario flexible. No es una carrera en sí misma para un recién graduado universitario de tiempo completo —pero sí es una forma de entrar al ecosistema de IA, construir experiencia comprobable y desarrollar criterio sobre cómo estos modelos funcionan desde adentro.
Eso tiene valor curricular real. Un joven que ha evaluado miles de pares de respuestas de IA entiende los límites y sesgos de estos sistemas de una manera que los que solo los usan no tienen.
El rol que más va a crecer: red-teaming de IA
El red-teaming de IA es el rol más interesante y menos conocido en este espacio. Y posiblemente el que más va a crecer en los próximos cinco años.
La idea viene del red-teaming militar y de seguridad informática: contratas a un equipo para que intente romper tus defensas antes de que lo haga un adversario real. En IA, eso significa contratar personas para encontrar sistemáticamente todas las formas en que un modelo de lenguaje puede fallar: producir información peligrosa, ser manipulado para saltarse sus restricciones, generar contenido discriminatorio de formas sutiles, dar consejos médicos o legales incorrectos con apariencia de confiabilidad.
Anthropic tiene un equipo dedicado de “red-teamers” que trabajan en identificar fallos de alineación antes de cada lanzamiento público. OpenAI tiene un grupo similar llamado “safety evaluations.” Google DeepMind también.
Lo notable del perfil que buscan estas organizaciones es que no es puramente técnico. Los mejores red-teamers tienen perfiles híbridos: algunos vienen de seguridad informática, otros de lingüística y pragmática del lenguaje, otros de filosofía ética, otros de psicología cognitiva. La diversidad de perspectivas es una ventaja —cada quien encuentra fallos diferentes porque piensa diferente.
Un paper de Perez et al. (2022), publicado por Anthropic en arXiv, describió métodos sistemáticos de red-teaming automático y humano. En él se documenta cómo equipos de personas con distintos fondos encuentran más y distintos tipos de fallos que equipos homogéneos.
¿Cuánto requiere de inglés y por qué eso importa en LatAm
La barrera de entrada más real para muchos latinoamericanos en estos roles no es la habilidad técnica —es el inglés.
Para roles de anotador de datos básico (clasificar imágenes, transcribir audio), el inglés no siempre es necesario, especialmente si la tarea es en español. Scale AI, por ejemplo, tiene contratos específicos para mejorar el desempeño de modelos en español latinoamericano, y necesita evaluadores nativos de Spanish LatAm para ese trabajo.
Para roles de evaluador de calidad RLHF, el inglés intermedio-avanzado (B2 o superior) es generalmente requerido porque los protocolos, la documentación y la comunicación con los equipos son en inglés.
Para red-teaming senior e investigación de alineación: inglés fluido es prácticamente mandatorio.
El cálculo para los papás de hijos de preparatoria o primer año de universidad es este: el inglés no es solo la llave para estudiar en EE.UU. —es literalmente la llave para acceder a los trabajos mejor pagados en IA sin necesidad de emigrar.
Carreras relacionadas que también se benefician de entender el ciclo de entrenamiento de IA
Entender cómo se entrena un modelo de IA no es solo útil para quienes quieren trabajar directamente en entrenamiento. Es una competencia transversal que mejora el desempeño en varios roles adyacentes:
Ingeniería de prompts: Saber por qué ciertos prompts funcionan mejor que otros requiere entender cómo el modelo fue entrenado —qué tipo de respuestas fue reforzado y cuáles no.
Diseño de IA responsable: Los equipos que diseñan políticas de uso de IA en empresas necesitan personas que entiendan los mecanismos de fallos —no solo la interfaz de usuario.
Auditoría y cumplimiento de IA: Regulaciones emergentes como el EU AI Act (que entrará en plena vigencia en 2026) van a requerir auditores que puedan verificar que los modelos de IA han sido entrenados de manera responsable. Eso es un campo nuevo que no tiene suficientes profesionales todavía.
Para entender cómo un niño puede prepararse para el lado técnico de estos trabajos, el artículo sobre cómo preparar a los niños para ser investigadores de seguridad en IA cubre la ruta hacia los roles más especializados en el ecosistema de seguridad de IA.
Qué pueden hacer los papás
1. Enseña a tu hijo a pensar sobre la IA, no solo a usarla
La diferencia entre usar ChatGPT para hacer tarea y entender por qué a veces alucina o tiene sesgos es enorme. Cultivar el hábito de preguntarse “¿cómo llegó esta IA a esta respuesta?” es el primer paso hacia los roles más interesantes en este ecosistema.
2. Introduce el concepto de calidad de datos desde edades tempranas
Muchos de los problemas de los modelos de IA tienen raíz en los datos con que fueron entrenados: etiquetas inconsistentes, textos sesgados, instrucciones ambiguas. Hablar sobre eso con un adolescente —“¿cómo le explicarías a una IA qué es una respuesta ‘buena’ a esta pregunta?”— desarrolla un tipo de pensamiento que es directamente aplicable en estos roles.
3. Construye el inglés como prioridad estratégica
No como habilidad general sino como habilitador de mercado laboral específico. Los evaluadores de calidad RLHF bien pagados están en el rango B2-C2. Los red-teamers senior necesitan inglés que les permita escribir reportes técnicos detallados. Cualquier inversión en inglés real (no memorización de gramática, sino producción y lectura de contenido técnico en inglés) tiene retorno medible.
4. Explora plataformas de entrada ahora
Scale AI permite registrarse para trabajos de anotación a partir de los 18 años. Para adolescentes menores, Prolific.com tiene estudios de investigación sobre comportamiento en línea que pagan por participar —no es lo mismo, pero introduce el concepto de “trabajo remoto de evaluación” de manera tangible.
5. Conecta con comunidades de investigación en LatAm
El Center for AI Safety tiene una comunidad activa en línea con recursos en español. El AI Safety Latinoamérica tiene un grupo activo en Discord donde se discuten temas de alineación y evaluación de IA con perspectiva regional. Muchos de sus miembros son estudiantes universitarios de México, Argentina, Colombia y Brasil.
Qué observar en los próximos 3 años
Regulación de IA que crea demanda de evaluadores: El EU AI Act, la regulación de IA ejecutiva en EE.UU. y los marcos emergentes en México van a requerir auditorías independientes de los sistemas de IA de alto riesgo. Eso es trabajo de evaluación humana a escala —y crea mercado para profesionales capacitados.
Especialización creciente de los roles: Hoy muchos evaluadores son generalistas. La tendencia es hacia evaluadores especializados por dominio: evaluadores de código, evaluadores de razonamiento matemático, evaluadores de contenido médico. A mayor especialización, mayor pago. Un médico que puede evaluar respuestas de IA sobre medicina desde una perspectiva clínica real ya cobra más que un evaluador generalista —y esa brecha va a crecer.
Modelos multimodales que expanden el tipo de trabajo: Los modelos de IA modernos procesan texto, imágenes, audio y video. Eso significa que los evaluadores van a necesitar evaluar respuestas sobre imágenes, transcripciones de audio, y contenido de video. El trabajo de evaluación se vuelve más variado y requiere perfiles más amplios.
Preguntas frecuentes
¿Es esto trabajo real o es trabajo de plataforma de gig economy?
Depende del nivel. En los niveles de entrada (anotación básica), sí se parece a trabajo de gig economy —sin beneficios, por tarea, sin contrato estable. En los niveles de evaluador especializado, muchas empresas ofrecen contratos de tiempo parcial o completo con beneficios. Los roles de red-teaming senior son posiciones de planta con salario competitivo.
¿Puede mi hijo de preparatoria ya hacer algo relacionado?
Puede explorar el campo participando en estudios de investigación en Prolific o en plataformas similares donde se evalúan sistemas de IA con fines de investigación académica. Algunas universidades también tienen proyectos de anotación de datos donde pueden participar estudiantes. La práctica de pensar críticamente sobre las respuestas de IA —no solo usarlas— es algo que puede cultivarse desde ahora.
¿El RLHF va a ser reemplazado por algo más automatizado?
Posiblemente en parte. Anthropic y otros laboratorios están investigando métodos de “Constitutional AI” y alineación más automatizada. Pero la evaluación humana de calidad en dominios especializados —donde el criterio experto importa— sigue siendo insustituible en el horizonte visible. Y a medida que los modelos se vuelven más capaces, los estándares de calidad que se les exige también suben.
¿Qué carrera universitaria prepara para estos roles?
No hay una sola. Lingüística, filosofía, ciencias de la computación, psicología cognitiva, medicina, derecho —todos producen buenos evaluadores de IA, según el dominio de aplicación. Lo que importa es la combinación de capacidad de análisis crítico, comprensión del dominio y habilidad para articular razonamiento de manera precisa.
¿Tiene sentido estudiar RLHF específicamente?
El paper de Ouyang et al. (2022) es lectura fundamental y es público. La Universidad de Stanford tiene el curso CS324 “Large Language Models” que cubre RLHF y está disponible parcialmente en línea. Para entender el campo técnicamente, esas son buenas entradas. Para los roles de evaluación, la comprensión conceptual basta —no se necesita implementar RLHF para ser un buen evaluador.
Sobre el autor
Ricky Flores es el fundador de HiWave Makers e ingeniero eléctrico con más de 15 años de experiencia desarrollando tecnología de consumo en Apple, Samsung y Texas Instruments. Escribe sobre cómo los niños aprenden a construir, pensar y crear en un mundo saturado de tecnología. Lee más en hiwavemakers.com.
Fuentes
-
Ouyang, L., Wu, J., Jiang, X., et al. (2022). “Training language models to follow instructions with human feedback.” Advances in Neural Information Processing Systems, 35. https://arxiv.org/abs/2203.02155
-
Christiano, P., Leike, J., Brown, T. B., et al. (2017). “Deep Reinforcement Learning from Human Preferences.” Advances in Neural Information Processing Systems. https://arxiv.org/abs/1706.03741
-
Perez, E., Huang, S., Song, F., et al. (2022). “Red Teaming Language Models with Language Models.” arXiv preprint. https://arxiv.org/abs/2202.03286
-
Scale AI. (2024). Scale AI Workforce FAQ and Tasker Program Overview. https://scale.com
-
Levels.fyi. (2025). Salaries for AI Safety, RLHF, and Red Teaming roles. https://www.levels.fyi
-
European Parliament. (2024). EU Artificial Intelligence Act: What you need to know. https://www.europarl.europa.eu/topics/en/article/20230601STO93804/eu-ai-act-first-regulation-on-artificial-intelligence
-
Stanford University. (2024). CS324: Large Language Models — Course Materials. https://stanford-cs324.github.io/winter2022/