Tabla de contenido

General 13 min de lectura

Ingeniero de Visión Computacional: La Carrera que Hace Ver a las Máquinas

Los ingenieros de visión computacional construyen los sistemas detrás de los autos autónomos y el diagnóstico médico por IA. Qué deben saber los papás sobre esta carrera.

La planta armadora de Volkswagen en Puebla tiene cámaras montadas en sus líneas de producción que inspeccionan cada soldadura en tiempo real. No las revisa un humano. Las revisa un algoritmo entrenado para detectar defectos de 0.3 milímetros con más precisión que cualquier ojo. Alguien tuvo que construir ese sistema. Ese alguien es un ingeniero de visión computacional —y probablemente fue de los mejores pagados en ese proyecto.

El problema: una carrera que casi nadie menciona en la orientación vocacional

Cuando los papás piensan en carreras de IA, piensan en “científico de datos” o “programador”. La visión computacional rara vez aparece en las pláticas de orientación vocacional de preparatoria, a pesar de ser uno de los subcampos de IA con mayor demanda laboral activa.

La razón es simple: es técnicamente exigente, intersecta varias disciplinas y su presencia es invisible para el usuario final. Cuando un radiólogo del IMSS recibe un reporte asistido por IA que señala una posible lesión pulmonar en una tomografía, el ingeniero de visión computacional que construyó ese detector nunca aparece en la historia. Pero ese trabajo tiene nombre, salario y escasez de talento.

La visión computacional es el subcampo de la inteligencia artificial que enseña a las computadoras a extraer información significativa de imágenes y video: identificar objetos, segmentar escenas, estimar profundidad, rastrear movimiento. Es la tecnología detrás de los autos autónomos, el diagnóstico médico asistido por IA, los filtros de cámaras, los sistemas de seguridad, y la inspección industrial automatizada.

Si tu hijo le toma fotos a todo, pasa tiempo editando video, o se pregunta cómo hace Snapchat para poner filtros en la cara en tiempo real — está pensando en los mismos problemas que resuelven estos ingenieros.

Lo que dicen los datos

El mercado global de visión computacional alcanzó los 20.6 mil millones de dólares en 2023 y se proyecta que llegue a 81.9 mil millones para 2032, según Allied Market Research (2023). LinkedIn reportó en su Informe de Empleos Emergentes 2024 que “ingeniero de visión computacional” fue uno de los quince roles de mayor crecimiento en publicaciones de trabajo en tecnología. En México, la demanda se concentra en tres centros industriales: el Corredor Automotriz Puebla-Tlaxcala, el Parque Industrial de Monterrey (donde operan plantas de Kia, BMW y GM) y el Hub Tecnológico de Guadalajara.

Industria	Aplicación concreta	Salario promedio (USD/año)	Crecimiento proyectado
Automotriz	Detección de objetos para vehículos autónomos	$120,000 – $180,000	Alto (Ley CHIPS + electrificación)
Salud	Análisis de imágenes médicas (radiología, patología)	$110,000 – $160,000	Muy alto (escasez de radiólogos)
Manufactura	Inspección de calidad automatizada	$90,000 – $130,000	Moderado-alto
Tecnología de consumo	Filtros AR, reconocimiento facial, cámaras IA	$100,000 – $170,000	Alto
Seguridad	Videovigilancia inteligente, análisis forense	$80,000 – $120,000	Moderado

Fuentes: Allied Market Research (2023), LinkedIn Emerging Jobs Report (2024), Glassdoor US (2025).

Cómo funciona la visión computacional (sin matemáticas intimidantes)

Para entender por qué esta carrera importa, ayuda entender qué hace exactamente la tecnología. Sin entrar en álgebra lineal.

Redes neuronales convolucionales: cómo las máquinas “aprenden” a ver

Una imagen digital es, en esencia, una cuadrícula de números. Una foto de 1080×720 píxeles tiene 777,600 números —cada uno representa la intensidad del color en ese punto. El reto para una computadora es tomar esos números y producir una interpretación: “esto es un peatón”, “esto es un stop sign”, “este nódulo en el pulmón tiene características consistentes con tejido maligno”.

Las redes neuronales convolucionales (CNNs, por sus siglas en inglés) aprenden a hacer eso mirando millones de ejemplos etiquetados. Un CNN entrenado para detectar tumores ha visto quizá 500,000 imágenes de radiologías —algunas con tumor, otras sin él— y ha ajustado millones de parámetros internos hasta que puede distinguirlos con precisión clínica.

Los ingenieros de visión computacional diseñan esas redes, las entrenan, las validan y las integran en sistemas reales. No es solo teoría de redes neuronales —es implementación de software que corre en hardware específico, a veces en tiempo real a 30 fotogramas por segundo.

YOLO y la detección de objetos en tiempo real

YOLO (You Only Look Once) es uno de los algoritmos más influyentes en visión computacional. Fue diseñado para detectar múltiples objetos en una imagen en una sola pasada computacional —por eso el nombre. Una versión moderna de YOLO puede identificar 80 categorías de objetos (personas, autos, semáforos, bicicletas, etc.) en tiempo real en un video. Es la base técnica de los sistemas de percepción en vehículos autónomos como los de Waymo o Tesla, y se usa también en drones industriales para inspección de infraestructura.

Un paper seminal de Redmon et al. (2016) en IEEE CVPR describió el algoritmo original. Hoy existe YOLOv10, y la comunidad de código abierto lo mejora constantemente.

Segmentación semántica: más allá de los cuadros

La detección de objetos dibuja un rectángulo alrededor de cada objeto. La segmentación semántica hace algo más sofisticado: asigna a cada píxel de la imagen una categoría. Cada píxel que pertenece a la calle es “calle”, cada píxel que pertenece a un peatón es “peatón”, cada píxel de cielo es “cielo”. Un auto autónomo necesita eso para planear una trayectoria segura: no le basta saber que hay un peatón en la escena, necesita saber exactamente cuánto espacio ocupa.

Esta técnica también se usa en oncología: sistemas como el de Google Health que detecta cáncer de mama en mamografías no solo identifican si hay tumor sino que delimitan su extensión con precisión de píxel.

Visión computacional en México: dónde está la demanda real

Industria automotriz: Puebla y Monterrey

México es el séptimo productor mundial de vehículos. Las plantas de Volkswagen en Puebla, Stellantis en Toluca, BMW en San Luis Potosí y las múltiples plantas de GM y Kia en Monterrey ya usan inspección visual automatizada en sus líneas. La electrificación del parque automotriz va a acelerar esta integración: los vehículos eléctricos tienen más sensores que un auto de combustión, y los sistemas de asistencia avanzada al conductor (ADAS) se están convirtiendo en estándar de la industria.

Las empresas de Tier-1 (proveedores directos a armadoras) como Bosch, Continental y Aptiv tienen centros de ingeniería en México donde trabajan ingenieros de visión computacional. No todos tienen que estar en Silicon Valley.

Salud: el problema del diagnóstico por imagen en México

México tiene una proporción de 1.2 radiólogos por cada 100,000 habitantes, muy por debajo del promedio de la OCDE de 3.1, según datos del Colegio Mexicano de Radiólogos (2023). Esa brecha convierte los sistemas de IA para análisis de imágenes médicas en una necesidad estructural, no en un lujo de innovación. El IMSS y el ISSSTE están evaluando activamente plataformas de asistencia radiológica por IA. Los ingenieros que puedan desarrollar y validar estos sistemas para la población mexicana tienen un papel crítico.

Cómo se ve esta carrera en la práctica

Jorge es egresado de Ingeniería en Electrónica del IPN y trabaja para una empresa que provee sistemas de inspección visual a plantas automotrices en el Bajío. Su trabajo diario incluye: calibrar cámaras industriales, ajustar modelos de detección de defectos, analizar los falsos positivos que generan paros de línea innecesarios, y trabajar con el equipo de producción para entender qué tipo de defecto es realmente crítico vs. cosmético.

“Lo que nadie me dijo en la escuela,” cuenta, “es que el 40% del trabajo es entender el problema del cliente, no programar el algoritmo.”

Eso es consistente con lo que se reporta en la industria: los ingenieros de visión computacional que solo saben el código pero no entienden el dominio de aplicación tienen techo de carrera bajo. Los que combinan la técnica con comprensión del contexto —medicina, manufactura, automotriz— progresan mucho más rápido.

Qué pueden hacer los papás

Si tu hijo muestra afinidad por las imágenes, el video o la geometría visual, aquí hay pasos concretos:

1. Introduce Python y OpenCV de manera práctica

OpenCV es la biblioteca de visión computacional de código abierto más usada en el mundo. Tiene tutoriales gratuitos oficiales en opencv.org. Un proyecto de entrada accesible para un adolescente: construir un detector de color que identifique objetos de un color específico usando la cámara del celular. Toma una tarde y produce algo visual e inmediato.

2. Explora Roboflow y datasets públicos

Roboflow es una plataforma que permite entrenar detectores de objetos sin necesidad de configurar infraestructura. Tiene una versión gratuita para proyectos educativos y miles de datasets públicos —incluyendo uno de células cancerígenas, uno de señales de tránsito y uno de defectos de manufactura. Experimentar con datos reales cambia completamente la comprensión de lo que es el aprendizaje automático.

3. Conecta el interés con la física y las matemáticas

La visión computacional requiere álgebra lineal (operaciones con matrices), cálculo (para entender gradientes en entrenamiento de redes), y probabilidad. No tiene que dominarse en preparatoria —pero sí es importante no esquivar estas materias pensando que “no sirven para programar.” Sirven específicamente para este tipo de programación.

4. Considera ingeniería en sistemas, electrónica o mecatrónica

Las tres son rutas sólidas hacia la visión computacional. La mecatrónica tiene la ventaja de incluir robótica y sistemas embebidos, lo que abre puertas en manufactura y automotriz. La electrónica abre puertas en hardware de cámara y procesamiento en chip (edge AI). La ingeniería en sistemas es la ruta más flexible para quienes quieren inclinarse más hacia el software.

Puedes leer más sobre cómo evaluar estas rutas en nuestro artículo sobre ingeniería de ML vs. ciencia de datos: cuál elegir para tu hijo.

5. No ignores la parte de hardware

Los sistemas de visión computacional corren en hardware especializado: GPUs de NVIDIA, chips de procesamiento de imagen de Qualcomm, cámaras industriales con interfaces específicas. Un ingeniero que entiende tanto el software como las limitaciones del hardware donde corre es mucho más valioso que uno que solo conoce la parte de código. Entender cómo funciona una cámara a nivel físico —sensores CMOS, balance de blancos, exposición— es parte del trabajo real.

Qué observar en los próximos 3 años

Regulación de IA en diagnóstico médico: La FDA en EE.UU. ya aprobó más de 700 dispositivos de IA para diagnóstico por imagen desde 2022. México aún no tiene un marco regulatorio específico para IA médica, pero la COFEPRIS comenzó consultas técnicas en 2024. Cuando ese marco exista, abrirá el mercado a desarrollos nacionales. Los ingenieros que entiendan tanto la tecnología como el proceso regulatorio serán escasos y bien pagados.

Edge AI en cámaras: El procesamiento de visión está migrando desde la nube hacia los dispositivos mismos. Chips como el Apple Neural Engine o el Qualcomm AI 100 permiten correr modelos de detección directamente en la cámara, sin enviar datos a un servidor. Eso tiene implicaciones de privacidad, latencia y costos —y abre un área de ingeniería específica que hoy tiene muy pocos expertos.

Modelos fundamentales para visión: Al igual que GPT-4 es un modelo de lenguaje que sirve de base para miles de aplicaciones, modelos como SAM (Segment Anything Model, de Meta, 2023) son modelos fundamentales de visión que pueden adaptarse a tareas específicas con pocos ejemplos adicionales. Eso cambia el flujo de trabajo del ingeniero de visión computacional: menos tiempo entrenando desde cero, más tiempo adaptando modelos base a problemas específicos.

También puedes explorar temas relacionados como la carrera en ingeniería de robótica vs. software para entender qué tanto se solapan estos campos.

Preguntas frecuentes

¿Qué tan difícil es entrar a esta carrera?

Es exigente técnicamente —requiere programación, matemáticas y entendimiento de redes neuronales. Pero no es inaccesible. Muchos ingenieros de visión computacional exitosos empezaron con proyectos personales en OpenCV o participando en competencias de Kaggle. La curva de aprendizaje es pronunciada al inicio y luego se aplana considerablemente.

¿Se necesita estudiar en el extranjero?

No es necesario, aunque el doctorado en una universidad como MIT, Carnegie Mellon o Stanford abre puertas en los principales labs de investigación. Para trabajo en industria —que es donde está el grueso de las posiciones— un egresado del IPN, UNAM o Tec de Monterrey con portafolio sólido y proyectos demostrables compite bien.

¿Las plantas automotrices en México contratan a egresados locales?

Sí. Bosch México, Continental y las divisiones de ingeniería de las armadoras contratan egresados de universidades mexicanas. El requisito suele ser ingeniería en electrónica, sistemas o mecatrónica con buen nivel de inglés y alguna experiencia con visión computacional (proyecto de tesis, cursos de Coursera, proyectos personales).

¿Esta carrera tiene futuro con el avance de la IA generativa?

Sí, y de manera complementaria. Los modelos generativos como DALL-E o Stable Diffusion comparten arquitectura técnica con los modelos de visión computacional, pero el trabajo de “hacer que las máquinas vean el mundo real con precisión clínica o de seguridad” tiene requisitos de confiabilidad que los modelos generativos todavía no satisfacen. La distinción entre “crear imágenes” e “interpretar el mundo físico con precisión” seguirá siendo relevante por mucho tiempo.

¿A qué edad puede empezar un niño?

Con Python básico a los doce o trece años ya se puede explorar OpenCV a nivel de proyecto. No para hacer producción de sistemas reales, sino para entender los conceptos. A los quince o dieciséis con buenas bases matemáticas puede completar el curso de Convolutional Neural Networks de deeplearning.ai, que es lo que se enseña en primeros semestres de maestría en muchas universidades.

Sobre el autor

Ricky Flores es el fundador de HiWave Makers e ingeniero eléctrico con más de 15 años de experiencia desarrollando tecnología de consumo en Apple, Samsung y Texas Instruments. Escribe sobre cómo los niños aprenden a construir, pensar y crear en un mundo saturado de tecnología. Lee más en hiwavemakers.com.

Fuentes

Redmon, J., Divvala, S., Girshick, R., & Farhadi, A. (2016). “You Only Look Once: Unified, Real-Time Object Detection.” Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). https://doi.org/10.1109/CVPR.2016.91
Allied Market Research. (2023). Computer Vision Market by Component, Product Type, Application, and Industry Vertical: Global Opportunity Analysis and Industry Forecast, 2023–2032. https://www.alliedmarketresearch.com/computer-vision-market
LinkedIn. (2024). Jobs on the Rise 2024: Emerging Roles in AI and Technology. https://www.linkedin.com/pulse/jobs-rise-2024
Kirillov, A., Mintun, E., Ravi, N., et al. (2023). “Segment Anything.” arXiv preprint. https://arxiv.org/abs/2304.02643
U.S. Food and Drug Administration. (2025). Artificial Intelligence and Machine Learning (AI/ML)-Enabled Medical Devices. https://www.fda.gov/medical-devices/software-medical-device-samd/artificial-intelligence-and-machine-learning-aiml-enabled-medical-devices
Colegio Mexicano de Radiólogos. (2023). Informe sobre la disponibilidad de radiólogos en el sistema de salud mexicano. https://www.cmr.org.mx
OECD. (2024). Health at a Glance 2024: OECD Indicators. https://doi.org/10.1787/07f1bca4-en

Escrito por Ricky Flores

Fundador de HiWave Makers e ingeniero eléctrico con más de 15 años trabajando en proyectos con Apple, Samsung, Texas Instruments y otras empresas Fortune 500. Escribe sobre cómo los niños aprenden a construir, pensar y crear en un mundo impulsado por la tecnología.