Las Tiendas Amazon Go No Tienen Cajero — Esta Es la Carrera de Visión Computacional que las Maneja
Tabla de contenido

Las Tiendas Amazon Go No Tienen Cajero — Esta Es la Carrera de Visión Computacional que las Maneja

La tecnología sin cajero de Amazon Go usa visión computacional e IA entrenada con millones de horas de video. Te platico la carrera detrás y cómo tu hijo puede llegar ahí.

Entras a una tienda, agarras lo que quieres y te vas. Sin caja, sin escáner, sin cajero. Las cámaras en el techo y los sensores de peso rastrean cada artículo que tocaste. Una IA reconcilia tu selección y cobra a tu celular. No interactuaste con ningún empleado humano.

Amazon Go lanzó este concepto en Seattle en 2018. Para 2024, Amazon había licenciado la tecnología — llamada “Just Walk Out” — a aeropuertos, estadios y cadenas de tiendas de conveniencia en todo el mundo. Aeropuertos en Chicago, Dallas y Las Vegas la usan. Estadios de la NFL la usan. En algunos países de América Latina, operadores de tiendas de conveniencia ya están explorando implementaciones similares.

El sistema no se maneja solo. Requiere equipos de ingenieros de visión computacional, ingenieros de aprendizaje automático y especialistas en integración de sistemas. Ningún retailer está contratando cajeros para esos puestos.

El Problema Técnico que Hace Esto Difícil

Reconocer qué artículo agarró una persona suena simple hasta que lo piensas a escala. Una tienda Amazon Go típica tiene entre 30 y 50 cámaras montadas en el techo. Cada cámara ve un ángulo diferente del mismo espacio. Varias personas se mueven por la tienda simultáneamente, ocultándose parcialmente entre sí y a los anaqueles. Los artículos parecen similares desde arriba — una lata de Pepsi y una de Coca-Cola pueden tener formas idénticas a baja resolución. Las personas agarran artículos y los devuelven. Los artículos caen. Los anaqueles se reorganizan.

El sistema de visión computacional debe resolver todo esto en tiempo real, con suficiente precisión como para que Amazon apueste su relación de facturación con cada cliente en el resultado.

Eso requiere una combinación de:

  • Detección de objetos — identificar productos específicos desde ángulos para los que el empaque del producto nunca fue diseñado
  • Estimación de pose humana — rastrear dónde están las manos y brazos de cada persona en el espacio tridimensional
  • Fusión de sensores multi-cámara — combinar entradas de 30+ feeds de cámara en un único modelo coherente de lo que ocurre en la tienda
  • Integración de sensores de peso — usar sensores en los anaqueles como confirmación secundaria de que se tomaron artículos
  • Generación de recibo — al final de cada visita, atribuir cada artículo al cliente correcto y generar una cuenta correcta

Lo que Dice la Investigación Sobre Carreras en Visión Computacional

La visión computacional es una de las subespecialidades técnicamente más rigurosas del aprendizaje automático, y también una de las mejor compensadas.

Un informe de 2024 de la Asociación de Investigación en Computación encontró que los ingenieros de visión computacional con tres a cinco años de experiencia en grandes empresas de tecnología ganan una compensación total media de $185,000 a $240,000 dólares anuales. Los ingenieros senior con experiencia especializada en retail o robótica ganan entre $250,000 y $400,000 dólares anuales en empresas como Amazon, Apple y Waymo.

El fundamento académico de la visión computacional es el aprendizaje profundo — específicamente las redes neuronales convolucionales (CNN), estructuras matemáticas que aprenden a reconocer características visuales en imágenes procesándolas a través de capas jerárquicas de cálculo. Un artículo de 2012 de Krizhevsky, Sutskever y Hinton (ahora llamado “AlexNet”) demostró que las CNN profundas podían superar dramáticamente las técnicas tradicionales de visión computacional. Todo sistema moderno de tienda sin cajero desciende intelectualmente de ese artículo.

La investigación del Laboratorio de Ciencias Computacionales e Inteligencia Artificial del MIT (CSAIL) publicada en 2023 demostró sistemas de visión computacional que podían rastrear interacciones mano-objeto en entornos de retail con un 94% de precisión. Zebra Technologies publicó investigación en 2022 mostrando que las tiendas que usan visión computacional impulsada por IA para monitoreo de inventario redujeron los eventos de desabasto en un 65% en comparación con tiendas que usan conteos manuales tradicionales.

Comparación de Carreras en Visión Computacional

CarreraSalario Medio (2025)EspecializaciónEmpleador TípicoFormación
Ing. Visión Computacional (Retail)$160,000–$220,000 USDDetección de objetos, rastreoAmazon, Walmart LabsMaestría/PhD Cs. Computación
Ing. VC (Vehículos Autónomos)$180,000–$280,000 USDSensado en tiempo real, fusión lidarWaymo, Tesla, CruiseMaestría/PhD Cs. Computación
Ing. VC (Imágenes Médicas)$140,000–$200,000 USDDetección de patologíasGE Healthcare, PhilipsMaestría/PhD Cs. Biomédica
Ing. ML (General)$150,000–$230,000 USDEntrenamiento, despliegueCualquier empresa techLic./Maestría Cs. Computación

Fuentes: Levels.fyi (2025); Bureau of Labor Statistics (2025); Computing Research Association (2024).

El Panorama del Retail con IA Más Allá de Amazon

Amazon es el despliegue más visible, pero la tecnología de retail con visión computacional se ha extendido por toda la industria.

Walmart ha desplegado sistemas de visión computacional en sus centros de distribución para gestión de inventario, reduciendo significativamente el trabajo de conteo humano. Su brazo tecnológico, Walmart Global Tech, es uno de los mayores empleadores de ingenieros de visión computacional en el retail.

Chedraui, Walmart México y Soriana están explorando tecnologías de visión computacional para monitoreo de anaqueles y prevención de pérdidas. Las empresas que desarrollan estas soluciones para el mercado latinoamericano necesitan ingenieros que entiendan tanto el sistema técnico como las particularidades de los formatos comerciales locales.

Standard AI y Trigo Vision son empresas que licencian sistemas sin cajero competidores a retailers que no quieren usar la tecnología de Amazon directamente, creando un mercado para ingenieros de visión computacional fuera de Amazon.

El patrón es claro: la tecnología pasó de un único despliegue pionero (Amazon Go) a un cambio de infraestructura a nivel de industria en aproximadamente seis años. Los ingenieros necesarios para construir, mantener e iterar sobre estos sistemas suman decenas de miles a nivel global — y el pipeline de formación no está ni cerca de satisfacer la demanda.

Qué Significa Esto Para Tu Hijo — Las Habilidades que Transfieren

La geometría y el álgebra lineal son los fundamentos de la visión computacional. Un sistema de cámara 3D que rastrea dónde está la mano de una persona en el espacio está haciendo trigonometría y multiplicación de matrices continuamente. Los jóvenes que encuentran la geometría genuinamente interesante — que disfrutan pensar en cómo las formas se relacionan entre sí en el espacio — están en el camino intelectual correcto para este campo.

OpenCV es el punto de partida. OpenCV es una biblioteca de visión computacional de código abierto que funciona en Python. Existen tutoriales gratuitos que guían a un joven motivado de 14 años para construir un programa de detección de rostros, un programa de rastreo de movimiento, y un programa de reconocimiento de objetos usando modelos preentrenados. Los programas producen resultados visibles en tiempo real — el tipo de retroalimentación inmediata que mantiene el engagement.

Las matemáticas que importan — cuándo introducirlas. La maquinaria matemática completa del aprendizaje profundo (retropropagación, descenso de gradiente, kernels convolucionales) es realísticamente un tema universitario. Pero entender el concepto — que una red neuronal aprende a reconocer patrones ajustando millones de parámetros numéricos basándose en ejemplos — es accesible a los 12–13 años. Construye la intuición antes de la formalidad.

Los clubes de robótica tienden puentes. Muchos programas escolares de robótica (FRC, VEX) ahora incorporan desafíos de visión computacional. Un joven que ha hecho programación real de robótica con componentes de visión tiene mucha más experiencia concreta que uno que solo ha leído sobre el campo.

La visión computacional conecta directamente con la tecnología de drones — un campo que nuestro artículo sobre ingeniería de drones y UAVs como carrera cubre a profundidad. Las habilidades de fusión de sensores y detección de objetos se transfieren directamente entre los dos campos.

Qué Observar en los Próximos Tres Meses

  • Mes 1: ¿Tu hijo puede explicar — sin buscarlo — cómo una cámara podría saber teóricamente que pusiste un artículo en tu canasta en lugar de solo tocarlo? Si puede razonar sobre sistemas de múltiples sensores, la base conceptual está ahí.
  • Mes 2: Prueba un tutorial “Hola Mundo” de OpenCV juntos (se requiere Python). Si construye un detector de rostros funcional en una tarde y quiere saber cómo hacer que reconozca otras cosas, eso es engagement sobre el que se puede construir.
  • Mes 3: Observa si está generalizando — haciendo preguntas como “¿cómo funciona el escáner de autocaja del OXXO o Walmart?” o “¿por qué la cámara de mi celular a veces confunde dos caras similares?” Ese tipo de curiosidad aplicada es el mejor predictor de éxito en campos técnicos.

Preguntas Frecuentes

¿Todas las tiendas eventualmente serán sin cajero?

Probablemente no todas, pero una fracción significativa. La tecnología funciona mejor en tiendas de formato pequeño (conveniencia, grab-and-go, estadios) donde la selección de artículos es limitada y los clientes visitan rápidamente. Las tiendas de formato grande tienen muchos más artículos y complejidad de transacción, lo que hace más difícil y costosa la automatización total.

¿La visión computacional solo se aplica al retail?

Para nada. Se usa en imágenes médicas (detección de tumores en radiografías), vehículos autónomos, control de calidad en manufactura, agricultura (identificación de cultivos enfermos desde drones) y sistemas de seguridad. El retail es una aplicación de una tecnología muy amplia.

¿Cuánto tiempo toma aprender suficiente para trabajar en este campo?

Una ruta típica es una licenciatura de cuatro años en cs. computación con materias optativas en aprendizaje automático, seguida de uno a tres años de experiencia profesional enfocada en visión computacional. Los programadores autodidactas que construyen portafolios sólidos en proyectos de visión computacional a veces pueden entrar al campo más rápido, pero los fundamentos matemáticos requieren una inversión seria de tiempo.

¿Esta carrera está amenazada por mejor automatización?

Los ingenieros de visión computacional construyen automatización — no compiten con ella. A medida que los sistemas se vuelven más capaces, los equipos de ingeniería evolucionan para diseñar aplicaciones más sofisticadas, mejorar la precisión de los modelos, manejar casos extremos e integrar nuevos tipos de sensores. El campo se vuelve más complejo, no obsoleto.

Mi hijo tiene 12 años y le encantan los videojuegos — ¿hay un puente aquí?

Sí. Los motores de juego como Unity y Unreal Engine se usan ampliamente en el desarrollo de datos de entrenamiento de visión computacional — los ingenieros crean entornos 3D sintéticos para generar imágenes de entrenamiento anotadas a escala. Un joven que entiende cómo funcionan los entornos 3D de los juegos tiene conocimiento directamente relevante para cómo se construyen los pipelines modernos de entrenamiento de visión computacional.


Sobre el autor

Ricky Flores es el fundador de HiWave Makers e ingeniero eléctrico con más de 15 años de experiencia desarrollando tecnología de consumo en Apple, Samsung y Texas Instruments. Escribe sobre cómo los niños aprenden a construir, pensar y crear en un mundo saturado de tecnología. Lee más en hiwavemakers.com.


Fuentes

  1. Krizhevsky, A., Sutskever, I., & Hinton, G. E. (2012). “ImageNet Classification with Deep Convolutional Neural Networks.” NIPS 2012. https://dl.acm.org/doi/10.1145/3065386

  2. MIT CSAIL. (2023). “Hand-object interaction tracking in retail environments.” MIT CSAIL Technical Report. https://www.csail.mit.edu/research/computer-vision

  3. Zebra Technologies. (2022). “AI-driven shelf monitoring: Reduction in out-of-stock events.” Zebra Research. https://www.zebra.com/us/en/research/retail-intelligence-2022.html

  4. Computing Research Association. (2024). “Salary Survey: Machine Learning and Computer Vision Engineers.” CRA Report. https://cra.org/resources/salary-survey-2024

  5. U.S. Bureau of Labor Statistics. (2025). “Occupational Outlook Handbook: Software Developers.” BLS. https://www.bls.gov/ooh/computer-and-information-technology/software-developers.htm

  6. Amazon Science. (2024). “Just Walk Out Technology: Architecture and deployment.” Amazon Science Blog. https://www.amazon.science/blog/just-walk-out-technology

  7. Levels.fyi. (2025). Software Engineering Compensation Database. https://www.levels.fyi

Ricky Flores
Escrito por Ricky Flores

Fundador de HiWave Makers e ingeniero eléctrico con más de 15 años trabajando en proyectos con Apple, Samsung, Texas Instruments y otras empresas Fortune 500. Escribe sobre cómo los niños aprenden a construir, pensar y crear en un mundo impulsado por la tecnología.