La tecnología de visión por ordenador (CV), un campo interdisciplinar de la ciencia que permite a los ordenadores ver, identificar y procesar imágenes de forma similar a como lo hace el ojo humano, está transformando rápidamente el panorama del comercio minorista. Tres expertos de Trax nos guían por el futuro de las aplicaciones basadas en CV en el comercio minorista.
Nuestros expertos en Trax
Sabemos que la CV se inspira en el córtex visual humano. Estamos en una fase en la que las máquinas están a la par, o incluso mejor, en la detección o clasificación de objetos que la visión humana?
Ziv: Sin duda. De hecho, en algunas tareas hemos alcanzado niveles sobrehumanos de visión con los ordenadores. Por ejemplo, en el famoso desafío ImageNet, se alimenta a un sistema con miles de clases de objetos como "buque portacontenedores", "ácaro", "seta" o "cereza", y el ordenador tiene que clasificar las imágenes en cada una de esas clases. Y lo que hemos visto es que la precisión de los mejores candidatos de la competición ha mejorado drásticamente: de alrededor del 74 % en 2012 al 95 % en 2017.
En términos sencillos, esto significa que los ordenadores son cada vez mejores que incluso los humanos a la hora de clasificar correctamente objetos como éste.
El ojo humano sufre ciertos sesgos innatos, a menudo como resultado de siglos de tendencias de búsqueda de patrones por parte de nuestros antepasados. Se puede entrenar a las máquinas para que sean infalibles?
Dolev: Los sistemas CV no son infalibles. Al igual que las ilusiones ópticas que confunden al cerebro humano, los sistemas de CV también pueden ser engañados mediante "imágenes adversas". Se trata de patrones e imágenes que aprovechan los puntos débiles de los algoritmos de CV para engañarlos y hacerles confundir un panda con un gibón o un gato con guacamole. De hecho, un equipo de estudiantes del MIT publicó un estudio en 2017 que mostraba cómo podían engañar a un sistema para que clasificara erróneamente la foto de una tortuga impresa en 3D como un rifle.
Los ciberdelincuentes podrían aprovecharse de ello para causar daños, como manipular las herramientas de reconocimiento facial para que reconozcan a las personas equivocadas o atacar los sistemas de CV que permiten la conducción autónoma de automóviles. Por ejemplo, una pequeña mancha en un lateral de la autopista podría hacer creer a un coche autónomo que está mirando una señal de stop.
¿Qué aplicaciones reales de la visión por ordenador le entusiasman?
Ziv: Muchas aplicaciones estaban atascadas antes del aprendizaje profundo, con solo mejoras muy pequeñas en la precisión: un 0,3 por ciento más o menos cada año. Pero con los avances del aprendizaje profundo, la CV experimentó un salto muy grande, lo que dio lugar a muchas aplicaciones intersectoriales.
El sector de los vehículos autónomos bulle de actividad con la entrada en el mercado de grandes fabricantes y gigantes tecnológicos. En función del nivel de autonomía que ofrecen, los vehículos autónomos se dividen en cinco niveles: desde el Nivel 1, que requiere una gran intervención del conductor humano, hasta el Nivel 5, totalmente autónomo. La mayoría de los vehículos autoconducidos actuales se sitúan en el Nivel 4, en el que es posible la autoconducción pero dentro de rutas previamente trazadas.
Yair: La industria de defensa sigue siendo posiblemente el usuario más dominante de este tipo de tecnologías. Es bastante habitual ver a países que utilizan sensores y drones equipados con cámaras en un entorno de campo de batalla para desarrollar estrategias de combate más seguras y proteger a los soldados.
Un uso menos conocido pero de enorme repercusión de la CV es el análisis y seguimiento de los cultivos en la agricultura. Con drones equipados con cámaras, los agricultores pueden captar imágenes del campo para detectar la salud de los cultivos, infestaciones de plagas y otras deficiencias que podrían afectar al rendimiento de las cosechas.
Dolev: ¡Pero lo que nos obsesiona es la venta al por menor! Utilizamos CV para capturar imágenes de los lineales y analizar productos individuales. Trax ayuda a digitalizar los lineales para reducir los tiempos de auditoría de los comerciales, y traduce las imágenes en datos para que los equipos de gestión de categorías, marketing de compradores y planificación de espacios reduzcan las roturas de stock, mejoren la distribución y ganen cuota de mercado a la competencia.
¿Se convertirá el CV en una mercancía?
Yair: El aprendizaje profundo ha comoditizado algunas aplicaciones de la visión por computador. Reconocer un objeto en tu teléfono móvil ya no es algo que solo puedan hacer las grandes empresas. Todo el mundo puede tomar código fuente abierto, conjuntos de datos públicos y entrenar un sistema con bastante facilidad. Estos pueden proporcionarte un nivel de precisión muy razonable en el reconocimiento de objetos.
Grandes empresas como Google, Facebook, Microsoft y Amazon pronto podrán ofrecer soluciones de CV listas para usar para aplicaciones convencionales. Pero si quieres desarrollar algo nuevo o de nicho o llevar las capacidades de una aplicación al siguiente nivel, necesitas capacidades de nicho.
Ziv: Tomemos como ejemplo el sector minorista. Aunque los avanzados algoritmos de reconocimiento de imágenes actuales son capaces de reconocer objetos dentro de una imagen con gran precisión, el proceso se vuelve mucho más complejo en un entorno minorista.
En este caso, las propiedades no son comunes: entornos abarrotados, SKU en constante cambio, productos casi idénticos o similares. Por eso, una plataforma de reconocimiento automático de imágenes debe cumplir ciertos criterios clave para garantizar un alto nivel de precisión: la capacidad de distinguir varios productos de aspecto casi idéntico, superar envases oscuros y reflectantes en condiciones de poca luz y detectar cambios en el ciclo de vida del producto, como nuevas versiones de diseño.
Ejemplo de diferencias en el envase de una botella de Coca-Cola Clásica de 1 litro
¿Qué podemos esperar de Trax? ¿En qué aplicaciones interesantes están trabajando?
Dolev: Una aplicación que nos entusiasma es Store Mapper. Utiliza el reconocimiento de imágenes para cartografiar tiendas físicas y digitalizarlas en un mapa 2D. Los compradores pueden utilizar una aplicación en sus teléfonos para ser dirigidos a los pasillos correctos mediante guías de localización basadas en RA, recibir promociones basadas en la localización y ser alertados de cualquier artículo que se esté agotando. Al escanear un producto en el teléfono se abre su información y valor nutricional, mientras que un asistente virtual ayuda a los compradores a añadir y seguir sus listas.
Para saber más sobre cómo ha evolucionado la Visión por Computador desde los laboratorios de investigación de los estudiantes hasta encontrar aplicaciones útiles en todos los sectores, descargue nuestro eBook Pasado, presente y futuro de la visión por ordenador.