Domaine scientifique interdisciplinaire qui permet aux ordinateurs de voir, d'identifier et de traiter des images comme le fait l'œil humain, la technologie de la vision par ordinateur (VA) transforme rapidement le paysage de la vente au détail. Trois experts de Trax nous présentent l'avenir des applications basées sur la vision par ordinateur dans le commerce de détail.
Nos experts Trax
Nous savons que la CV s'inspire du cortex visuel humain. Sommes-nous arrivés à un stade où les machines sont au même niveau que la vision humaine, voire meilleures, pour la détection ou la classification d'objets ?
Ziv : Tout à fait. En fait, dans certaines tâches, nous avons atteint des niveaux de vision surhumains avec les ordinateurs. Par exemple, dans le célèbre défi défi ImageNet, vous donnez à un système des milliers de classes d'objets comme "porte-conteneurs", "acarien", "champignon" ou "cerise", et l'ordinateur doit classer des images dans chacune de ces classes. Nous avons constaté que la précision des meilleurs candidats s'est considérablement améliorée, passant d'environ 74 % en 2012 à 95 % en 2017.
En termes simples, cela signifie que les ordinateurs deviennent meilleurs que les humains pour classer correctement des objets comme celui-ci.
L'œil humain souffre de certains biais innés, qui résultent souvent de siècles de recherche de formes par nos ancêtres. Les machines peuvent-elles être formées pour être infaillibles ?
Dolev : Les systèmes de CV ne sont pas à toute épreuve. À l'instar des illusions d'optique qui déconcertent le cerveau humain, les systèmes de CV peuvent également être trompés à l'aide d'"images adverses". Il s'agit de motifs et d'images qui exploitent les faiblesses des algorithmes de CV pour les tromper et leur faire prendre un panda pour un gibbon ou un chat pour du guacamole. En fait, une équipe d'étudiants du MIT a publié une étude en 2017 qui montrait comment ils pouvaient tromper un système en classant à tort une photo d'une tortue imprimée en 3D comme un fusil !
Des acteurs malveillants pourraient s'en servir pour causer des dommages, par exemple en manipulant les outils de reconnaissance faciale pour qu'ils reconnaissent les mauvaises personnes ou pour attaquer les systèmes CV qui permettent aux voitures de se conduire elles-mêmes. Par exemple, une petite tache sur le côté de l'autoroute pourrait faire croire à une voiture autonome qu'elle regarde un panneau d'arrêt.
Quelles sont les applications concrètes de la vision par ordinateur qui vous enthousiasment ?
Ziv : De nombreuses applications étaient bloquées avant l'apprentissage profond, avec seulement de très faibles améliorations de la précision - 0,3 % environ chaque année. Mais avec les progrès de l'apprentissage profond, le CV a fait un très grand bond en avant, ce qui a donné naissance à de nombreuses applications intersectorielles.
Le secteur des véhicules autonomes est en pleine effervescence avec l'arrivée sur le marché d'un certain nombre de grands constructeurs et de géants de la technologie. En fonction du niveau d'autonomie offert, les véhicules autoguidés se répartissent en cinq étapes, allant des véhicules de niveau 1, qui requièrent une implication importante du conducteur humain, au niveau 5, qui correspond aux véhicules entièrement autonomes. La plupart des véhicules à conduite autonome actuels se situent au niveau 4, où la conduite autonome est possible mais sur des itinéraires préétablis.
Yair : L'industrie de la défense reste sans doute le principal utilisateur de ces technologies. Il est assez courant de voir des pays utiliser des capteurs et des drones équipés de caméras sur le champ de bataille pour développer des stratégies de combat plus sûres et protéger les soldats.
L'analyse et le suivi des cultures dans l'agriculture constituent une utilisation moins connue de la CV, mais dont l'impact est considérable. À l'aide de drones équipés de caméras, les agriculteurs peuvent capturer des images du champ pour détecter la santé des cultures, les infestations de parasites et d'autres déficiences qui pourraient avoir un impact sur le rendement de la récolte.
Dolev : Mais c'est le commerce de détail qui nous obsède ! Nous utilisons la CV pour capturer des images d'étagères afin d'analyser des produits individuels. Trax permet de numériser les rayons afin de réduire les temps de vérification pour les vendeurs et de traduire les images en données pour les équipes de gestion des catégories, de marketing et d'aménagement de l'espace afin de réduire les ruptures de stock, d'améliorer la distribution et de gagner des parts de marché par rapport à la concurrence.
Le CV deviendra-t-il une marchandise ?
Yair : L'apprentissage profond a banalisé certaines applications de la vision par ordinateur. Reconnaître un objet sur votre téléphone portable n'est plus une chose que seules les grandes entreprises peuvent faire. Tout le monde peut utiliser un code source ouvert, des ensembles de données publiques et entraîner un système assez facilement. Ceux-ci peuvent vous fournir un niveau de précision très raisonnable en matière de reconnaissance d'objets.
Les grands acteurs comme Google, Facebook, Microsoft et Amazon seront bientôt en mesure d'offrir des solutions CV prêtes à l'emploi pour les applications courantes. Mais si vous voulez développer quelque chose de nouveau ou de niche, ou faire passer les capacités d'une application au niveau supérieur, vous avez besoin de capacités de niche.
Ziv: Prenons l'exemple du secteur de la vente au détail. Si les algorithmes de reconnaissance d'images avancés d'aujourd'hui sont capables de reconnaître des objets dans une image avec une grande précision, le processus devient beaucoup plus complexe dans un environnement de vente au détail.
Dans ce cas, les propriétés ne sont pas communes : environnements encombrés, UGS en constante évolution, produits quasi identiques ou similaires. Une plateforme de reconnaissance d'images automatisée doit donc être capable de répondre à certains critères clés pour garantir un haut niveau de précision - la capacité de distinguer plusieurs produits d'apparence presque identique, de surmonter les emballages obscurs et réfléchissants dans de mauvaises conditions d'éclairage, et de détecter les changements dans le cycle de vie du produit, comme les nouvelles versions de design.
Exemple de différences dans l'emballage d'une bouteille de Coca-Cola classique de 1 litre
Que pouvons-nous attendre de Trax ? Quelles sont les applications les plus intéressantes sur lesquelles vous travaillez ?
Dolev : Le Store Mapper est une application qui nous enthousiasme beaucoup. Elle utilise la reconnaissance d'images pour cartographier les magasins de détail et les numériser sur une carte en 2D. Les acheteurs peuvent utiliser une application sur leur téléphone pour être dirigés vers les bonnes allées à l'aide de guides de localisation basés sur la réalité augmentée, être ciblés par des promotions basées sur la localisation et être alertés sur les articles en rupture de stock. En scannant un produit sur le téléphone, on obtient ses informations et sa valeur nutritionnelle, tandis qu'un assistant virtuel aide les acheteurs à ajouter et à suivre leurs listes.
Pour en savoir plus sur l'évolution de la vision par ordinateur, depuis les laboratoires de recherche des étudiants jusqu'aux applications utiles dans les industries, téléchargez notre eBook Le passé, le présent et l'avenir de la vision par ordinateur.