Traitement d’images et de vidéos

Traiter des images et des vidéos avec l’Intelligence Artificielle

Le traitement de l’image et de la vidéo est un des principaux usages de l’Intelligence Artificielle.Premièrement parce que les moyens techniques sont à présent efficaces et évolutifs pour traiter des bases de données de plus en plus grandes et non structurées en une fraction de seconde. Deuxièmement parce que leur utilité (notamment business) est désormais avérée.

l’IA dans la reconnaissance d’images

Les technologies d’IA en terme de reconnaissance d’images permettent d’identifier une image (mettre un nom sur ce qui y est représenté y compris dynamiquement c’est-à-dire sur une image en mouvement) et de déclencher conséquemment une action associée (généralement savoir au moins dire ce que c’est puis de le classifier).

C’est exactement ce dont il s’agit en matière de conduite de véhicules autonomes : munie de capteurs et caméras, la voiture va pouvoir savoir si, devant elle, se trouvent une autre voiture (garée ou en mouvement), un trottoir, un immeuble, un feu rouge, un piéton, une ligne blanche, un virage, etc…et prendre une décision (avancer, s’arrêter, tourner et de combien de degrés…). Une technologie qui permet déjà de créer des courses de voitures…autonomes à l’instar de nos courses de F1 traditionnelles

Roborace, les courses de voitures autonomes

Amazon Go, le futur du retail grâce à l’IA

L’usage de ce type d’IA est très large, depuis la lecture sur les lèvres (où l’IA Lipnet atteint déjà quasiment 50% de taux de réussite), la reconnaissance des émotions (sourire, peine, colère…), en passant par la sécurité (reconnaissance d’individus, d’âge, de sexe, détection de comportements suspects, reconnaissance d’écritures manuscrites…).

L’exemple le plus bluffant du moment étant Amazon Go : une solution permettant de supprimer le passage en caisse puisque des caméras repèrent seules ce que vous achetez

De nouvelles applications naissent tous les jours. Parmi les plus bluffantes du moment, on notera la colorisation automatique d’images en noir et blanc, le détourage automatique d’éléments dans une scène en mouvement de sorte à pouvoir en faire un descriptif automatisé très complet, ou encore la prévision de ce qui se passe sur l’image d’après, dans une vidéo, alors même que la vidéo…s’arrête !

Des Start up ont développé des outils qui permettent d’identifier le contenu de photos ou de vidéos pour en extraire des tags, qui sont ensuite exploités dans diverses applications.

Par exemple, la société Cortica est capable de reconnaître une marque et un modèle de voiture dans une vidéo ou un animal dans une photo.

La société française Deepomatic utilise le deeplearning pour interpréter le contenu, la forme et la couleur d’images dans les médias, afin de les associer à des publicités contextuelles.

C’est également le cas avec le programme Deepface de Facebook, un système de reconnaissance faciale capable de déterminer si deux visages photographiés (y compris sous des angles différents) appartiennent ou non à la même personne (avec une précision de plus 97 %) ou de filtrer des contenus pour adultes

Vérification du visage par l’utilisation de la technologie Deepface

Fonctionnement du système

Comment fonctionne le système ?

Quoi que les algorithmes soient très complexes (réseau de neurones multicouches d’où le nom « Deep » Learning ), la description de leur fonctionnement est très simple car basé sur seulement deux grands principes.

D’abord, comme pour le cerveau humain, la machine doit apprendre. C’est en voyant plusieurs chats lorsqu’on est un enfant de moins de 2 ans que l’on va savoir reconnaître d’autres chats. On y associe généralement de grandes caractéristiques simples : petit animal, poilu, avec des oreilles pointues, de longues moustaches, sur 4 pattes, etc…

Il faut donc que la machine apprenne pareillement (machine learning ou en français, apprentissage automatique ou statistique). Pour cela on va lui mettre ENORMEMENT d’exemples à disposition afin qu’elle puisse reconnaître elle-même ces caractéristiques majeures. On lui donne en entrée un chat et en sortie l’instruction binaire informatique classique 1 (1 = oui bravo c’est un chat). Et on lui donne aussi des contre-exemples (0 en sortie = non, ce n’est pas un chat). Entre l’entrée et la sortie, l’algorithme va s’adapter pour avoir la bonne réponse le plus souvent possible.

Le principe est en fait le même depuis 1957 et la naissance du Perceptron. Deuxième grand principe : pour la machine, une image n’est qu’une somme de 0 et de 1. Ou dit autrement de pixels (vide ou non = 0 ou 1). Elle va donc devoir assembler des pixels par grappes pour reconnaître des sous-ensembles : dans l’un d’entre eux, elle va reconnaître une moustache, dans un autre une patte, puis dans le suivant une oreille pointue. Ensuite, elle va encore assembler l’ensemble un peu comme si elle se disait : « bon, alors j’ai là un petit animal, poilu, avec des oreilles pointues, de longues moustaches, sur 4 pattes, etc…donc c’est un chat !! ». La machine a empilé des neurones en réseau et en profondeur (DEEP learning).
Cette double méthode a été utilisée en 2012 dans un concours de reconnaissance d’images et a écrasé tous les adversaires ayant obtenu des scores largement inférieurs jusqu’à ce que, dès 2013, tous les concurrents adoptent cette technologie (concours ImageNEt ).

C’est à la fois avec ce descriptif qu’on s’aperçoit qu’il s’agit d’une intelligence. Mais aussi que ça n’en est pas (encore) vraiment une. L’ordinateur peut reconnaître une chaise : il ne sait pas pour autant plus ce qu’EST une chaise, à quoi ça sert, qu’on peut en détourner l’usage pour bloquer une porte, etc…

D’autres articles sur le même thème qui vont vous intéresser

L’IA et les applications liées au langage

Le traitement du langage est un domaine de l’IA qui regroupe les programmes de reconnaissance vocale ou de la parole,

L’analyse prédictive

Le terme d’analyse prédictive (ou encore logique prédictive) un des usages de l’IA faisant appel à des technologies

L’IA et les jeux

Les chercheurs se sont très vite intéressés à l’usage des techniques de l’Intelligence Artificielle dans la programmation

L’automatisation et l’IA

L’usage de l’intelligence artificielle (IA) ne concerne pas uniquement les activités quotidiennes et l’expérience utilisateur final des nouvelles technologies.

La robotique humanoïde

L’Intelligence Artificielle s’adapte à tous les domaines.L’IA se déploie dans presque tous les secteurs d’activité,

L’IA et les biotechnologies

L’usage de l’Intelligence Artificielle dans le domaine de la santé est en forte croissance.

L’IA et l’art

L’IA se déploie dans l’art pour se mesurer aux plus grands artistes du monde.

La simulation des systèmes complexes

La simulation d’un système complexe permet de reproduire et d’observer des phénomènes complexes (biologiques, sociaux et autres) pour les comprendre et anticiper leur évolution.