William Eldin, XXII Group « Une fois compris les mécanismes qui amènent à des émotions, les potentialités sont infinies »

L’un des grands questionnements de l’IA reste la capacité des robots à avoir des émotions. Avec la prolifération des capteurs, celles-ci deviennent de plus en plus déchiffrables et peut-être un jour transposables à la machine. Quels sont les enjeux derrière tout ça ?

William Eldin, CEO de XXII Group, laboratoire de Recherche et Développement qui crée des expériences à base d’IA et d’Extended Reality nous explique comment la compréhension des émotions revêt d’un potentiel encore largement inexploité, et quelles sont les applications concrètes que la startup a pu développer.  

 

Pour aborder la compréhension des émotions, vous vous appuyez particulièrement sur l’IA liée à la vision, pourquoi avoir choisi cette voie ?

 

Depuis l’avènement du Big Data et l’augmentation de la puissance de calcul, beaucoup de gens se sont engouffrés dans l’IA liée au traitement de la donnée et de la voix. Nous, on s’est posé une question : quel est le premier vecteur d’apprentissage de l’être humain ? On s’est figuré un jeune enfant. En premier lieu, il pompe absolument tout par les yeux. Alors qu’on veut dessiner l’IA à notre image, pourquoi ne pas s’y intéresser ? En plus, il y a déjà des caméras partout. On a donc décidé d’apprendre à voir aux machines. À voir des choses qui bougent qui s’appellent des êtres humains, et des choses fixes qui s’appellent des objets. À partir de là, on peut y lier des actions et des émotions.

 

Comment réussir à collecter suffisamment de données pour décrypter des émotions humaines ?

 

On a décidé de travailler avec deux gros moteurs. Un moteur d’apprentissage de la dynamique humaine et de toutes les émotions. On a commencé avec le visage, le sourire, la tristesse, etc. Puis on s’est penché sur les gestes et interactions. Quand notre algorithme voit un être humain, il en représente une sorte de squelette, avec des boules à chaque degré de liberté et des arêtes entre celles-ci. En fonction de nombreuses dynamiques comme l’accélération, on peut identifier le geste et avec l’IA, donner du sens à ce geste dans le contexte et décrypter l’émotion.

Il nous fallait également un moteur d’objets. Car c’est compliqué d’apprendre à quoi ressemble un objet. Pour un seul, 500 à 1000 photos sont nécessaires, sous plusieurs angles, plusieurs luminosités. En s’appuyant sur notre activité d’Extended Reality – regroupant AR, VR et MR – on a créé un moteur qui peut apprendre très vite, et surtout à la volée, pour réussir à collecter en 3D plus de 15000 photos par objet qui viennent alimenter nos datasets et apprendre aux machines.

 

Il semble y avoir chez XXII Group une obsession à proposer des utilisations concrètes de l’IA et de l’Extended Reality. Pourquoi cela ?

 

Il faut se rendre compte que les usages de l’IA sont plus proches de nous qu’il n’y paraît. Faire entrer concrètement ces technologies du futur dans la vie des gens avec des bénéfices directs, c’est la meilleure façon pour qu’elles soient comprises et fassent moins peur. On devrait voir ça comme une simple extension digitale de nous-mêmes, dû au progrès technologique. Donc on fait en sorte de résoudre des problématiques quand on se lance sur un projet avec un client, pas simplement à inventer un problème pour poser notre technologie.

 

Pouvez-vous détailler un cas concret ?

 

On travaille actuellement dans les gares et aéroports parisiens sur l’un de nos projets. L’une des principales priorités à gérer, c’est l’identification des bagages abandonnés. Les grandes gares parisiennes, ce sont entre 3000 à 6000 caméras chacune, donc on peut tout voir, mais l’être humain seul est vite dépassé. Avec nos technologies, on observe tous les flux vidéo d’entrée et de sortie, on fait des datasets de bagages, puis on lie les bagages avec les squelettes qui entrent. Dès que les deux se séparent, au bout d’un certain temps et d’une certaine distance, ça alerte le centre de contrôle, ça traque la personne, et ça garde le bagage en visuel. Plusieurs actions déclenchées instantanément, alors qu’une seule d’entre elles aurait sans doute mis une dizaine de minutes à se faire avant. Finalement, c’est la quatrième révolution industrielle qui est en marche : l’automatisation.

 

Vous n’êtes pas les seuls à vous intéresser à cette compréhension des émotions. Apple a présenté en grande pompe un service d’émoticônes animées, sans que l’on comprenne réellement en quoi c’était une révolution. Qu’est-ce qui se cache derrière ?

 

Une fois compris les mécanismes qui amènent à des émotions et des comportements, les potentialités sont infinies. Et évidemment, à terme, les applications business aussi. En proposant un service simple que tous ses utilisateurs vont utiliser, qui aura également la ressource des messages pour contextualiser, Apple se créer un une base de données énorme.  Et comme c’est le cas dans d’autres domaines aujourd’hui, ils se positionneront comme pourvoyeur de données. Les petits vont défricher les cas d’usage concrets, montrer les opportunités dans les différents secteurs. Les gros, type Amazon, IBM auront travaillé leurs algorithmes complexes à implémenter concrètement. Et il y aura des passerelles qui se créeront pour que cette technologie s’insère dans la société et le business.

 

La présentation par Apple de son service d’émoticônes a attiré les moqueries, comme cette parodie de présentation de l’iPhone X “Machine à émoticônes à 1000 dollars”.