Yann Lechelle, quand l’IA dit bye-bye au Big Data

Pointée du doigt par les régulateurs et mise en peine suite au RGPD entré en vigueur en mai dernier, la collecte de nos données personnelles par les géants de la tech en fait tiquer plus d’un. Au sein de la Silicon Valley, cette pratique est pourtant communément justifiée par le besoin de rendre les IA de notre quotidien plus pertinentes. Mais pour Yann Lechelle, l’argument ne tient plus.

COO chez Snips, startup lancée par trois chercheurs en Machine Learning pour développer des technologies d’assistant vocaux, Yann explique pourquoi les données ne sont plus systématiquement nécessaires pour améliorer les IA que nous utilisons tous les jours.

Est-il vraiment possible de faire de l’IA sans données ?

La question devrait plutôt être : aura-t-on besoin de données ad vitam aeternam ? Et la réponse : probablement pas.

Nous avons toujours besoin de beaucoup de données pour développer des modèles d’IA. Néanmoins, une fois qu’un problème aura été résolu grâce aux dites données, en amasser encore plus ne permettra pas nécessairement d’améliorer le modèle. On constate plutôt qu’au bout d’un certain temps, nous atteignons un plateau. L’asymptote illustrant le rapport entre intégration des données et efficacité de l’IA, suivant « le modèle des retours diminuant », n’est ni linéaire, ni exponentielle. Une fois qu’un modèle est stable, bien entrainé, il est donc inutile de capter plus de datas. Par exemple, dans un iphone passé en mode déconnecté, il est possible de taper dans le champ de recherche de votre application Photo les mots clés « montagne » ou « chat » et d’obtenir les bons résultats grâce au réseau de neurones artificiels pré-entrainé et figé par Apple.

Ensuite, de nouvelles techniques permettent de générer de la data, de la synthétiser ou de la crowd sourcer. Aujourd’hui, sans avoir accès aux données du client final, il est possible de créer des modèles qui non seulement tiennent la route, mais qui parfois surperforment en utilisant les données générées par des professionnels ou par les algorithmes eux-mêmes.

De quelle manière ces algorithmes génèrent-ils de la data ?

Un exemple absolument extraordinaire, celui d’AlphaGo : un programme informatique capable de jouer au jeu de go, développé par l’entreprise britannique DeepMind rachetée en 2014 par Google. Ce programme apprenait initialement sur la base de centaines de parties jouées par des champions, scrupuleusement enregistrées et étudiées par les machines. Or, la seconde version du programme, celle délivrée il y a 3 mois de cela, a appris toute seule : l’algorithme s’est positionné comme concurrent de lui-même et a joué des milliards de parties. Seule prémisse de la machine : la connaissance des règles. Elle a ensuite mis en parallèle et itéré plusieurs millions de parties, sans aucune perte de cadence ou d’énergie. AlphaGo est donc autosuffisant en data : nul besoin d’archives ou d’une batterie d’humain pour éduquer la machine.

Est-il juste de dire que les machines vont du coup aller vers plus d’autonomie ?

Il faut faire attention à ce terme, car il évoque l’image du robot qui pense par lui-même… Plus d’autonomie, non… Mais vers une indépendance des jeux de données et du big data, oui ! Ce que démontre ce programme, c’est qu’il est possible au bout d’un moment de substituer la data avec d’autres techniques, et qu’il ne faut pas forcément se polariser sur la notion de donnée, qui reste néanmoins une composante importante.

Est-ce possible avec toutes les IA ?

Cela est possible dès que le jeu de donnée d’une IA est stable dans le temps : dans ce cas, il est possible d’extraire la quintessence des données avec un nombre limité de ces dernières. Néanmoins, si le jeu de données évolue en permanence et de manière radicale, on devra alors remettre l’échantillon à jour et collecter des données plus “fraîches”.

Google, Facebook…Leur services n’ont donc nullement besoin de plus de données pour mieux fonctionner ?

En effet… Ils veulent simplement justifier leur modèle outrancièrement cloud centric, qui leur donne tout pouvoir. Snips se pose au contraire en alternative, car notre modèle est massivement décentralisé, et ne possède pas de hub central, pas de service en SaaS… Notre modèle en edge prend le contre-pied du cloud. Edge is the new cloud!

Pourquoi alors selon vous cette collecte intempestive des données ?

Facebook et Google sont nés au moment où le cloud devenait réalité : ils ont donc exploité massivement cet outil, à la base de leur modèle. D’autres société, dont Snips, créée il y a moins de cinq ans, reflètent mieux l’esprit des générations Y et Z : elles ont compris que nous avons atteint les limites du modèle en cloud, qui capte bien trop de données.

Revendiquer le privacy by design, cela ne relève pas forcément d’une idéologie, mais d’une réelle prise de position. Il est tout à fait possible pour un acteur de se donner la contrainte de ne pas prélever de données aux consommateurs finaux, en s’appuyant sur les dernières techniques d’optimisation pour fonctionner en edge.

Les géants de la tech pourraient sans aucun doute faire ce travail, ils en ont les moyens, au risque de perdre leur position dominante!