L'analyse de données contrôlées par la voix : science fiction ou réalité ?

Tous les constructeurs de smartphones, ou presque, proposent désormais une fonctionnalité d’assistance intelligente contrôlée par la voix. Après Apple avec Siri, Amazon avec Alexa au sein du boitier Echo, Google avec Assistant que l’on interpelle par un simple « Ok Google », et Microsoft avec Cortana, Samsung présentera dans quelques jours son assistant vocal nommé Bixby avec le lancement du Galaxy S8.

Nous communiquons avec eux de façon tout à fait naturelle, en demandant par exemple à Alexa d’allumer la radio. Pas de bouton, pas de balayage de la bande FM : il suffit de prononcer une simple commande vocale pour écouter la station de notre choix. En grandissant, nos enfants arriveront peut-être au point où ils n’imagineront même plus que l’on ait été obligé d’appuyer sur un bouton pour effectuer une opération aussi simple qu’écouter de la musique.

Et si ces assistants intelligents pouvaient aussi nous aider à comprendre nos données ? Stephen Few, spécialiste de l’analyse visuelle des données (data sensemaking), a récemment écrit un article expliquant pourquoi la programmation neurolinguistique (PNL[1]) n’a pas d’avenir en tant qu’outil de saisie capable d’exploiter pleinement le sens des données. Effectivement la PNL n’a guère d’avenir, sauf pour répondre à des questions élémentaires concernant les données, mais cette situation va changer. Et si nous tardons à prendre certaines décisions - même hésitantes - pour nous lancer vers cet objectif, nous n’y arriverons jamais.

Est-ce qu’une conversation peut permettre d’explorer des données ?

Premièrement, rappelons-nous pourquoi nous explorons des données. En tant qu’individus, nous voulons obtenir des informations pertinentes dans les plus brefs délais, tandis que les entreprises cherchent à démocratiser l’accès aux données. Notre objectif est de créer des interfaces aussi intuitives que possible avec les machines, de sorte que tout le monde pourra trouver des informations pertinentes dans ses propres données, même sans disposer d’une formation approfondie.

À mesure que les questions deviennent plus complexes, il devra être possible de continuer à utiliser le langage naturel pour « naviguer » au fil des données jusqu’aux informations les plus pointues. Vidya Setlur, chercheuse en PNL, explique : « Il est rare qu’un unique graphique statique suffise pour répondre aux questions d’une personne. Un vaste ensemble de graphiques est créé et exploré pour répondre aux nouvelles questions posées. La capacité de tout système à répondre intelligemment à des questions itératives sans que l’utilisateur soit nécessairement un statisticien qualifié ou un expert en bases de données constitue un paramètre critique. »

Prenons l’exemple d’un jeu de données concernant des manifestations sismiques. La question « Montrez-moi les principaux tremblements de terre qui ont frappé la France » constitue un point de départ intéressant, qui se traduira probablement par la génération d’une carte. « Et l’Île-de-France ? » constitue une interrogation supplémentaire logique. Le défi de la PNL est de maintenir le contexte entre ces deux questions - et d’autres - tout en nous permettant de nous exprimer de façon naturelle en utilisant ce que les chercheurs en intelligence artificielle appellent la pragmatique du langage.

« Cette approche est pleine de promesses, car elle permet de maintenir le flux », explique Vidya. « Grâce au langage naturel, les utilisateurs ont la possibilité de poser des questions plus facilement qu’en les traduisant en commandes transmises via une interface graphique adaptée. »

Pourquoi ne pas tenter de permettre aux utilisateurs de poser des questions complexes à leurs propres données en utilisant le langage ? Je suis convaincu que les développements de la PNL iront de pair avec la technologie de reconnaissance vocale. Pour ma part, je dicte déjà la plupart de mes recherches Google et mes textos parce que cette technologie affiche les performances requises. Il est plus facile de dicter que d’utiliser un clavier. Dès que la reconnaissance vocale sera suffisamment puissante pour que nous puissions converser avec des données, je serai le premier à débrancher ma souris et mon clavier.

Les téléphones mobiles sont l’accessoire auquel nous consacrons actuellement le plus clair de notre temps. Pensez à la façon dont nous interagissons avec un smartphone : pas de souris, un clavier peu pratique et des doigts imprécis. Cette problématique a été soulevée l’année dernière par Elon Musk lors de conférence Code de Recode : « Nous sommes limités par notre système d’entrée/sortie, surtout au niveau de la sortie. Votre niveau de sortie est extrêmement bas, surtout avec deux pouces qui tapotent comme ils peuvent sur le téléphone. Cette lenteur devient ridicule ». C’est pourquoi le travail ne manque vraiment pas dans le domaine de la synthèse vocale (TTS). À terme, c'est-à-dire quand le langage le permettra, il sera possible d’analyser des données de façon naturelle sur un téléphone.

Bien sûr, nous avons encore du pain sur la planche. La plupart des assistants vocaux oublient chaque question dans la seconde qui suit, de sorte qu’il est difficile de parler de « conversation ». L’analyse des données par commandes vocales fonctionne uniquement avec les questions les plus élémentaires. Mais rappelez-vous qu’il y a cinquante ans, personne n’imaginait qu’un ordinateur serait capable de battre un joueur d’échecs. Cerise sur le gâteau, les machines parviennent également à surclasser les meilleurs joueurs de Go et ont même raflé la mise au poker, un jeu qui repose essentiellement sur le bluff et l’émotion, ainsi que sur la probabilité pure.

Le domaine de la robotique fournit d’autres exemples qui nous permettent de mesurer facilement le chemin parcouru. Les succès comme les échecs tiennent à peu de choses, et s’ils ont encore tendance à tomber facilement, parions que les robots parviendront à courir ou à marquer des buts dans un avenir relativement proche.

La meilleure analyse des données passe par l’exploration. Pour converser avec mes données, je suis encore obligé de passer par une souris, un clavier et une interface graphique. Je préférerais, et de loin, avoir une conversation itérative avec les données en utilisant ma voix. Je suis convaincu que le jeu en vaut la chandelle. Certaines des premières étapes de la PNL et de la reconnaissance vocale peuvent sembler ridicules, mais nous devons poursuivre sur cette voie pour permettre au plus grand nombre de poser des questions aussi variées que complexes sans qu’il soit indispensable de maîtriser des interfaces sophistiquées.

L’analyse de données contrôlées par la voix : science fiction ou réalité ?

Est-ce qu’une conversation peut permettre d’explorer des données ?