Notre démarche « flash »
Nous pensons que toute nouvelle technologie peut être expérimentée sur 2 mois selon le schéma suivant :C’est ce que nous avons proposé à la Direction Opérations et Innovation d’une grande banque française, que nos Suricats accompagnent depuis plusieurs années, autour de la reconnaissance des émotions vocales.
L’émotion, source d’information
La reconnaissance d’émotions est un domaine de recherche complexe dont l’objectif est de déduire les émotions exprimées par un humain. En effet, lorsque nous communiquons, nous partageons nos émotions, consciemment ou inconsciemment par différents canaux. Des réactions motrices (gestuelle, expression faciale) aux changements vocaux, en passant par des modifications physiologiques (chaleur, accélération du pouls), c’est l’ensemble de ces manifestations qui nous permet de discerner les émotions exprimées.
Dans le cadre de sa démarche d’innovation notre client bancaire s’est intéressé à la reconnaissance des émotions dans la voix et s’est tournée vers le Lab Suricats pour l’aider à réaliser une expérimentation flash et passer en revue les solutions existantes.
La détection d’émotions vocales se présente comme une méthode alternative ou complémentaire à celle des émotions sémantiques. La preuve : l‘être humain arrive parfaitement à détecter des émotions sans indices verbaux, c’est ce qui lui permet notamment de reconnaitre l’ironie dans un échange.
Il existe donc deux approches pour appréhender la reconnaissance d’émotions par la voix :
- Aujourd’hui, cette reconnaissance des émotions s’appuie généralement sur une analyse sémantique des phrases. C’est une des applications les plus répandues du traitement et analyse du langage naturel, consistant à calculer la positivité générale d’une phrase et d’en déduire une polarité.
- Mais l’on voit émerger la reconnaissance d’émotions sur la voix pure, sans analyse de texte.La reconnaissance d’émotions vocales est un domaine d’études qui considère que les émotions exprimées par la voix sont universelles. L’intensité des signaux et fréquences que nous émettons lorsque nous exprimons une émotion suivraient des règles heuristiques* qui pourraient être interprétées par un algorithme.
C’est cette seconde que le Lab Suricats, en collaboration avec notre client bancaire, a souhaité approfondir ici et qui a fait l’objet d’une expérimentation flash.
L’accompagnement proposé
Les 2 mois d’expérimentation pour ce client ont été découpés en 5 étapes :
ÉTUDE DES CAS D’USAGE : brainstormer à fond, valider le besoin, définir des cas d’usage concrets et anticiper au mieux les futures fonctionnalités de l’expérimentation.
Au démarrage de notre expérimentation, nous avons cherché à définir avec les équipes du client les cas d’usages potentiels de la reconnaissance d’émotions et ceux qui s’appliqueraient à la reconnaissance d’émotion vocales.
BENCHMARK : recenser les solutions du marché en ouvrant les recherches à d’autres secteurs
Une fois le besoin client éclairci, il convenait d’identifier les solutions existantes sur le marché répondant à nos attentes. La plupart d’entre elles sont APIsées (pour en savoir plus sur l’API) et exploitent des enregistrements de courtes durée (3 à 5 secondes) pour en déduire des émotions.
TEST : évaluer la maturité de chaque solution, déterminer si leurs algorithmes étaient suffisamment matures pour être exploités et sélectionner une solution.
Nous avons mis en place une expérimentation permettant la comparaison des solutions retenues.
Au final, notre choix s’est porté sur un algorithme de reconnaissance d’émotions vocales exploitable par une API comprenant une version d’essai : Empath.
RÉALISATION DU POC : expérimenter et comprendre la technologie, confirmer la maturité de la solution choisie et valider les cas d’usages définis.
L’application web que nous avons développé pour ce POC permet de s’enregistrer et de visualiser en direct les émotions déduites par l’algorithme d’Empath. L’utilisateur peut aussi téléverser un fichier audio ou en sélectionner parmi une liste présente sur l’application. Les résultats affichent la tendance générale de l’extrait, si l’utilisateur est plutôt joyeux, énervé, triste ou calme, ils permettent aussi de visualiser par un graphique à quel moment quelle émotion est exprimée dans l’extrait.
RESTITUTION DES CONVICTIONS : procéder au bilan de l’expérimentation et exposer nos recommandations.
Cette expérimentation nous a démontré que cette technologie reste émergente au moment où nous écrivons cet article. Les startups s’intéressant aux émotions détectées dans le flux vocal sont encore peu nombreuses et / ou très récentes.
Bien que de études aient démontré que des règles heuristiques universelles régissent l’expression de nos émotions, nous nous sommes interrogés sur leur capacité à recréer de réelles émotions. La constitution d’une base de données émotionnelle fiable reste un challenge pour évaluer la fiabilité des algorithmes.
Les solutions disponibles sont donc encore insuffisantes pour envisager une industrialisation imminente.
Une technologie pleine de potentiel
Malgré nos premiers constats, la reconnaissance des émotions vocales annonce des résultats encourageants.
L’éventail très large des cas d’usages définis (la priorisation des flux, l’adaptation du discours d’un humain ou d’un bot en direct, le ciblage marketing…) et la multitude d’acteurs arrivants sur le marché nous a persuadé de la pertinence de son exploitation.
Elle restera donc sous le radar du Lab Suricats et de la Direction Innovation de notre client.
Et nous n’hésiterons pas à vous prévenir des dernières nouveautés à ce sujet !