Cela n’aura échappé à personne, l’enceinte intelligente de Google, Google Home, a volé la vedette aux traditionnels cadeaux de Noël (smartphones, tablettes). L’application Google Home, adossée à l’utilisation de l’enceinte, a connu un net bond dans le volume de téléchargement à la veille de Noël (App Annie).
Au-delà d’un simple buzz, cet engouement s’explique par le caractère disruptif que promettent les nouveaux usages des assistants vocaux. Après des décennies à avoir utilisé des écrans, des claviers et des souris, la voix pourrait devenir la nouvelle interface de communication avec les machines.
En effet, qu’ils soient dans notre poche, dans nos voitures ou dans nos maisons, ces assistants vocaux personnels vont réinventer nos modes de vies. De la banque à la santé en passant par la distribution, le e-commerce ou le tourisme, ils promettent de bouleverser nos habitudes en réinventant nos interactions avec les machines. Ainsi évoluent les solutions technologiques, toujours plus naturelles, rapides et efficaces.
Mais que sont ces assistants vocaux personnels qui vont repenser notre quotidien?
Nourris à l’intelligence artificielle, les assistants vocaux personnels représentent de nouvelles interfaces de communication capables de répondre à des requêtes vocales après avoir capté et analysé le contenu d’une demande orale. Deux exemples illustrant les usages des assistants vocaux :
« Ok google, quel est mon prochain rendez-vous ? »
« Votre prochain rendez-vous est à 15h30 chez Suricats au 43 rue de beaubourg. »
On les retrouve intégrés dans les enceintes connectées (Amazon Echo ou Google Home), dans les systèmes d’exploitation de smartphones (Siri, Cortana, Google assistant..), dans les applications et dans les ordinateurs. Ainsi, présents dans les devices et interfaces que nous utilisons tous, l’utilisation de ces assistants se généralise et promet de s’inscrire durablement dans notre quotidien.
Commerce, service, conseil : quels sont les principaux usages des assistants vocaux ?
En France, ils nous permettent déjà de lancer de la musique, de piloter des objets connectés, de répondre à nos questions et d’obtenir des informations pratiques. Ainsi, il est possible de s’informer des horaires de train avec Voyage Sncf (OUIGO), de constituer sa liste de courses sur Monoprix, d’être contacté par le support client de Boulanger ou de prendre rendez-vous chez Sephora. Aux Etats-Unis, les enceintes intelligentes d’Amazon permettent également de commander son Uber, de se faire livrer sa pizza Domino’s ou d’acheter un bien, et les GAFAM ne comptent pas s’arrêter là.
Les GAFAM à la conquête du vocal.
Saisissant l’enjeu majeur que représente cette nouvelle interface de communication, les GAFAM se sont lancés à la conquête du vocal en proposant des assistants vocaux intégrés dans des enceintes intelligentes et en développant un écosystème d’objets connectés. C’est autour de cet écosystème que se joue le bras de fer entre ces géants. En effet, la voix représentant l’interface la plus naturelle et intuitive pour l’homme, leur objectif est de devenir le medium unique pour accéder plus rapidement et durablement à davantage de consommateurs. On comprend ainsi l’importance d’étendre sa gamme de services via des partenariats pour pouvoir enrichir son écosystème (smart speakers, smart home devices…)
En haut du podium, nous retrouvons Amazon avec son Amazon Echo et Google avec Google Home, détenant respectivement 68% et 24% de parts de marché dans le monde (cnbc, 2017). En lançant dès 2014 Amazon Echo, et en proposant plus de 25.000 skills sur son portail, les ventes de l’enceinte du géant de Seattle, ont doublé, passant de 11 millions en 2016 à 22 millions l’année suivante. Cependant, malgré son avance considérable sur ses concurrents, Alexa, l’intelligence artificielle d’Amazon, reste à date limitée à la langue anglaise. Ainsi, profitant de l’absence des enceintes intelligentes d’Amazon sur le territoire français, Google ouvre la voix dans le marché de l’hexagone avec un large écosystème parmi lequel nous retrouvons entre autre, les ampoules Philips Hue ou le thermostat connecté Netatmo.
Les 4 grands acteurs sur le marché du vocal et leurs enceintes connectées
Apple, avec son assistant personnel Siri, a quant à lui été pionnier en matière d’assistants vocaux personnels. Bien que très avancé dans la synthèse et la reconnaissance vocale, il se trouve aujourd’hui dépassé par Amazon et Google qui bénéficient d’un plus grand nombre de données clients pour entrainer leur moteur (connaissance inégalable des habitudes de consommation pour Amazon via son catalogue de produits, versus une connaissance unique des utilisateurs pour Google avec Search, Gmail ou Maps). Ainsi, dans la course aux assistants vocaux, alimenter son moteur de langage naturel est primordial.
Mais comment ça marche exactement les assistants vocaux ?
Le mode de fonctionnement des assistants personnels intelligents repose sur 4 grandes briques
Les briques technologiques des assistants vocaux personnels
Prenons l’exemple d’un individu souhaitant commander un séchoir à cheveux :
- Une requête orale est formulée au smart speaker : «Alexa, je veux un séchoir à cheveux Babyliss ionic à 2100 W». Amazon Echo comprend que l’utilisateur a émis une requête car ce dernier a bien utilisé le wake word « Alexa » qui permet à l’enceinte de passé d’un mode d’écoute passif à un mode éveillé.
- La demande est retranscrite localement de l’oral à l’écrit par la machine. On parle de reconnaissance vocale ou de conversion « Speech-To-Text ».
- Le message est envoyé sur les serveurs Amazon pour être analysé de manière sémantique par le moteur de langage naturel (NLP) qui fonctionne de pair avec une IA intégrée à l’enceinte. Cette étape permet d’analyser le sens des mots générés par l’utilisateur pour pouvoir en faire ressortir une intention (verbe d’action) et une entité (sujet ou domaine associé).
- Le message passe par le moteur conversationel, qui répond à l’action en déclanchant le skill/action associé en consommant l’API du service concerné.
- L’assistant vocal renvoie une réponse à l’utilisateur par le biais de la synthèse vocale pour retranscrire un message de l’écrit à l’oral ; «Votre commande est passée.» On parle de synthèse vocale ou de conversion «Text-to-speech»
Schéma de fonctionnement d’une commande pour un sèche cheveux via l’assistant personnel vocal
Dans la course à l’assistant vocal, tout l’enjeu technologique repose sur la puissance des moteurs NLP. Ces moteurs, adossés à des algorithmes, sont alimentés par des quantités massives de données leurs permettant d’analyser de façon continue et autonome en apprenant par itération suite à des expérimentations pour établir des corrélations. Ces algorithmes permettent donc à la machine de s’auto-améliorer. C’est ce qu’on appelle « le machine learning » ou « apprentissage automatique ». Plus la machine sera entrainée, plus elle sera performante pour identifier l’intention/entité émise par l’utilisateur.
Ainsi, saisissant la portée de ces technologies pour atteindre une clientèle plus large et rendre l’interaction homme-machine plus naturelle, de nombreuses marques se lancent dans le commerce vocal.
A chaque secteur d’inventer les usages des assistants vocaux…
Dans le secteur de la Banque, les usages des assistants vocaux permettront de pouvoir recourir à un véritable conseiller en ligne, disponible 24/24 7j/7 pouvant nous assister dans toutes nos démarches. Capital One et Starling Bank, proposent déjà d’obtenir des informations sur son solde, d’être renseigné sur ses dernières transactions ou d’effectuer un virement bancaire.
Le parcours santé sera également réinventé. Il sera possible de recevoir des informations sur des traitements à suivre (dose à prendre, fréquence, notice…), de contacter son médecin traitant ou de s’auto diagnostiquer. Health tap’s Doctor AI aide déjà à diagnostiquer des pathologies primaires (anxiété, angoisse) ou de revoir certains diagnostics (fièvre jaune).
Coté retail, distribution et e-commerce, le parcours d’achat de biens/services sera simplifié et les décisions d’achats plus spontanées. Monoprix et Sephora sont ainsi devenues les premières enseignes grand public à se lancer dans le commerce « conversationnel » en finalisant leur partenariat en Novembre dernier avec Google. Ainsi, il est dores et déjà possible de dicter sa liste de course à Monoprix via Google Home après s’être muni de son numéro de fidélité. Il faudra cependant attendre encore quelques mois avant de pouvoir finaliser le parcours d’achat en intégrant la fonctionnalité de paiement. Parallèlement, l’assistant vocal promet d’améliorer considérablement le service client. Il sera possible de contacter le SAV plus rapidement et sans discontinuité (FAQ, informations sur le suivi d’une commande, modification d’une commande, mise en relation, etc.). Cela permettra de désengorger le service clientèle pour offrir une experience plus efficace et plus rapide. Ainsi, un véritable enjeu se dessine pour les commerçants qui pourront, grâce au vocal, accéder à un nouveau canal de vente, enrichir leurs données clients et améliorer l’expérience client avant et après vente. Finalement, on pourrait imaginer que ces assistants vocaux puissent avoir un usage in-store pour orienter les clients en magasin, les avertir sur les dernières promotions ou les conseillers en fonction de leur profil. On comprend ainsi que les marques pionnières sur le sujet prendront une avance considérable sur leurs concurrents puisqu’en accédant à des milliers de requêtes, ces dernières auront une connaissance plus étayée des besoins et des préférences de leurs clients.
Ainsi, en intégrant l’interface la plus naturelle et en promettant de simplifier notre vie, les assistants personnels vocaux devraient s’inscrire progressivement et durablement dans nos usages. Cependant, les challenges à relever sont nombreux. Au-delà des progrès nécessaires dans la compréhension sémantique d’un message (NLP) et de l’amélioration des performances en reconnaissance/synthèse vocale, le véritable challenge sera de pouvoir échanger une «vraie conversation» basée sur une anticipation pointue de nos besoins. Ce challenge est d’autant plus important qu’il permettrait à l’utilisateur de connaître une experience unique sans friction, loin de la frustration auquel il pourrait se heurter à l’heure actuelle face à certaines applications vocales.