21 Fév Assistants vocaux avec Alexa – 21 février 2019
Philippe Daly, General Manager Alexa Skills, Amazon – Jamal Lassri, Directeur de l‘innovation et des nouvelles formes d‘écoute, Europe 1 – Pierre Chausse, Directeur adjoint des rédactions, Le Parisien – Audrey Ferrante, Directrice de la stratégie de Marque, Marmiton – Gwendoline Michaelis, Directive Exécutive du pôle Preemium, Prisma Media
Une table ronde animée par Joel Ronez, Fondateur de Binge
Le marché des assistants vocaux est un marché encore jeune avec des perspectives de croissance importantes. Dans les prochaines années, les interactions avec les objets connectés se feront de plus en plus par la voix : En 2020, sur les 200 milliards de requêtes formulées, 50% devraient l‘être par la voix.
Près de 9 mois après le lancement d‘Alexa en France, Philippe Daly, General Manager d‘Alexa Skill et 4 éditeurs de Skill, ont accepté de partager leurs retours d‘expériences avec les membres du GESTE. Ces Skills ne reposent pour le moment sur aucun modèle économique tangible, mais constitue un nouveau canal d‘engagement. La logique conversationnelle permet également aux marques d‘avoir une proximité particulière avec leurs utilisateurs.
Quelles sont les clés de succès d‘une Skill ?
– Soigner le design conversationnel : Une bonne Skill repose sur un arbre conversationnel bien construit. Il doit être le plus naturel possible. Les éditeurs ayant cherché à intégrer dès le départ des fonctionnalités trop complexes sont rapidement revenus vers un schéma plus simple, permettant, dans un premier temps, d‘appréhender au mieux la technologie. – Répondre à une diversité d‘utérances : Les utérances sont des séries de phrases ayant la même intention mais formulées différemment. Pour fluidifier l‘expérience de l’utilisateur, il faut parvenir à appréhender l‘ensemble des manières qu‘il va avoir d‘interagir avec la Skill. – Avoir une approche user centric – Coller à l‘ADN de sa marque : L‘éditeur d‘une Skill doit penser aux cas d‘usages qui exploitent la voix et peuvent rendre grâce à la marque, sans s‘éloigner de l‘ADN de sa marque. Il faut notamment trouver un ton adapté et la bonne voix.
–« Content Audio is king » : La production audio est fondamentale. Il s‘agit d‘une vraie expertise que les éditeurs de Skill doivent placer au coeur de leur stratégie.
–L‘exigence éditoriale
Quels sont les enjeux des prochaines années ?
– Trouver un modèle économique et de nouvelles opportunités de monétisation –Adresser des utilisateurs en multidevice –Mesurer et qualifier l‘audience – Identifier un contexte d‘écoute
Présentation d‘Alexa 9 mois après le lancement en France
Le lancement d‘Alexa en France a eu lieu en Juin 2018, le temps notamment que l‘intelligence artificielle d‘Amazon apprenne le français. De nombreuses marques ont joué le jeu en amont du lancement, particulièrement les radios qui ont l‘expertise de la création et de la production audio.
Les marques ont fait le choix de se positionner pour différentes raisons : innover, apporter un gameplay différent, être présent sur un nouveau canal de prise de commande, générer des nouvelles habitudes de consommation et d‘accès à l‘information.
En l‘espace de 6 mois, il y a eu un engouement extrêmement fort de la part de la communauté des développeurs pour Alexa. (258 Skills au moment du lancement, 1000 Skills fin 2018).
I Qu‘est–ce qu‘une Skill ?
Les Skills (ou Applications d‘Alexa) sont le territoire où les développeurs et les marques peuvent s‘exprimer et offrir aux clients d‘un device Echo ou de n‘importe quel device ayant intégré Alexa, l‘expérience de marque qu‘ils peuvent trouver sur d‘autres canaux.
I Quelle technologie permet d‘embarquer Alexa ?
L‘enceinte capable de faire tourner Alexa, se compose :
– D‘un speaker –D’un microphone –D‘une connexion internet
Amazon a lancé sa propre gamme d‘enceintes connectées (Gamme Echo), mais n‘importe quel objet ayant cette configuration technique peut embarquer Alexa.
Beaucoup de marques ont compris l‘intérêt d‘introduire Alexa dans tous les devices, parmi lesquelles deux mastodontes français : Free et Orange. Free a intégré Alexa au sein de sa Freebox Delta de manière très rapide et Orange a annoncé la sortie prochaine d‘un speaker qui intègre l‘intelligence artificielle d‘Amazon.
Amazon mise également sur sa gamme Echo Spot, une enceinte connectée avec écran intégré. Ce device permet à l‘éditeur qui souhaite tenter l‘expérience de la multimodalité d‘engager davantage l‘utilisateur en lui proposant un service additionnel.
| Quelles catégories de Skills ont connu la plus forte croissance ?
– Catégorie Kids : Au lancement il y avait seulement 6 Skills, il y en a désormais plus de 60 et c‘est aujourd‘hui la catégorie où les rating sont les plus élevés.
– Domotique : de 40 Skills au lancement à 180 aujourd‘hui. Les produits domotiques sont, le plus souvent, des produits globaux. Il est rare d‘avoir un produit domotique qui ne concerne qu‘un pays. La plupart des acteurs ont voulu se positionner sur le marché français. Au lancement, 500 produits étaient certifiés compatibles avec
Alexa, aujourd‘hui il y en a plus de 700. La France est l‘un des pays où la certification a eu une croissance extrêmement rapide.
I Quels sont les canaux de monétisation ?
Amazon ne souhaite pas financer de Skill, ni rémunérer d‘agence pour créer une Skill par l‘intermédiaire d‘un mandataire. La monétisation vient de trois canaux :
– Le programme « Amazon developper reward » : Le principe est de pouvoir rémunérer les développeurs des petites structures qui ont développé des Skills qui génèrent de l‘engagement. –In Skill purchase, équivalent de l‘in App purchase – Amazon Pay : qui permet de pouvoir effectuer un paiement au sein d‘une Skill
Focus sur la Skill Marmiton
Marmiton est le premier site de recette de cuisine en France donnant accès à une base de données de plus de 70 000 recettes de cuisine, que Alexa a pu intégrer intégralement. Plus de 2000 ingrédients ont été appris par Alexa. Marmiton est la Skill par défaut pour la cuisine. Elle fait partie des plus notées (+ de 1500 notes) et enregistre une progression de plus de 400 % au niveau des VU entre juillet 2018 et janvier 2019.
La partie assistants vocaux faisait sens pour trois raisons :
–La dimension servicielle : L‘objectif est de donner accès à une base de données de recettes très fournie de la manière la plus simple possible afin d‘améliorer le quotidien des utilisateurs.
–L‘innovation : Marmiton a toujours eu à coeur de proposer à sa communauté des expériences qui renouvèlent le processus de préparation culinaire.
– La logique de conversation : La food est un sujet qui génère des milliers de conversations au quotidien. Il était naturel pour Marmiton de se tourner vers le langage universel le plus naturel : la voix.
Pour simplifier la démarche, Marmiton s‘est concentré dans un premier temps sur les scenarii les plus utilisés sur la plateforme :
–L‘utilisateur est en cuisine et s‘apprête à faire sa recette, partie pas–à–pas : Quand l‘utilisateur cuisine, la voix doit aider à ne pas aller sur l‘écran. A la voix, il est possible de passer d‘une étape à l‘autre simplement ainsi que de demander les quantités d‘ingrédients et les retrouver au fur et à mesure de l‘expérience. Pour le moment il n‘est pas encore possible de revenir en arrière ;
– L‘utilisateur cherche une recette selon trois critères (nom de recette, ingrédients, idées) avec un moteur qui remonte les réponses les plus pertinentes au regard de la puissance de la note et d‘un point de vu SEO.
Le travail en multimodal se rapproche plus du coeur de métier de Marmiton et offre des possibilités de monétisation: Les ingrédients apparaissent et la liste se déroule doucement. Les marques peuvent sponsoriser certains ingrédients et leur logo peut apparaitre à côté du produit. Le multimodal permet également d‘afficher les avis, qui constituent une part importante de l‘ADN de Marmiton.
Les utilisateurs peuvent également avoir accès à des flashbriefing sponsorisés par D‘aucy donnant accès aux idées de recettes du jour ainsi qu‘à des astuces culinaires.
Focus sur la Skill Hondelatte Raconte
L‘émission Hondelatte Raconte est une émission au cours de laquelle Christophe Hondelatte revient sur des faits divers qui ont marqué l‘actualité. Dans une première partie l‘animateur remet en perspective et raconte les histoires qui ont fasciné les Français avant de les disséquer en compagnie de ses invités dans une seconde partie. Europe 1 croit énormément aux nouveaux usages et notamment aux assistants vocaux qui permettent de créer de nouvelles formes d‘interactions avec les auditeurs. La radio a notamment lancé le Label Europe 1 Studio destiné à développer les nouvelles formes de radio : Podcast, Assistants vocaux ...
Hondelatte raconte est aujourd‘hui l‘émission la plus podcastée des programmes
d‘Europe 1. L‘enjeu était donc de ne pas décevoir les auditeurs habitués, tout en proposant un produit innovant et adapté aux nouvelles formes d‘écoute. La première décision a été de raccourcir le format de l‘émission originale (1 h) et de ne proposer que la première partie, à savoir le récit du fait divers.
L‘arbre conversationnel a ensuite demandé un travail important aux équipes opérationnelles. Les premiers essais n‘étaient pas concluants car trop complexes, ce qui aurait pu perdre les auditeurs. Les équipes ont donc décidé d‘enlever certaines fonctionnalités et de revenir à un schéma plus simple avec trois possibilités de réponses : OUI/NON / AUTRE
Une fois le schéma construit, l‘équipe éditoriale a pleinement été impliquée dans le projet. L‘animateur Christophe Hondelatte a d‘ailleurs enregistré toutes les voix de la Skill Hondelatte Raconte donnant ainsi une véritable identité à la Skill.
Un travail particulier a également été réalisé au niveau des utérances pour fluidifier au mieux l‘expérience utilisateur.
Focus sur la Skill Téléloisir
Le groupe Prisma a lancé son activité audio début 2018 et a mis en place une cellule Audiodigitale avec des équipes dédiées depuis Septembre 2018. Prisma a directement démarré son activité audiodigitale avec des fonctionnalités pour les assistants vocaux. Aujourd‘hui, il y a une vingtaine de programmes de podcasts réguliers avec plus de 700 épisodes, qui couvrent la plupart des marques Prisma. La présence sur les assistants vocaux est encore anecdotique mais enregistre des résultats satisfaisants, il y a notamment eu un pic au moment des fêtes de fin d‘année.
La Skill Téléloisir est la Skill embarquée sur Alexa. L‘accès au programme TV est une requête très demandée par les utilisateurs d‘assistants vocaux.
L‘enjeu est de faire « écouter »» un programme TV, qui normalement se visualise et se lit rapidement. On note un changement de paradigme : on passe d‘un contrat de lecture (pour les produits traditionnels de Téléloisir, à un contrat de service pour la Skill)
L‘accès au programme TV uniquement en audiodigital, demande à toutes les équipes opérationnelles, y compris aux développeurs, de se mettre à la place de l‘utilisateur.
L‘arbre conversationnel a été assez complexe à mettre en place et fait toujours l‘objet d‘un travail de développement afin de proposer l‘approche la plus granulaire et la plus fluide possible aux auditeurs.
Les personnes qui consultent la Skill Téléloisir le font en moyenne 4 fois par jour. 50% des demandes concernent le programme du soir.
Le multimodal sur Amazon Echo permet d‘avoir une approche plus confortable dans la mesure où on retrouve le visuel, qui est la voie la plus naturelle pour consulter un programme TV.
Focus sur la Skill Le Parisien Le Parisien a fait appel à Binge Audio dans le but de produire un Flasbriefieng quotidien d‘environ 4 à 5 sujets : Il s‘agit d‘un format court avec des informations un peu plus longues qu‘un flash (narrative news). Ce flash est multidiffusé, notamment sur Deezer et Apple Podcast mais est majoritairement écouté sur Alexa.
Pour ce flashbriefieng, le Parisien n‘a pas souhaité aller sur le terrain du « breaking news ». L‘objectif était d‘avoir une information qui puisse être écoutée à J+1 sans être datée.
Le Parisien a souhaité que la Skill soit un produit très identitaire, qui réponde aux recommandations d‘Amazon (format court) et qui ne soit pas du text to speech.
Le travail éditorial est différent de celui réalisé pour des flashs radios traditionnels ou des podcasts : ll a fallu personnaliser l‘expérience et être plus proche de l‘auditeur : Ainsi, avant chaque flash, un journaliste se présente, donne son prénom, et s’adresse directement à l‘auditeur.