23 Avr L’IA dans les médias : quelles sont les grandes tendances en 2024 ?
NICOLAS GAUDEMET
Nicolas est formé à l’Institut Multi-Médias et titulaire de multiples certificats en IA, notamment de Stanford. Après la direction du Trésor et l’audiovisuel public, il rejoint Orange comme adjoint du directeur des contenus et services numériques, puis comme directeur commercial d’Orange Nord de France. Il prend ensuite la tête du pôle Culture de Fnac Darty, avant de diriger le cabinet du Secrétaire d’État au Numérique, Mounir Mahjoubi. Nicolas rejoint Onepoint en 2020 en tant que Partner spécialiste des questions data & intelligence artificielle, ainsi que du secteur des industries créatives. En 2023, il est nommé Chief AI Officer du groupe pour accompagner la transformation IA des clients et conduire celle des équipes.
Quelle est votre perception de l’appropriation de l’IA par les groupes médias au cours des derniers mois ?
Concernant l’IA générative, la plupart des acteurs des médias ont adopté des chartes et règlements intérieurs, mis en place des mesures de protection de leur contenus, expérimenté auprès de leurs collaborateurs. Nous accompagnons de nombreux groupes médias, en formant par exemple des milliers de collaborateurs dans de grands groupes audiovisuels.
L’heure est maintenant à l’industrialisation de cas d’usage. Nous le faisons par exemple sur de la vidéo, des images et du son, et bien sûr de l’écrit avec différents groupes de télévision, de radio ou d’édition. Cela va de l’interrogation d’archives video ou textuelles, de la description d’images pour des malvoyants au balisage de contenus radio.
Nous déployons également chez nos clients Neo, notre assistant d’IA générative 100% sécurisé et sur-mesure. Il intéresse beaucoup les entreprises et a reçu plusieurs prix : une médaille d’or à la Nuit de la data et de l’IA 2024, le grand prix du Jury et le prix du Collaborateur augmenté par l’IA aux cas d’or de l’IA et du web3 en 2023… En effet, il permet de bénéficier dans un environnement sécurisé de toutes les fonctionnalités avancées d’outils comme ChatGPT Entreprises (interrogation et création d’images, recherche internet générative, exécution de code, personnalisation pour l’utilisateur…), tout en étant particulièrement économique et frugal, et en incluant des cas d’usages sur mesure comme l’analyse de vos contrats, la rédaction de comptes rendus RH formatés pour votre SIRH, l’interrogation de vos bases documentaires, la création de Business Model Canevas…
Par ailleurs, n’oublions pas l’IA « traditionnelle ». Elle continue de se déployer. Par exemple, nous développons des moteurs de recommandation ou des segmentations du public pour différents acteurs comme le pass Culture.
Comment conjuguer efficacement les impératifs business, l’importance d’incorporer l’innovation dès les premières étapes de la stratégie, tout en tenant compte des zones d’incertitude et de risque, notamment sur les plans économique et juridique ?
Il faut avancer, expérimenter, sinon, le risque est de se laisser distancer. Ces expérimentations doivent bien sûr être cadrées juridiquement et économiquement, mais aussi en termes de sécurité et d’impact environnemental.
Nous proposons ainsi des méthodes pour prioriser les cas d’usage par la valeur, la faisabilité, les risques à faire et ne pas faire. Certains cas sont couverts par des outils de marché, d’autres nécessitent des développements sur mesure : nous accompagnons les deux. À chaque fois, nous mesurons les impacts avant / après pour confirmer les gains de productivité et la valeur créée. Et nous accompagnons le changement car si l’IA est source de fascination, elle peut l’être aussi d’angoisse pour de nombreux collaborateurs. Tandis qu’elle promet de réinventer les processus des entreprises pour plus de valeur ajoutée, que ce soit une valeur financière ou une valeur ajoutée de service public. C’est ainsi qu’actuellement nous réfléchissons avec certains annonceurs à réinventer l’ensemble de leur processus de création de produit grâce à l’IA générative.
D’où l’importance également des chartes éthiques, de l’utilisation de systèmes d’IA générative sourcant leurs réponses comme le fait notre assistant Neo, de démarches de protection et de valorisation des contenus, d’une approche frugale dans le choix des modèles pour minimiser les impacts environnementaux, de la mise en place d’une gouvernance des données documentaires et des accès associés, de formation du plus grand nombre aux risques et opportunités…
Alors que nous observons les premiers deals entre éditeurs et fournisseurs de modèles d’IA, comment garantir l’équilibre des négociations alors qu’aucune évaluation économique concrète de la valeur de l’accès aux contenus n’a encore été établie ? Selon vous quels sont les paramètres à prendre en compte pour cette évaluation ?
Les détenteurs de droit ont enclenché différentes approches complémentaires :
- Protéger leurs contenus en explicitant leurs politiques de Text and Data Mining via le protocole TDMRep, en clamant leur droit « d’opt-out », et en filtrant autant que possible les robots de crawling, avec toutes les limitations que cela suppose.
- Négocier avec les fournisseurs de modèles, sachant qu’ils sont sollicités par les détenteurs de contenus du monde entier, d’une part, et que leur bande passante est limitée vu qu’ils sont engagés dans une course mondiale, d’autre part. Donc il est clef de travailler sa proposition de valeur avant de les contacter. Nous accompagnons différents groupes de contenus sur ce sujet.
- Faire valoir ses droits juridiquement : c’est l’approche du New York Times, qui a ma connaissance était en pleine négociation avec OpenAI avant de l’attaquer en justice, ou encore de Getty Images contre Stability AI…
- Évidemment, une approche collective permettrait d’avoir plus de volume et d’impact tout en protégeant les petits éditeurs, tandis qu’une approche individuelle peut être plus agile.
Les principaux critères de valorisation des contenus sont les suivants :
- Un volume gigantesque. Les fournisseurs de modèles ont accès à des sources gratuites immenses, comme Wikipedia, dont la version française dispose de plusieurs milliards de tokens (1 token = 0,75 mots en moyenne). C’est l’ordre de grandeur qu’il faut atteindre pour espérer intéresser des fournisseurs de modèles de langage au stade de l’entraînement de leurs modèles. Si le volume est plus faible il faut s’orienter vers l’affinage (finetuning) de modèles spécifiques, ou la création de services fondés sur la Génération Augmentée par la Récupération de sources (RAG ou Retrieval Augmented Generation), mais cela sera moins valorisable.
- La qualité des contenus. Notamment leur véracité, vérifiabilité, profondeur et variété. Les contenus documentaires, scientifiques et journalistiques ont donc une valeur, surtout s’ils couvrent de nombreux domaines. La dimension multimodale, éditoriale, iconographique, visuelle ou vidéo, peut aussi être intéressante.
- La détention de droits suffisants, sachant que les éditeurs peuvent devoir obtenir l’autorisation directement auprès des auteurs.
- La puissance des marques associées, bien sûr au niveau national et si possible au-delà.
Quelles sont les nouvelles tendances qui devraient guider les prochaines orientations sur l’IA en 2024 ?
2024 est l’année de l’industrialisation de l’IA générative dans les entreprises. On verra aussi des modèles propriétaires plus puissants (comme ceux d’OpenAI, Google, Anthropic ou encore Mistral Large…). En particulier dans la vidéo où les progrès démontrés par Sora sont spectaculaires. On verra parallèlement l’essor de modèles plus frugaux tirés par l’open source, notamment par Meta, Mistral ou encore LightOn, pour les cas d’usage les plus simples. Enfin, les IA génératives vont devenir de plus en plus autonomes avec le développement des agents. Ces nouvelles orientations vont permettre d’accélérer l’automatisation de production multimodale de contenus, l’amélioration de la vérification des faits et sources, de nouvelles formes d’interactions conversationnelles.