Parmi les marchés les plus touchés par l’essor de l’intelligence artificielle, celui de la veille de la presse le sera sûrement le plus fortement. Ses processus sont automatisés depuis longtemps via l’analyse du langage (Natural Language Processing) pour des raisons de coûts, mais l’IA générative, elle, peine encore à s’imbriquer totalement dans les solutions existantes. En outre, à ce jour, « la plupart des services représentent encore une ligne de coût importante pour les entreprises », estime Julien Hébrard, cofondateur d’Abstrakt. Avec un comparse rencontré à l’Edhec, Marvin Amuzu, il veut profiter de la faille.
Détection et synthèse
Déjà étudiant, Julien Hébrard avait planché sur un projet de veille médias. Après plusieurs années au sein du mouvement « En Marche » sur le marketing digital, il devient consultant freelance. Le deuxième a un profil plus technique, passé par Magic Makers puis Mindee, une solution de synthèses de documents, en tant que développeur. « Nous avons tous les deux expérimenté le fait que les solutions existantes ne sont pas assez performantes, en veille média. On retrouve encore beaucoup de bruit dans les synthèses, et finalement, seuls trois ou quatre articles sont réellement pertinents sur la dizaine qu’elles proposent », avance Julien Hébrard. Selon les fondateurs, l’IA générative a un grand rôle à jouer dans le domaine, « à condition qu’elle soit intégrée dès le départ, au cœur de l’outil, et pas comme une surcouche », ajoute-t-il.
Ici, les modèles de langage [LLM] planchent dès la sélection des articles, pour déceler les plus appropriés, puis pour les synthétiser, en fonction des sujets et des thèmes commandés par le client. Abstrakt donne une synthèse, « mais plus précise. On supprime l’erreur humaine. Même le meilleur des documentalistes ne peut pas déblayer de manière pertinente 15 000 articles par jour », ajoute-t-il, sachant que certains peuvent se révéler adéquats sans cocher les bons mots-clés. Depuis l’été 2023, les deux compères travaillent à « finetuner » [optimiser] différents modèles d’IA en open source (de Google), pour analyser la presse, et un LLM pour rédiger une synthèse, qui est ensuite relue et validé « humainement ». L’entreprise a obtenu une licence via le Centre français d’Exploitation du droit de Copie (CFC) et n’attend plus que de pouvoir y plugger ses outils.