B. LES PROGRÈS DE L'APPRENTISSAGE PROFOND DANS LES ANNÉES 2010 ET L'ARCHITECTURE TRANSFORMER
Un nouvel essor de l'IA a lieu depuis les années 2010 grâce aux progrès de l'apprentissage profond ou Deep Learning. L'apprentissage est dit « profond » car ses algorithmes reposent sur des réseaux de neurones artificiels composés de couches multiples. Chaque neurone représente une unité de calculs mathématiques qui correspond à une fonction d'activation. L'efficacité de ces modèles d'IA se développe dans les années 2010 grâce à trois éléments : la mobilisation de ces algorithmes, des corpus de données de taille inédite grâce à Internet, et une puissance de calcul des ordinateurs en augmentation rapide.
Depuis 2017, deux innovations majeures ont accéléré la mise en oeuvre de l'IA :
· l'architecture Transformer : cette innovation ajoute à l'apprentissage profond un meilleur traitement du contexte, grâce à un procédé appelé « mécanisme d'attention » ;
· l'application de cette architecture à la création de systèmes d'IA générative accessibles à tous. Ceci a donné naissance à des « modèles larges de langage » ou LLM comme ChatGPT mais aussi à des outils permettant de créer d'autres contenus : images, sons, vidéos, etc. Ces systèmes exploitent des milliards de données et mobilisent des centaines de milliards voire des milliers de milliards de paramètres de calcul pour générer du contenu. Certains systèmes d'IA générative se basent sur d'autres architectures mais ils ne donnent pas d'aussi bons résultats, sauf à être hybridés à l'architecture Transformer, par exemple selon une méthode dite du mélange d'experts (Mixture of Experts ou MoE). Ces systèmes donnent alors des résultats d'une précision inédite.
C. LES QUESTIONS TECHNOLOGIQUES ET LES PERSPECTIVES D'AVENIR
Quels sont les avantages et limites de ces technologies ? Et quelles perspectives s'ouvrent pour le futur ? Côté avantages, les applications sont innombrables, côté limites, les IA génératives doivent encore relever plusieurs défis technologiques. L'entraînement des modèles nécessite d'abord des ressources considérables, en infrastructures de calcul comme de stockage des données mais pas seulement : l'IA nécessite en effet des apports considérables d'énergie tout au long de son cycle de vie. Les modèles peuvent générer des erreurs appelées « hallucinations ». Leur production est sujette à des biais présents dans les données ou introduits au stade de leur programmation humaine ; certains ont d'ailleurs dénoncé des IA woke. Enfin, ces modèles continuent de poser les problèmes d'opacité déjà rencontrés pour les anciennes générations de Deep Learning : ces systèmes fonctionnent comme des « boîtes noires », rendant leur explicabilité complexe.
Ces défis nécessitent des efforts de recherche pour améliorer la fiabilité des résultats et réduire la consommation énergétique de ces systèmes. Faire plus avec moins : l'objectif est d'aller vers des IA frugales et efficaces. L'architecture Mamba, alternative aux Transformers repose sur les modèles en espace d'états structurés et articule plusieurs types d'IA. C'est une piste intéressante. Les perspectives pour l'IA seront donc sa frugalité mais aussi sa multimodalité et son agentivité.
Les IA multimodales traitent déjà des données variées (texte, image, son, etc.) et en traiteront bientôt davantage encore, en entrée comme en sortie, pour des usages de plus en plus diversifiés et intégrés. En 2024, GPT-4o (avec un « o » pour omni) a ajouté aux textes et aux images le traitement d'instructions vocales et même des interactions vidéo. La société xAI a ajouté à son modèle Grok 2 la génération d'images en septembre 2024 puis la compréhension d'images en octobre 2024.
L'agentivité est la capacité des systèmes à être autonomes et proactifs. La principale innovation en 2024 est celle des Agentic Workflows, IA basées sur des LLM et générant une série d'actions permettant une automatisation des tâches en s'adaptant en temps réel à la complexité des flux de travail. Ces outils devraient être particulièrement utiles pour les entreprises.
Les IA vont aussi devenir des interfaces et les principales plateformes d'accès aux services numériques. Ces interfaces rendront les interactions homme-machine plus fluides et pourraient devenir le point d'appui des smartphones et des ordinateurs, agrégeant les fonctionnalités de l'interface du système d'exploitation, des navigateurs web, des moteurs de recherche, des logiciels bureautiques, des réseaux sociaux et d'autres applications. Il est probable qu'à l'avenir les systèmes d'IA deviennent les colonnes vertébrales de contrôle des ordinateurs, à partir desquelles s'articuleront plusieurs services logiciels.
Des solutions technologiques sont également attendues pour faire face à la tendance des LLM à « halluciner », c'est-à-dire à générer des propos dénués de sens ou des réponses objectivement fausses sans émettre le moindre doute. La génération augmentée de récupération (Retrieval Augmented Generation ou RAG) constitue par exemple un moyen d'adjoindre une base de données à un LLM, qui, à l'aide d'un récupérateur, utilise les données de cette base en lien avec l'instruction de l'utilisateur.