Dans un monde où la souveraineté numérique devient cruciale, comment l’Europe se taille-t-elle une place avec les modèles linguistiques à grande échelle (LLM) ? La récente annonce du projet ambitieux, OpenEuroLLM, promettant de créer des modèles véritablement open source couvrant toutes les langues de l’Union européenne, soulève de nombreuses questions.
OpenEuroLLM est le fruit d’une collaboration entre 20 organisations, dont l’Université Charles de Prague et Silo AI de Finlande. Avec un budget initial de 37,4 millions d’euros, cette initiative veut donner l’avantage à l’Europe en termes de souveraineté numérique. Pourtant, peut-on vraiment rivaliser avec les géants de l’IA qui investissent des milliards ?
Alors que le budget total est renforcé par des collaborations avec les centres de superordinateurs EuroHPC, des doutes émergent quant à la faisabilité du projet. Est-ce qu’un consortium de plus de 20 organisations peut travailler avec l’efficacité d’une entreprise privée ? Chaque participant apporte sa propre vision et méthode, mais cela suffira-t-il à maintenir une cohésion nécessaire à la réussite ?
L’OpenEuroLLM réussira-t-il à unifier la diversité linguistique de l’Europe tout en respectant les règles strictes en matière d’ouverture et de transparence ?
Selon ses leaders, comme Jan Hajič, l’expérience n’est pas pour autant sans bases solides. Grâce à des expériences antérieures telles que le projet HPLT, OpenEuroLLM ne commence pas réellement de zéro. Mais, en dépit de ces efforts, le projet est confronté à une concurrence interne inattendue, notamment de la part d’EuroLLM, lancé sous un nom similaire avec des objectifs très proches.
En matière de données, l’utilisation des ressources comme Common Crawl pourrait offrir une transparence tant recherchée dans l’open source. Cependant, dans la pratique, la redistribution de certaines données risque d’être limitée par des directives sur le droit d’auteur. Ces restrictions poseront-elles un frein à l’objectif de transparence totale du projet ?
La question demeure : OpenEuroLLM peut-il réellement atteindre son ambition de fournir un modèle multilingue performant en toutes langues européennes, malgré les disparités des ressources numériques ? Dans un environnement où même les géants de l’industrie s’efforcent d’améliorer continuellement leurs modèles, l’Europe réussira-t-elle enfin à dire qu’elle possède sa propre solution souveraine en matière d’IA ?
Source : Techcrunch