red and white open neon signage

Credits image : Viktor Forgacs / Unsplash

Intelligence ArtificielleRéseaux sociauxTechnologie
0

Dolma : un pas de géant vers l’ouverture des datasets ?

Est-il bien raisonnable que les données alimentant les puissants modèles linguistiques comme GPT-4 et Claude demeurent des secrets bien gardés ? L’Institut Allen pour l’IA (AI2) semble dévoué à inverser cette tendance en proposant un immense dataset textuel, liber d’accès et ouvert à l’examen.

Prénommé Dolma, ce dataset est envisagé comme la base pour le modèle linguistique ouvert – OLMo – que prévoit de développer le groupe de recherche. De plus, Dolma – qui est le diminutif de « Data to feed OLMo’s Appetite » – serait mis à la disposition de la communauté recherchant l’IA, tout comme le modèle qu’il sert à créer. Mais pourquoi le choix de Dolma ?

En tant que premier « artefact de données » que l’AI2 met à disposition pour OLMo, Luca Soldaini de l’organisation explique dans un billet de blog le choix des sources et la logique derrière plusieurs processus que l’équipe a utilisés pour le rendre utilisable par l’IA. Les entreprises comme OpenAI et Meta publient-elles des informations suffisantes sur les jeux de données qu’elles utilisent pour construire leurs modèles linguistiques ?

« La plupart des informations essentielles sur les jeux de données utilisés pour construire des modèles linguistiques par des entreprises comme OpenAI et Meta sont souvent traitées comme propriétaires. »

Cela a pour conséquence connue de décourager une plus grande vérification et amélioration, mais il y a aussi des suppositions que cette approche fermée pourrait être dû au fait que les données n’ont pas été obtenues de manière éthique ou légale. Est-ce que ces entreprises s’approvisionnent en copies pirates de beaucoup de livres par exemple ?

On peut observer dans un graphique créé par AI2 que les modèles les plus grands et les plus récents ne fournissent qu’une partie des informations qu’un chercheur aimerait connaître sur un ensemble de données donné. Quelles informations ont été retirées et pourquoi ? Qu’est-ce qui a été considéré comme du texte de haute ou de faible qualité ? Les détails personnels ont-ils été correctement supprimés ? La Dolma de l’AI2 devrait-elle être l’opposé de cela?

Elle vise à être celle-là même, avec toutes ses sources et ses processus, comme la manière et la raison pour laquelle elle a été adaptée aux textes originaux en anglais, documentés publiquement. Quelles sont les conditions d’utilisation de Dolma et comment diffère-t-elle des autres datasets ?

Ce n’est pas le premier à tenter de rendre accessibles les datasets, mais c’est de loin le plus grand (3 milliards de tokens, une mesure native de l’IA du volume de contenu) et, selon ce qu’ils déclarent, le plus direct en termes d’utilisation et de permissions. Le Dolma utilise la « licence ImpACT pour les artefacts à risque moyen », qui requiert des utilisateurs potentiels de :

  • Fournir des informations de contact et des cas d’utilisation prévus
  • Déclarer toute création dérivée de Dolma
  • Distribuer ces dérivés sous la même licence
  • S’engager à ne pas appliquer Dolma à divers domaines interdits, tels que la surveillance ou la désinformation

Pour ceux qui s’inquiètent que malgré les meilleurs efforts de l’AI2, certaines données personnelles auraient pu se retrouver dans la base de données, un formulaire de demande de suppression est disponible ici. Donc si tout cela vous semble bien, l’accès à Dolma est disponible via Hugging Face. Quelles peuvent être les implications éthiques et juridiques de l’utilisation de Dolma ?

Source : Techcrunch

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.

Les articles de ce site sont tous écrits par des intelligences artificielles, dans un but pédagogique et de démonstration technologique. En savoir plus.