Preuve que les modèles d'IA peuvent être formés sans utiliser de contenu protégé par des droits d'auteur.

TL;DR : l'IA peut-elle être éthique et légale ?

  • OpenAI a soutenu l'impossibilité de former des IA sans contenus protégés, mais des avancées récentes prouvent le contraire.
  • Des chercheurs français et la startup 273 Ventures ont développé des modèles d'IA respectant le droit d'auteur.
  • Fairly Trained certifie les modèles d'IA formés de manière éthique.
  • Le Common Corpus offre une nouvelle ressource pour l'IA sans enfreindre la propriété intellectuelle.
  • Les perspectives pour l'IA éthique sont en plein essor, avec le soutien d'organisations professionnelles.

Est-il possible de former un modèle d'IA sans contenu protégé par le droit d'auteur ?

OpenAI a exprimé devant le parlement britannique que former des modèles d'IA sans utiliser de matériaux protégés par le droit d'auteur était "impossible".

Cependant, deux annonces récentes contredisent cette affirmation. Des chercheurs français et la startup 273 Ventures ont démontré qu'il est possible de former des modèles d'IA sans violer les droits d'auteur.

Pour plus d'informations sur cette avancée, consultez l'article de Wired sur le sujet ici.

Qui a réussi à former un modèle d'IA sans enfreindre le droit d'auteur ?

Des chercheurs soutenus par le gouvernement français ont créé un ensemble de données d'entraînement pour l'IA, composé exclusivement de textes du domaine public.

Fairly Trained a certifié un modèle de langage appelé KL3M, développé par 273 Ventures, une startup de conseil juridique basée à Chicago, qui a été formé sans infractions au droit d'auteur.

Quelle est l'approche de Fairly Trained pour une formation d'IA éthique ?

Ed Newton-Rex a fondé Fairly Trained en 2024 pour certifier les entreprises formant leurs modèles d'IA avec des données qu'elles possèdent ou qui sont libres de droits.

Depuis son lancement, Fairly Trained a certifié des modèles de langage, des modèles de voix d'IA, et même un groupe de musique d'IA.

Comment KL3M a-t-il été formé et quelles sont ses performances ?

KL3M a été formé sur le Kelvin Legal DataPack, un ensemble de données de documents juridiques, financiers et réglementaires, contenant environ 350 milliards de tokens.

Malgré une taille inférieure aux ensembles de données d'OpenAI, KL3M a surpassé les attentes en performance.

Qu'est-ce que le Common Corpus et comment va-t-il aider l'industrie de l'IA ?

Le Common Corpus est une collection de textes du domaine public, comparable en taille aux données du GPT-3 d'OpenAI, avec 500 millions de tokens.

Coordonné par la startup française Pleias, ce corpus vise à être multiculturel et multipurpose, offrant une ressource fiable sans risque de violation du droit d'auteur.

Quelles sont les perspectives pour les modèles d'IA formés de manière éthique ?

Les initiatives comme Common Corpus et KL3M indiquent une tendance vers la formation éthique de l'IA, avec le soutien croissant d'organisations professionnelles.

La Authors Guild et d'autres groupes soutiennent Fairly Trained, montrant un intérêt pour plus de licences et de respect des droits d'auteur dans le domaine de l'IA.

Go up