Les Juifs ont toujours été des écrivains prolifiques. L’IA s’est-elle retrouvée avec trop de travail ?

(JTA) — Ayant grandi juive à New York, Heila Precel a compris la leçon selon laquelle l’éducation peut vous mettre sur la voie de la réussite personnelle et vous protéger contre les forces qui ont marginalisé les Juifs tout au long de l’histoire.

« Ma famille et ma culture m'ont dit : « Ils ne peuvent pas vous priver de votre éducation ». Investir dans l’éducation a été une stratégie extrêmement efficace pour les Juifs américains », a déclaré Precel.

Precel a tenu compte de la leçon de son enfance et s'est rendue à l'Université de Boston, où elle prépare aujourd'hui un doctorat en informatique et en sciences des données. Mais un document de recherche qu’elle vient de publier, en partenariat avec d’autres chercheurs, suggère que la formule du succès sur laquelle d’innombrables Juifs américains comme elle ont misé pourrait être en péril.

La menace vient de la montée en puissance des systèmes d’intelligence artificielle qui alimentent le type de chatbots qui communiquent comme les humains – ChatGPT, par exemple. Ces systèmes sont formés sur des livres, articles et autres textes qui ont été introduits dans la machine en grande partie sans l'autorisation de leurs auteurs.

Cela signifie que quiconque produit de la propriété intellectuelle peut finir par voir son travail utilisé sans licence. Ces créateurs sont confrontés à des violations potentielles du droit d’auteur et, à plus long terme, à un éventuel licenciement, car les outils d’IA pourraient remplacer de nombreux cols blancs.

Precel a découvert grâce à des recherches que les Juifs sont surreprésentés parmi les auteurs dont la propriété intellectuelle est utilisée à des fins de formation en IA. Par rapport à leur nombre dans la population globale des États-Unis, les auteurs juifs sont surreprésentés d’un facteur de deux à six et demi, selon une analyse des données disponibles. Parmi ces auteurs figurent la comédienne Sarah Silverman et le romancier Michael Chabon, qui ont tous deux poursuivi OpenAI, la société derrière ChatGPT, pour violation présumée du droit d'auteur.

Les développeurs de systèmes d’IA sont probablement heureux de récupérer tout le contenu qu’ils obtiennent sans se soucier de l’identité de leurs auteurs, et personne ne prétend que l’antisémitisme est en jeu dans la surreprésentation des auteurs juifs. En fait, Precel reconnaît que la prémisse de ses recherches peut paraître un peu humble : les Juifs représentent une infime partie de la population mais ont produit tellement de connaissances que, de manière inquiétante, l’avenir de la recherche sur l’IA dépend d’eux. .

Mais elle a déclaré qu’une telle interprétation étroite passerait à côté du but de son article.

D’une part, l’article souligne que des recherches plus approfondies confirmeraient probablement que d’autres groupes, tels que les Américains hindous et les Américains d’origine asiatique, sont également probablement surreprésentés. Precel affirme également que dénoncer les préjugés qui nuisent aux Juifs révèle souvent des problèmes plus vastes. Cette idée se reflète dans une analogie dans le titre de l’article, « Un canari dans la mine de charbon AI : les juifs américains peuvent être blessés de manière disproportionnée par la dépossession de la propriété intellectuelle dans la formation sur un modèle linguistique à grande échelle ».

« Nous ne disons pas que tous les avocats sont juifs et que par conséquent, remplacer les avocats sera mauvais pour les Juifs », a déclaré Precel. « Il y a beaucoup d’avocats qui ne sont pas juifs, et ce que nous voyons va être mauvais pour tout le monde. Cela pourrait simplement être particulièrement mauvais pour les Juifs, car les Juifs ont historiquement mis beaucoup de nos œufs dans le panier du niveau d’éducation. En d’autres termes, nous mettons en lumière ce problème global avec l’analogie du canari dans la mine de charbon – tout en veillant à nous rappeler que le canari lui-même ne s’en sort pas très bien dans cette histoire.

Le site Web de Heila Precel décrit ses intérêts de recherche sur l'intelligence artificielle et son identité juive. (Capture d'écran)

Precel a grandi dans une famille juive conservatrice et a fréquenté une école juive lorsqu'il était enfant. En tant qu'adulte, elle est devenue plus observatrice et va à la synagogue chaque semaine. L’étiquette qu’elle se donne est traditionnellement égalitaire. Tout cela pour dire que Precel a eu de nombreuses occasions de discuter de ses recherches avec d’autres Juifs dont les textes peuvent être trouvés sans autorisation dans des bases de données utilisées pour la formation à l’IA.

En fait, son nouvel article est publié dans une telle base de données. Elle dit avoir rencontré des personnes préoccupées, mais beaucoup d’autres ne comprennent pas d’où proviennent les données de formation ni comment elles sont utilisées.

« Je reçois beaucoup de réactions surprises et quelques angoisses mais aussi de l'optimisme », a déclaré Precel.

Son article appartient à un genre de recherche plus vaste sur les impacts et les implications des progrès technologiques dans les domaines de l’intelligence artificielle et de l’apprentissage automatique. Mais le co-auteur de Precel, Nicholas Vincent, a déclaré que la question est souvent examinée « sous l'angle de la sous-représentation » plutôt que de la surreprésentation.

« L'exemple le plus célèbre est celui des modèles qui ont très peu fonctionné sur les personnes à la peau foncée », a déclaré Vincent, professeur d'informatique à l'Université Simon Fraser de Burnaby, au Canada, faisant référence au problème des logiciels d'analyse d'images étiquetant à tort les Noirs comme des gorilles. Dans le domaine des systèmes basés sur du texte, a-t-il déclaré, « si vous n'êtes pas issu d'un milieu culturel prédominant, vous êtes plus susceptible d'obtenir de mauvais résultats avec les modèles utilisés pour l'embauche ou la notation de crédit ».

Un nouvel article publié ce mois-ci a testé la manière dont l'IA se rapporte aux personnes parlant un dialecte anglais afro-américain, par opposition à l'utilisation de ce que l'on appelle l'anglais américain standard. L’étude a révélé que l’IA émet des hypothèses racistes basées sur la différence. Un chatbot, par exemple, était plus susceptible de recommander la peine de mort aux accusés lorsqu'ils parlaient un anglais afro-américain.

L’une des limites de toutes ces études est que de nombreux systèmes d’intelligence artificielle fonctionnent comme des boîtes noires. Avec ChatGPT, par exemple, il n'est pas possible de savoir quel contenu les développeurs ont utilisé pour entraîner le système, car son propriétaire, OpenAI, considère cette information comme exclusive.

Pour l’article d’auteur juif, ce que les chercheurs ont essayé de faire, c’est donc d’étudier non pas les systèmes mais les données qui y sont introduites. Ils ont examiné les données utilisées par les systèmes open source et les référentiels numériques de connaissances susceptibles d'être utilisés par les systèmes propriétaires. Ces référentiels contiennent d’énormes quantités de littérature scientifique, de livres publiés, d’avis juridiques et d’autres types de textes.

Les modèles d’IA intègrent de grandes quantités de mots écrits, dont de nombreux auteurs juifs ont contribué. (Getty Images)

Mais comme les informations sur la paternité n’indiquent généralement pas qu’une personne est juive, les chercheurs ont cherché un moyen d’identifier et de classer en masse les auteurs. Pour cette tâche, ils se tournèrent vers le domaine des études démographiques juives.

Il existe de nombreuses techniques différentes pour identifier et compter les Juifs ; chacun a ses propres forces et faiblesses. Utiliser des enquêtes pour étudier les Juifs, par exemple, peut aider à répondre à des questions précises, mais cela coûte très cher car les Juifs constituent une petite minorité dispersée sur un vaste territoire.

« Vous finissez par dépenser énormément d’argent pour aider les gens qui ne sont pas juifs », a déclaré Precel. « De nombreuses méthodes ont été développées dans la littérature démographique juive pour tenter de résoudre ce problème. »

L’équipe a opté pour une méthode qui déduit l’identité juive sur la base d’un ensemble de noms de famille juifs distinctifs. De nombreux Juifs ont des noms de famille indiscernables, mais les démographes ont découvert à plusieurs reprises au cours des dernières décennies de l’histoire juive américaine que les noms juifs distinctifs pouvaient être utilisés comme indicateur statistique de la population juive globale. La méthode n’est pas utile pour la recherche sur la diversité juive, mais elle peut être utilisée dans certains scénarios, comme par exemple pour estimer le nombre de Juifs dans une longue liste d’auteurs de textes de formation en IA.

Une grande partie du document est consacrée à ce qui pourrait être fait pour répondre aux préoccupations soulevées par les résultats. Les chercheurs imaginent un avenir dans lequel l’IA ne pourrait pas remplacer le travail humain mais plutôt l’augmenter, tout en évitant des perturbations économiques à grande échelle.

Une possibilité pour réaliser ce scénario consiste à utiliser les résultats pour aider à informer les décideurs politiques et les développeurs d’IA concernés par la dimension éthique de la technologie. Mais les chercheurs suggèrent également une autre voie.

« Si les gens s’organisent collectivement autour de leur propriété intellectuelle, les règles du jeu peuvent être plus équitables pour négocier avec les opérateurs de technologies d’IA », a déclaré Vincent. « Individuellement, vos données ont une très faible valeur, mais lorsque nous rassemblons suffisamment de personnes, nous disposons d’un grand levier. »

La communauté juive est peut-être déjà suffisamment organisée pour rendre possible un plaidoyer collectif. Bien qu’il n’existe pas de syndicat d’écrivains juifs, par exemple, des coalitions informelles de professionnels de la création ont répondu au sentiment anti-israélien dans le monde littéraire et à Hollywood.

Dans un scénario hypothétique, un groupe représentant les écrivains juifs pourrait se réunir et convenir d’adopter des mesures sur leurs sites Web empêchant les robots de collecter du contenu.

« Donc, à l'avenir, il est particulièrement difficile d'obtenir des données pour ce groupe, et tout d'un coup, il y a une grande lacune dans les données », a déclaré Vincent.