En raison de son rôle central dans l'infrastructure de localisation, Smartling est bien placé pour effectuer des analyses macroéconomiques sur les schémas d'utilisation et les tendances générales dans le monde du contenu web.
Récemment, nous avons trouvé quelque chose d'intéressant dans ces données.
Nous avons remarqué que les robots LLM analysent les sites localisés. On peut supposer qu'il s'agit de les exploiter pour améliorer leurs propres modèles de base.
Il s'agit d'une tendance générale, qui touche tous les types et toutes les tailles d'entreprises. Sans entrer dans la légalité, l'éthique ou la propriété de ce contenu, nous sommes immédiatement frappés par le potentiel de création d'une chambre d'écho sur l'internet en raison de ces recherches.
Contamination des données de formation et conséquences
Avec l'augmentation du nombre d'entreprises utilisant une approche MT-first ou MT-fallback pour leur contenu web, et la récente disponibilité de LLMs en tant que fournisseur de traduction, les LLMs pourraient bientôt se retrouver dans la position de "manger leur propre nourriture pour chien" sans le vouloir.
Quel est l'impact sur la qualité et l'efficacité des mécanismes d'apprentissage tout au long de la vie lorsque leurs ensembles de données de formation sont entrelacés avec du contenu traduit provenant de mécanismes d'apprentissage tout au long de la vie ?
Les LLM s'appuient sur la vaste gamme de contenus numériques librement accessibles sur l'internet, qu'il s'agisse d'articles de journaux, de revues universitaires, de billets de blogs ou de livres scannés, afin d'accumuler suffisamment de contenu pour augmenter la taille et la complexité d'un modèle pré-entraîné et fournir ainsi des capacités de génération semblables à celles de l'homme. Cependant, si une partie importante du contenu ingéré a été créée uniquement par des LLM sans aucun apprentissage par renforcement à partir d'un retour d'information humain, ces derniers commenceront-ils à dériver en termes de qualité et de précision de leur production ? La boucle de rétroaction créera-t-elle une sorte d'intelligence artificielle qui finira par se répandre et par modifier la structure et le ton du langage en général ?
Il est difficile d'estimer l'impact, mais étant donné que nous sommes au début de cette révolution générative de l'IA, nous voyons les pièges potentiels dans le processus de collecte de données utilisé par les fournisseurs de LLM.
Propriété intellectuelle et questions de valeur
Il est impossible d'identifier tout le trafic entrant appartenant à des robots, car nous dépendons de leur utilisation correcte des en-têtes User-Agent qui déclarent leur origine et leur objectif. De nombreux "scraping bots" peu scrupuleux ne se contentent pas de cacher leur objectif ; ils tentent activement de se déguiser et de se fondre dans le flux général de trafic que connaît tout site web public.
Une approche future possible pour filtrer cet effet de "chambre d'écho" est que les LLM travaillent avec les fournisseurs de contenu pour développer une sorte de filigrane qui identifie le contenu généré par un LLM afin qu'il puisse être catégorisé et traité de manière appropriée. Ce type de filigrane sera probablement demandé pour atténuer les effets de la désinformation, du vol de propriété intellectuelle et d'autres comportements antisociaux dont les mauvais acteurs peuvent faire preuve.
En outre, les entreprises qui ne voient pas d'inconvénient à ce que les LLM parcourent leurs données ou qui sont intéressées par cette démarche pourraient un jour choisir de monétiser leur contenu en vendant l'accès aux crawlers des LLM. Il pourrait s'agir d'une activité secondaire lucrative qui rémunère le contenu généré par l'homme à une valeur négociée. Les producteurs de contenu ont déjà intenté des actions en justice à l'encontre de LLM pour tenter de reprendre le contrôle de leur matériel protégé par le droit d'auteur.
Que pouvons-nous faire ?
L'extraction du contenu des sites web par les LLM n'est pas un secret. Néanmoins, de nombreuses entreprises peuvent être surprises d'apprendre que cela leur arrive, et elles peuvent participer involontairement à des activités qui ne leur apportent que peu d'avantages tout en générant une valeur infinie pour les MLD.
Dans le monde de la traduction automatique, "utiliser l'IA pour aider l'IA" n'est pas une idée nouvelle. Lorsque les données linguistiques spécifiques au client, au domaine ou à la longue traîne sont rares, il n'est pas rare de recourir à des techniques d'augmentation des données telles que l'exploration de sites web similaires, la rétro-traduction ou la fabrication de données en créant des variantes légèrement différentes de la langue source et de la langue cible.
Néanmoins, il est essentiel que toute personne s'appuyant sur les résultats du modèle comprenne les avantages et les inconvénients de ces approches. Dans la plupart des cas, ces techniques ne peuvent qu'améliorer progressivement la qualité du modèle. En fin de compte, ils ne remplacent pas la devise sous-jacente de l'apprentissage automatique, à savoir la nécessité de disposer de données pertinentes et bien étiquetées.