Comment évaluer la qualité des traductions automatiques : Estimation et évaluation

Si vous disposez depuis longtemps d'un processus de traduction humaine, vous vous demandez peut-être si la traduction automatique (TA) peut produire des résultats comparables en termes de qualité. Parlons de la précision globale de la traduction automatique, de la manière dont la qualité de la traduction automatique est évaluée et de la direction que prennent la traduction automatique et l'estimation de la qualité de la traduction automatique.

Quelle est la précision de la traduction automatique ?

La traduction automatique est assez précise grâce à l'essor des réseaux neuronaux, uneméthode d'intelligence artificielle. Au lieu de traduire presque mot à mot, ces réseaux prennent en compte le contexte pour produire des traductions plus précises. Mais se rapprochent-ils de l'équivalent humain ? La réponse dépend souvent de plusieurs facteurs :

Votre logiciel de traduction automatique. Certains moteurs de traduction automatique sont plus fiables que d'autres en termes de qualité de traduction.
Domaine. Certains systèmes de traduction automatique sont destinés à un usage général, tandis que d'autres sont formés à des secteurs spécifiques. Lors de la traduction d'une terminologie complexe, par exemple pour un contenu scientifique ou juridique, le fait de disposer d'un moteur de TA formé à votre domaine peut faire toute la différence.
Type de contenu. La traduction automatique peut ne pas être aussi précise pour des éléments tels que les campagnes de marketing, les titres d'appel ou les slogans. Il s'agit souvent de saisir la personnalité ou l'émotion d'une marque plutôt que d'en donner une traduction exacte.
Couple de langues. Même les scores de qualité des meilleurs fournisseurs de TA varient en fonction de la paire de langues. Plusieurs facteurs peuvent être à l'origine de ce phénomène, notamment l'absence de mots ou de phrases équivalents dans la langue cible et la langue source.

Tout bien considéré, la traduction automatique peut souvent vous permettre de faire la majeure partie du travail de traduction. Les traducteurs humains peuvent ensuite procéder à la post-édition de la traduction automatique (MTPE) afin de garantir l'exactitude du contenu et de le rendre publiable.

Qu'est-ce que l' évaluation de la qualité des traductions automatiques?

L'évaluation de la qualité de la traduction automatique est le moyen traditionnel de déterminer si un texte traduit par une machine est comparable à la manière dont un humain traduirait un texte source. Il existe un grand nombre de mesures d'évaluation, notamment BLEU, NIST et TER. Ceux-ci sont utilisés pour évaluer les segments traduits par la machine en fonction de leur similarité avec les traductions de référence.

Les traductions de référence sont des traductions de haute qualité du texte source générées par des traducteurs humains. Ces références sont utiles, bien sûr. Cependant, ils ne sont pas toujours disponibles et il n'est pas idéal de s'en remettre à eux pendant les projets de traduction. Quel est donc le moyen le plus efficace d'évaluer la qualité ? Chez Smartling, nous utilisons une combinaison de deux méthodes.

La première consiste en des évaluations mensuelles par des tiers des mesures de qualité multidimensionnelles (MQM) dans huit localités. Ces évaluations constituent l'étalon-or du secteur pour l'évaluation des HT, MT et MTPE. Pour attribuer les notes de qualité appropriées, MQM examine le type et la gravité des erreurs trouvées dans le texte traduit.

Deuxièmement, nous nous appuyons sur des évaluations continues, en temps réel et automatisées de la qualité. Ils mesurent la distance finale ou le taux d'erreur de traduction entre HT, MT et MTPE. En définitive, ces deux types d'évaluation nous permettent d'offrir une qualité de traduction garantie.

Quelle est l'importance de l'évaluation des traductions automatiques ?

L'évaluation vise à déterminer si une traduction répond aux critères suivants :

Précision. Le contenu doit transmettre fidèlement le message et le sentiment du texte original dans la langue cible.
Clair. Le message doit être facilement compréhensible et les instructions doivent être applicables et faciles à suivre.
Approprié. Certains publics exigent un certain niveau de formalité, par exemple. Il est essentiel de veiller à ce que les segments traduits respectent le public et ne l'aliènent pas ou ne l'offensent pas.

Un segment traduit qui présente des lacunes dans l'un de ces domaines nécessitera une post-édition par un traducteur humain.

Quant aux avantages de l'évaluation de la MT, il y en a plusieurs. Vous pouvez l'utiliser pour estimer les coûts et les économies de traduction et pour déterminer la rémunération appropriée des linguistes. Les traducteurs peuvent également voir d'un seul coup d'œil l'effort de post-édition que nécessitera un élément de contenu.

Deux méthodes d'évaluation de la qualité des traductions automatiques

Il existe deux options pour évaluer la traduction automatique :

Évaluation manuelle : Les traducteurs humains examinent des facteurs tels que la fluidité, l'adéquation et les erreurs de traduction, comme les mots manquants et l'ordre incorrect des mots. L'inconvénient de cette méthode est que chaque linguiste peut définir la "qualité" de manière subjective.
L'évaluation automatique : Cette méthode implique l'attribution d'une note par le biais d'algorithmes. Les algorithmes utilisent des traductions de référence humaines et des mesures automatiques telles que BLEU et METEOR pour juger de la qualité. Alors que l'évaluation humaine est plus précise au niveau de la phrase, cette méthode donne une vue d'ensemble et est plus évolutive et rentable.

Les différences : estimation et évaluation de la qualité de la traduction automatique

Contrairement à l'évaluation de la qualité, l'estimation de la qualité des traductions automatiques (MTQE) ne repose pas sur des traductions de référence humaines. Il utilise des méthodes d'apprentissage automatique pour tirer des enseignements des corrélations entre les segments source et cible. Ces corrélations informent les estimations, qui peuvent être créées au niveau du mot, de l'expression, de la phrase ou du document.

Pourquoi utiliser l'estimation de la qualité de la MT ?

Dans notre épisode de la série Reality sur l'estimation de la qualité de la traduction automatique, Mei Zheng, Senior Data Scientist chez Smartling, a donné ce conseil :

"Si vous disposez des ressources nécessaires pour procéder à une notation automatique de tous vos contenus, ne vous en privez pas. Ensuite, échantillonnez certaines de ces chaînes pour qu'elles soient évaluées par des humains. De cette manière, vous obtenez une base de référence de ce à quoi correspond ce score automatique lorsqu'un linguiste le voit".

Quel est l'intérêt de fixer ces valeurs de référence sur la base d'estimations de la qualité d'un large éventail de contenus ? Si vous identifiez également des modèles de chaînes de caractères mal traduites, vous pouvez juger rapidement et de manière fiable si le contenu traduit par la machine peut être publié tel quel.

Facteurs influençant les scores d'estimation de la qualité de la MT

L'estimation automatique de la qualité est rapide et rentable. Cependant, comme le dit Alex Yanishevsky, directeur des solutions de TA et d'IA chez Smartling, "cela ne vous donnera pas les mêmes informations qu'un être humain". Comme indiqué dans le webinaire du MTQE, il y a plusieurs raisons à cela.

La source et sa qualité

Il existe différents algorithmes d'estimation de la qualité, mais la plupart d'entre eux ne prennent pas en compte le contexte environnant, comme le sexe. Considérez, par exemple, le texte suivant : "Dr. M. Smith a été reconnu coupable de détention d'un animal protégé par le tribunal de première instance d'Atherton après avoir été accusé d'avoir enlevé un python de broussailles de la propriété d'un résident. Elle a ensuite entamé une procédure judiciaire pour faire appel de la décision du tribunal".

Par exemple, dans une langue comme l'espagnol, "Docteur" devrait être traduit au féminin (c'est-à-dire "Doctora"). Cependant, la plupart des moteurs de recherche ne sont pas formés pour détecter ce type de biais. Si la langue source ne fait pas l'objet d'un traitement technique rapide, le résultat peut être incorrect et avoir un impact sur le score de qualité.

Série de téléréalité - Qualité MT
Description de l'image : Considérations sur les sources pour l'estimation de la qualité des MT

Un autre facteur qui peut affecter les estimations de qualité est le manque de clarté ou la possibilité de plusieurs interprétations du texte source. Mei l'explique simplement : "Lorsque la source est ambiguë et que nous, en tant qu'humains, ne savons pas comment l'interpréter, nous ne pouvons pas attendre de la traduction automatique qu'elle fasse un meilleur travail que nous".

En outre, comme les modèles MTQE sont formés sur des ensembles de données propres, ils ne gèrent pas toujours bien les données plus désordonnées. Le blasphème en est un bon exemple. Mei a expliqué : "Lorsque vous utilisez des mots grossiers, les modèles [d'estimation de la qualité] imposent une pénalité très élevée. Ils vous disent : "C'est une mauvaise traduction, vous ne devriez pas la publier". Lorsque vous avez des cas d'utilisation [de blasphèmes], vous ne pouvez pas utiliser ces mécanismes de notation automatique pour cela".

Votre domaine ou secteur d'activité

Différents algorithmes de notation peuvent donner des estimations différentes en fonction de leur familiarité avec la terminologie d'un secteur. Alex a donc insisté sur le fait qu'"il n'existe pas d'algorithme de notation unique qui soit exhaustif". Et de poursuivre : "Pour qu'un algorithme soit efficace, nous aurions besoin de données spécifiques à ce domaine ou à ce secteur". Tout comme les systèmes de traduction automatique peuvent être adaptés à un secteur particulier afin de produire des traductions plus précises, les algorithmes de notation peuvent également être formés à des domaines spécifiques.

Ces données spécifiques à un domaine peuvent souvent s'avérer cruciales. Alex explique : "Si vous travaillez dans un secteur réglementé, comme les sciences de la vie, la médecine ou l'industrie pharmaceutique, une précision de 90 %, dans la plupart des cas, n'est probablement pas suffisante. Si, par exemple, la virgule n'est pas au bon endroit et qu'il s'agit d'utiliser un couteau chirurgical, cela peut littéralement faire la différence entre la vie et la mort". Les enjeux sont également importants dans d'autres secteurs, tels que la finance et le droit.

Le public visé

Les estimations peuvent également varier en fonction de la compréhension qu'a l'algorithme des seuils de qualité pour une langue donnée. Mei a déclaré : "La formalité - le choix des mots et la voix de votre contenu - fait partie de vos préférences stylistiques. Mais parfois, il ne s'agit pas seulement d'une préférence. C'est comme si je devais transmettre cela de manière formelle, sinon je perdrai mon client". C'est la raison pour laquelle l'évaluation manuelle peut être si bénéfique pour l'assurance qualité.

Mei poursuit : "Dans le cas de l'espagnol, qui n'est pas seulement formel ou informel, le choix des mots dépend vraiment du niveau de respect que vous devez accorder à votre interlocuteur. Et cela dépend de la relation que vous avez avec la personne - si cette personne est d'un rang plus élevé que le vôtre, ou si elle est plus jeune que vous".

L'avenir de la qualité des traductions automatiques et du MTQE

La qualité de la traduction automatique continuera à s'améliorer, d'autant plus que de plus en plus de personnes utilisent de grands modèles linguistiques (LLM) tels que GPT-4 pour la compléter. Mei a fait remarquer que "ces LLM sont très puissants pour apporter des corrections aux MT, comme [garantir] l'exactitude du genre, de la formalité, des guides de style, etc. Cependant, ils présentent des lacunes qui obligent les linguistes à prendre le relais. Les hallucinations du LLM - où les modèles présentent des informations inexactes comme des faits - en sont un bon exemple.

En fin de compte, la TA et les LLM permettront de réaliser des projets de traduction plus rapidement et avec plus de précision. Mais les linguistes resteront aux commandes et procéderont aux ajustements nécessaires pour améliorer les traductions. Alex a partagé un sentiment similaire, prédisant que les traducteurs pourraient éventuellement assumer davantage de tâches d'un ingénieur rapide. "Ils commenceront à apprendre à rédiger des questions de manière à ce que le LLM soit en mesure de corriger le résultat et de l'adapter au style particulier dont ils ont besoin, qu'il s'agisse du genre ou de la formalité.

Qu'en est-il de l'avenir de l'estimation de la qualité des traductions automatiques ? La création d'algorithmes prenant en compte la source et la cible constituera un grand pas en avant. Idéalement, ils seront en mesure de pondérer correctement les notes pour tenir compte de facteurs tels que l'ambiguïté et la complexité du sujet. Ou, au moins, améliorer le processus de signalement des problèmes susceptibles d'avoir un impact négatif sur la cible.

En attendant, vous avez déjà accès à des moteurs de traduction automatique de pointe grâce au Neural Machine Translation Hub de Smartling. Il existe même des fonctions intégrées d'évaluation de la qualité, telles que Smartling Auto-Select. (La fonction Auto-Select prend en compte les dernières modifications apportées à chaque moteur de traduction automatique disponible et identifie le meilleur fournisseur actuel pour une paire de langues spécifique).

Mise à jour du graphique MT
Description de l'image : Moteurs MT intégrés dans le Hub Smartling NMT

Quels sont les résultats de cette approche du moteur multi-MT basée sur l'estimation de la qualité ? Des traductions automatiques d'une qualité jusqu'à 350 % supérieure et un besoin réduit de post-édition, ce qui se traduit par une réduction des coûts et une mise sur le marché plus rapide.

Pour en savoir plus sur la façon dont Smartling peut vous aider à atteindre ces résultats, regardez notre démo Neural Machine Translation Hub. Nous nous ferons un plaisir de répondre à vos questions par la suite !

Session 1 : présentation de la traduction par l'IA

Session 1 : présentation de la traduction par l'IA

Session 1 : présentation de la traduction par l'IA

Participez à quelque chose de grand. Consultez les offres d'emploi de Smartling.

Comment évaluer la qualité de la traduction automatique

Quelle est la précision de la traduction automatique ?

Qu'est-ce que l' évaluation de la qualité des traductions automatiques?

Quelle est l'importance de l'évaluation des traductions automatiques ?

Deux méthodes d'évaluation de la qualité des traductions automatiques

Les différences : estimation et évaluation de la qualité de la traduction automatique

Pourquoi utiliser l'estimation de la qualité de la MT ?