Qu’est-ce que la possibilité d’expédier en localisation ? Un nouveau cadre de qualité de Smartling et OpenAI

Un score de qualité indique si la traduction a passé un contrôle défini. Il compte les erreurs, vérifie les seuils et regarde en arrière. L’entreprise, cependant, pose une question différente : sommes-nous prêts à livrer ce produit sur ce marché ?

Cette distinction est la ligne de faille qui traverse actuellement la plupart des programmes de localisation pour les entreprises, et elle a été l’argument central lors de l’une des sessions les plus suivies de LocWorld55 Dublin. La salle était bondée car l’intelligence artificielle (IA) a accéléré l’expédition, mais le défi actuel est de garantir que la fiabilité, l’évaluation et les pratiques de déploiement suivent. Après tout, c’est là que les écarts peuvent coûter aux équipes de l’argent réel et de la crédibilité sur le marché.

Chez LocWorld55, Kathy Mok, responsable de la localisation chez OpenAI, et Olga Beregovaya, vice-présidente IA chez Smartling, ont co-présenté « Seriez-vous livré ceci ? Reformuler la qualité de la traduction pour l’ère de l’IA. »

Session Smartling et OpenAI à LocWorld55 Dublin

Olga Beregovaya (Smartling) et Kathy Mok (OpenAI) sur scène au LocWorld55 Dublin.

Pour ceux qui n’étaient pas présents, voici les idées qui valent la peine d’être remises dans votre programme :

Quand le tableau de bord repose (en quelque sorte)

Kathy a commencé avec un scénario que la plupart des responsables de localisation reconnaîtront immédiatement. Vous avez lancé 100 langues rapidement. Le tableau de bord des Métriques de Qualité Multidimensionnelle (MQM) est vert, les Accords de Niveau de Service (SLA) sont respectés, et les trois langues ont dépassé leurs seuils. Puis les retours commencent à arriver : le marketing japonais affirme que l’actif créatif n’est pas suffisant, un acteur hispanophone signale l’appel à l’action (CTA) comme étant de mauvaise qualité, et un chef de produit de croissance commence discrètement à chercher sa propre agence française.

Le plus inconfortable, c’est que le tableau de bord affiche toujours vert. Le score MQM n’est pas le problème ici, mais plutôt la réponse à la question pour laquelle il a été conçu : la traduction a passé un contrôle linguistique défini. L’entreprise se demande si cette expérience est prête pour un vrai marché, avec de vrais utilisateurs qui prennent de vraies décisions en fonction de ce qu’ils lisent, et ces deux questions ne sont pas la même chose. Les traiter comme équivalents est précisément la façon dont les traductions techniquement correctes produisent des expériences commercialement défaillantes.

Modèles de qualité conçus pour un monde plus lent

Cela ne signifie pas que la mesure traditionnelle de la qualité est erronée. Cela signifie qu’il a été conçu pour un rythme qui n’existe plus. Les marques livrent désormais du contenu à l’échelle mondiale à un rythme quotidien, la traduction axée sur l’IA est devenue la norme opérationnelle, et les partenaires fournisseurs réentraînent en temps réel les flux de travail pour suivre le rythme. Dans cet environnement, le comptage des erreurs après livraison devient au mieux un indicateur de retard. Au moment où un examen d’assurance qualité linguistique (LQA) confirme qu’il y avait un problème, le contenu est souvent déjà sur le marché.

Le problème plus profond est structurel. Les modèles de qualité traditionnels demandent aux évaluateurs de trouver des défauts, mais ils n’ont pas été conçus pour savoir si un défaut donné compte, à qui il compte, sur quelle surface, sur quel marché, et à quel niveau de risque. Ce travail granulaire d’étiquetage d’erreurs a sa place, mais il ne prédit pas de manière fiable si une campagne sera convertie, si un message de sécurité sera digne de confiance, ou si un flux de paiement poussera quelqu’un à abandonner complètement la transaction.

Présentation de la Shippabilité

Ce changement est appelé la capacité d’expédition : la pratique consistant à traiter l’évaluation qualité non pas comme un audit rétrospectif des défauts, mais comme une décision de préparation au lancement prospective. La question centrale passe de « combien d’erreurs avons-nous trouvées ? » à « un utilisateur local aurait-il suffisamment confiance à cela pour continuer ? » Cela semble être un léger changement de formulation, mais les implications opérationnelles sont importantes.

Présenté ainsi, le rôle du critique change complètement. Plutôt que de contrôler le langage selon une taxonomie, les évaluateurs prennent la responsabilité locale d’une décision maritime en évaluant quatre éléments :

Signification (l’intention initiale est-elle intacte ?)
Adéquation du marché (est-ce approprié pour ce public et contexte spécifiques ?)
Le risque (est-ce que cela induit en erreur, bloque une action ou érode la confiance ?)
Action (que se passe-t-il ensuite : le livrer, l’améliorer après le lancement, ou le garder pour un correctif avant la sortie)

Cette dernière dimension compte, car sans résultat clair et exploitable, la livraisonnabilité devient un autre cadre de qualité abstrait qui ne change rien en pratique. Les trois appels de livraison sont conçus précisément pour empêcher cela : réparer avant l’expédition, envoyer ensuite améliorer, ou prêt à expédier. Chacun indique à une équipe quoi faire, pas seulement comment la traduction a été notée.

Les mouvements de seuil avec le marché

L’un des arguments les plus pratiques de la session est que la livrabilité n’est pas une norme universelle. C’est un niveau de risque calibré, et le bon niveau de risque dépend entièrement de ce qui est traduit et à qui il est destiné. Un article de centre d’aide peu visible, un titre d’acquisition payant, une consigne de sécurité et un écran de tarification représentent quatre profils de risque très différents. Appliquer la même profondeur d’avis à toutes signifie soit surinvestir dans les domaines qui ne le justifient pas, soit sous-investir dans celles qui le justifient.

Les personas du marché modifient également le seuil de manière significative. Par exemple, les publics prudents envers l’IA exigent des indices de confiance plus élevés et un ton plus réfléchi, tandis que les marchés axés sur l’utilité privilégient la clarté des tâches au détriment du style poli, et les lieux sensibles à la qualité ont des attentes plus élevées en matière de nuances et de registres. Les décisions de localisation qui fonctionnent bien pour un profil d’audience peuvent être activement inférieures à un autre, c’est pourquoi la propriété locale de l’appel à la capacité d’expédition est aussi importante que d’avoir le cadre dès le départ.

Comment Smartling et OpenAI l’ont construit en pratique

Olga a introduit la seconde moitié de la session dans la réalité opérationnelle de ce qu’il faut réellement pour gérer un programme de cette manière. Le partenariat Smartling et OpenAI a débuté dans 20 sites, s’est étendu à 60+, et fonctionne désormais à couverture complète sur l’ensemble des produits ChatGPT et OpenAI. Cette échelle, soutenue à cette vitesse, est le véritable test de résistance pour tout cadre de qualité.

Le rôle du traducteur a dû être presque entièrement repensé. Dans le modèle de livraison, un linguiste ne traite pas les chaînes en file d’attente. Au contraire, ils fonctionnent davantage comme un chef de produit local, lisant le contexte complet sans jugement préalable, l’évaluant par rapport à la persona du marché et au cadre de risque, puis prenant et enregistrant une décision claire. Ces décisions se réinjectent dans le système sous forme de signaux qui informent ce qui est automatisable, où la révision humaine continue de modifier les résultats, et ce qui doit évoluer dans le flux de travail sous-jacent ou le comportement du modèle au fil du temps.

Smartling a construit une surface de travail conçue spécialement pour soutenir ce modèle, minimaliste, en langage clair et structurée autour des trois appels d’expédition plutôt que de la catégorisation traditionnelle des erreurs. Le design reflète directement la philosophie : pas de grilles de notation complexes, pas de marquage élaboré des défauts. L’interface invite les évaluateurs à lire dans son contexte complet, à évaluer globalement et à décider. Cette simplicité est intentionnelle, car la surcharge cognitive lors de l’étape de la revue est l’un des facteurs qui ralentit les programmes et dilue la qualité du signal qui revient.

Commencer sans reconstruction complète du programme

La séance de questions-réponses (Q&R) a soulevé une préoccupation prévisible : cela semble juste, mais par où commencer ? Kathy a recommandé de commencer par une voie, un marché, un type de contenu, une question modifiée. Au lieu de demander aux critiques combien d’erreurs ils ont trouvées, demandez-leur s’ils proposeraient de l’envoyer sur leur marché. Suivez ce qui revient en quatre catégories simples : 1) vaisseau ; 2) pas encore ; 3) pourquoi ; et 4) quelle action a été déclenchée. C’est le signal, et c’est plus utile qu’un simple décompte d’erreurs car il correspond directement à une décision commerciale.

La répartition de la propriété compte aussi. L’organisation cliente établit le contexte commercial et définit l’appétit pour le risque pour chaque type de contenu et marché. Le partenaire fournisseur est responsable de permettre le jugement, de mettre en place les bons évaluateurs, de construire des flux de travail adaptés au rythme requis, et de s’assurer que les outils permettent des décisions claires plutôt que de surcharger les évaluateurs avec des surcharges de processus. Les deux parties doivent faire leur part, car les décisions de shippabilité nécessitent quelqu’un qui comprend ce qui est en jeu commercialement et capable de structurer le programme pour prendre ces décisions de manière cohérente et à grande échelle.

Les données, même d’un pilote modeste, commencent à révéler la véritable forme du risque dans un programme : où les équipes surévaluent du contenu qui ne le justifie pas, où elles sous-évaluent du contenu qui le justifie, et à quoi ressemblerait en pratique une stratégie de qualité conçue pour leur rythme de livraison réel.

La question durable

La session s’est terminée par une analogie marquante avec le restaurant : considérez que le menu peut être traduit correctement, mais la question n’est pas de savoir si les mots sont justes. La question est de savoir si les clients commanderont en toute confiance, feront confiance à ce qu’ils lisent et se sentiront suffisamment à l’aise pour revenir.

Une expression un peu maladroite dans la description du dessert est un problème très différent d’une incompréhension des allergènes. Les deux sont techniquement des erreurs, mais une seule représente un risque suffisamment sérieux pour empêcher un lancement. Connaître la différence et structurer un programme de qualité autour de cette distinction, c’est ce pour quoi la shippabilité est conçue.

La qualité de la localisation n’est pas un sujet de perfection linguistique. C’est un sujet de confiance au lancement. La session Smartling et OpenAI à LocWorld55 a démontré cette argumentation en termes concrets, fondée sur un programme réel fonctionnant à grande échelle. Si votre processus de qualité actuel ne peut pas répondre de manière fiable à la disponibilité d’une traduction sur son marché, c’est le point de départ le plus utile.

Réimaginer la localisation à l'ère de l'IA

Réimaginer la localisation à l'ère de l'IA

Réimaginer la localisation à l'ère de l'IA

Réimaginer la localisation à l'ère de l'IA

Votre score de qualité indiquait vert, mais le marché disait le contraire : Perspectives issues de la session Smartling et OpenAI à LocWorld55 Dublin

Quand le tableau de bord repose (en quelque sorte)

Modèles de qualité conçus pour un monde plus lent

Présentation de la Shippabilité

Les mouvements de seuil avec le marché

Comment Smartling et OpenAI l’ont construit en pratique

Commencer sans reconstruction complète du programme

La question durable

Bénéficiez des conseils d'experts en localisation.

Pourquoi attendre pour traduire de manière plus intelligente ?

S'abonner à notre newsletter

Commencer

L'entreprise

Documents

Assistance