Warning: count(): Parameter must be an array or an object that implements Countable in /usr/home/pangeanic.com/web/wp-content/plugins/q-and-a/inc/functions.php on line 252

Questo è un riassunto di come un motore di traduzione automatica tedesco ha fatto miracoli per uno dei nostri clienti che traduceva documentazione per il campo dell’elettronica.

Immaginate che voi o uno dei vostri clienti abbiate tradotto un dato argomento per anni. Ora vedete che la traduzione automatica può aiutare ad accelerare i processi di pubblicazione e forse anche a ridurre i costi di traduzione. Hai provato motori generici e sei convinto che con un po’ di lavoro di personalizzazione, potresti eseguire o possedere un motore di traduzione automatica che ti consenta il post-editing.

Tuttavia, nonostante i tempi, i costi e gli investimenti in traduzione degli ultimi anni, guardate i vostri dati e vi viene detto che non ne avete abbastanza, oppure i dati sono corrotti. Ci vorranno alcune settimane per correggerli e, anche se fossero corretti e coerenti, non hai abbastanza contenuti nel dominio. Non puoi stare al gioco, sei bloccato con memorie di traduzione e servizi generali troppo desiderosi di “succhiare i tuoi dati”… i tuoi flussi di pubblicazione e traduzione sono del 20 ° secolo.

Questa è la storia non raccontata di come un piccolo motore di traduzione automatica, nonostante la BLEU relativamente bassa, abbia fatto miracoli nella produttività della traduzione dal nostro dipartimento tedesco. Questo è il “come creare motori di traduzione automatica senza enormi quantità di dati”.

Prima di tutto, ricordiamoci alcuni punti

– Più grande è meglio: SBAGLIATO. Più dati in sé non garantiscono risultati migliori. I dati specifici del dominio garantiscono che le traduzioni future saranno gestite in modo più efficiente poiché il motore ha più esempi da guardare. Aggiungendo Moby Dick o Guerra e Pace non migliorerai di per sé le prestazioni del tuo motore se non prevedi di includere tutto.

Lezione: attenersi a ciò che si desidera che il motore migliori.

– I dati corrotti possono seriamente danneggiare la tua salute e di coloro che ti circondano: GIUSTO. Piccole quantità di dati non corretti possono indurre l’algoritmo a pensare che la sequenza o la catena di parole sbagliate abbiano in realtà la più alta possibilità di corrispondere alla nuova richiesta di traduzione. Può anche diluire le statistiche di qualcosa che accade e quindi rendere gli algoritmi di traduzione incerti su ciò che è meglio. Citerò un esempio di anni fa quando improvvisamente il testo inglese appariva nelle traduzioni perché era stato lasciato così nel set di formazione bilingue. Pertanto, senza alcuna correzione, il motore stava imparando che alcuni termini finanziari dovevano essere lasciati in inglese nell’obiettivo.

Lezione: passare un po’ di tempo sulla correzione anche basica, produrrà risultati migliori nei futuri lavori di traduzione automatica.

– Punteggi più alti di BLEU significano che i motori stanno traducendo meglio:  SBAGLIATO. Chiunque abbia avuto una certa esperienza nella traduzione automatica, vi dirà che confrontare diversi punteggi BLEU tra lingue e persino tra domini diversi non ha alcun senso. La metrica fornisce un’indicazione dopo che un set (in genere di 2.000 segmenti) è stato estratto e non è stato inserito nel corpus formativo. Se il test è stato condotto correttamente, non bisogna aspettarsi mai punteggi superiori a 60. Alcune persone “imbrogliano” la metrica non eliminando i 2.000 segmenti dal corpus formativo, o semplicemente non si assicurano che alcune di quelle frasi siano entrate nel corpus formativo come ripetizioni. Infatti, nessun corpus formativo dovrebbe contenere ripetizioni, almeno a scopo di test, durante una prova iniziale. Non seguire queste regole fornirà punteggi BLEU non realistici (alcune aziende dichiarano oltre l’80% !!) che non hanno alcuna relazione con l’usabilità e giocano semplicemente con le aspettative degli utenti.

German machine translation engine

Il motore di traduzione automatica tedesco di Pangeanic

Lezione: Assicurati di chiedere alla società di traduzione automatica di fornire la prova che i test iniziali sono stati condotti secondo la prassi standard, senza aggiungere ripetizioni e assicurandosi che il corpus formativo fosse “puro e pulito”.

Visita il nostro Accesso al blog di Pangeanic se hai bisogno di altri consigli.

Quindi cos’è successo a questo umile motore tedesco con mediocre punteggio BLEU? Beh, inizialmente, questo non sembra un piccolo motore, contiene circa 40 milioni di parole in tedesco e oltre 41 milioni di parole in inglese. È un motore bilingue che mostra umili BLEU in tedesco a 36,56 e 45,67 in inglese – quest’ultimo sarebbe leggermente più accettabile. A peggiorare le cose, la richiesta era ad-hoc, non avevamo il tempo di prepararci in quanto la scadenza della traduzione era troppo breve: il motore è stato rapidamente assemblato con il materiale del cliente non superiore a 250.000 parole in un corpus molto più ampio nei settori dell’elettronica e dell’ingegneria. Questo non è il tipico “approccio MT”, ma tutti i professionisti del settore della traduzione sanno che il tempo e la consegna sono questioni urgenti. In seguito, il motore ha subito una tipica personalizzazione durante il 2013 e successivamente è stato perfezionato con il materiale modificato e con il feedback del traduttore. È stato coinvolto il personale interno di traduzione del tedesco di Pangeanic.

Guadagno di produttività applicando traduzione automatica e post-editing 

La richiesta del cliente era di consegnare 25,741 nuove parole in una settimana da un singolo traduttore ed eseguire controlli di qualità con QA Distiller o un simile software di controllo terminologico.  Il nostro traduttore di tedesco ha svolto il lavoro attraverso il motore per ottenere una pre-traduzione e ha fatto il post-editing utilizzando una popolare interfaccia di memoria di traduzione, richiamando la traduzione automatica per voci penalizzate dalla memoria. I file sono stati consegnati il venerdì pomeriggio (i file venivano dal Giappone all’Europa) e sono stati richiesti il venerdì mattina seguente, ora del Giappone (quindi dovevano essere inviati giovedì sera all’ora europea).

In genere, un traduttore umano può produrre circa 2.500-3.000 parole al giorno prima del controllo qualità, il che significava circa 10 giorni lavorativi per il completamento del lavoro, qualcosa che il cliente non era disposto ad accettare. L’uso del linguaggio controllato, nonostante il poco tempo concesso per la personalizzazione iniziale, è stato sufficiente per girare più del doppio di quella cifra in modo che la traduzione preliminare fosse terminata alla fine del 3° giorno, con un guadagno di quasi 8000 parole al giorno. 4 per un pieno controllo della qualità e prova umana. Le statistiche sul lavoro erano le seguenti:

Risultati CATCount:

Match types:Words:Percent:Equivalent words:
XTranslated000
Repetitions100000
100% Matches000
95% – 99%6558201311,6
85% – 94%15304,5
75% – 84%8504
50% – 74%1035051,5
No Match2574110025741

Parole totali = 33425                    CATCount = 27112,60

L’effettivo sforzo di traduzione si sarebbe qualificato come oltre 27.000 nuove parole, ma le corrispondenze del 95% -99% non sono state recuperate dal motore di traduzione automatica tedesco ma dalla memoria di traduzione.

Le impostazioni di PangeaMT prevedono un training ottimale del motore di traduzione automatica e sono impostate in modo difforme per ogni coppia di lingue. Inoltre, il materiale in entrata può avere più peso del materiale esistente al fine di dargli priorità. Queste e altre funzionalità fanno parte della conoscenza che Pangea aggiunge alle sue forniture di sistema, sia SaaS che soluzioni ospitate. Richiedete una demo al nostro team se volete scoprire di più su come incrementare il vostro flusso di lavoro.