Abstract | Ovaj će rad pružiti pregled procesa stvaranja sustava za strojno prevođenje koji se koriste programskim jezikom Python. Sustavi prevođenja temeljit će se na šest jezičnih smjerova: hrvatsko-engleski, englesko-hrvatski, hrvatsko-njemački, njemačko-hrvatski, njemačko-engleski i englesko-njemački. Rad će proučavati različite pristupe strojnom prevođenju, s posebnim naglaskom na pristup temeljen na primjerima, statistički pristup i pristup neuronskim mrežama. Različiti pristupi bit će ocijenjeni na temelju njihove točnosti korištenjem ljudskih i strojnih metoda evaluacije. U radu će se također razmotriti utjecaj količine prikupljenih jezičnih podataka na točnost prijevoda za svaki od pristupa tijekom procesa evaluacije sustava.
Cilj diplomskog rada je analizirati metode, tehnike i postupke izgradnje sustava za strojno prevođenje. U istraživanju će se izgraditi sustavi za 6 jezičnih tečajeva prema 3 različita pristupa. Parovi rečenica bit će nasumično izdvojeni iz svakog korpusa jezičnog tečaja kako bi se stvorile verzije svih korpusa jezičnog tečaja koje sadrže 75 % i 50 % početnih jezičnih podataka. Dakle ukupno 54 sustava. Sustavi za strojno prevođenje bit će izgrađeni trima različitim pristupima: 1.) na temelju primjera 2.) na temelju statističkog pristupa 3.) na temelju algoritama neuronske mreže. Nakon izgradnje sustava provest će se automatska i ručna evaluacija i usporedba rezultata.
Cilj ovoga rada bio je analizirati metode, tehnike i postupke izgradnje sustava za strojno prevođenje. U istraživanju je izgrađeno 6 sustava za 6 jezičnih smjerova (engleski-hrvatski, hrvatski-engleski, engleski-njemački, njemački-engleski, njemački-hrvatski, hrvatski-njemački). Svaki sustar izgrađen prema 3 različita pristupa: temeljen na primjerima, temeljen na statističkom pristupu, temeljen na algoritmima neuronske mreže, što čini 18 sustava za strojno prevođenje, koji se u 100%-tnom opsegu razlikuju prema veličini korpusa za treniranje. Daljnjim postupcima, iz svakog od korpusa nasumično su izdvojeni rečenični parovi kako bi se stvorile verzije svih korpusa jezičnih smjerova koje sadrže 75 % i 50 % početnih jezičnih podataka. Time je dodatno izrađeno 36 sustava, što u ukupnosti čini 54 sustava. . Nakon izgradnje sustava provedena je automatska i ljudska evaluacija te usporedba rezultata.
U istraživanju se izvršio pregled prijevoda 54 sustava za strojno prevođenje. Statistički pristup strojnom prevođenju davao je najbolje prijevode prema ljudskoj metrici, dok je sustav temeljen na neuronskim mrežama davao najbolje prijevode prema BLEU metrici.
Jezični smjerovi engleski-hrvatski i hrvatski engleski daje najbolje rezultate prema ljudskoj metrici korištenjem svih triju pristupa. Dok isti smjerovi daje najbolje rezultate prema BLEU metrici sveukupno, smjerovi hrvatski-njemački jest davao najbolje rezultate za statistički sustav te smjer njemački-hrvatski je daju najbolje rezultate za sustav temeljen na neuronskim mrežama.
Broj pokušaja prijevoda smanjuje se kako se smanjuje i broj podataka u korpusu, osim za statistički sustav strojnog prevođenja gdje broj pokušaja u nekim slučajevima (na primjer jezični smjer engleski-njemački) raste dok broj točnih prijevoda se i dalje smanjuje kao i u ostalim sustavima. Razlog tome je što smanjenjem količine podataka za statistički sustav strojnog prevođenja se i smanjuje razlika između vjerojatnosti točnog prijevoda i pogrešnog prijevoda, time tjerajući sustav na akciju sličnu nagađanju točnog prijevoda.
BLEU mjere generalno pokazuju identičan trend ljudskoj evaluaciji točnih prijevoda, no isto tako prikazuju rast u kvaliteti prijevoda kako se oduzima količina podataka unutar korpusa. Takav rast vidljiv je u sustavu za strojno prevođenje temeljenom na neuronskim mrežama za smjer engleski-hrvatski. Rast u kvaliteti prijevoda prema BLEU metrici događa se iz razloga što BLEU metrika gleda sličnost strojnog prijevoda ljudskom prijevodu, te ne uračunava mogućnost većeg broja točnih prijevoda za istu rečenicu unutar konteksta ciljanog jezika. |
Abstract (english) | This paper will provide an overview of the creation process for machine translation systems using the python programming language. The translation system will be based on six language directions: Croatian-English, English-Croatian, Croatian-German, German-Croatian, German-English and English-German. The paper will study the different approaches to machine translation, with a specific focus on the example based approach, statistical approach, and the approach using neural networks. Different approaches will be evaluated based on their accuracy utilizing human and machine evaluation methods. The paper will also consider the impact of the amount of language data gathered on the accuracy of the translation for each of the approaches during the system evaluation process.
The aim of the thesis is to analyze the methods, techniques and procedures of building a machine translation system. In the research, systems will be built for 6 language courses according to 3 different approaches. Sentence pairs will be randomly extracted from each of the language course corpora to create versions of all language course corpora containing 75% and 50% of the initial language data. Thus making 54 systems in total. Machine translation systems will be built through three different approaches: 1.) based on examples 2.) based on a statistical approach 3.) based on neural network algorithms. After the construction of the system, automatic and manual evaluation and comparison of the results will be carried out.
The aim of this paper is to analyze the methods, techniques and procedures of building a machine translation system. In this research, 6 systems were created for 6 language directions (English-Croatian, Croatian-English, English-German, German-English, German-Croatian, Croatian-German). Each system is built according to 3 different approaches: example-based, approach based on statistics, and neural network algorithm-based approach, which makes, in total, 18 machine translation systems, which differ at 100% of the size of the training corpora. Furthermore, sentence pairs were randomly removed from each of the corpora in order to create versions of all language direction corpora containing 75% and 50% of the initial language data. In this way, 36 systems were additionally created, which makes a total of 54 systems. After the construction of each system, machine and human evaluation and comparison of the results were carried out.
In the research, an analysis of the translations of 54 machine translation systems was performed. The statistical approach to machine translation produced the translations with the highest quality according to the human metric, while the neural network-based system produced the highest quality translations according to the BLEU metric.
The language directions of English-Croatian and Croatian English give the highest quality results according to human metrics overall in all three approaches. While the same directions give the highest quality results according to the BLEU metric overall, the Croatian-German direction gave the highest quality results for the statistical system and the German-Croatian direction gave the best results for the neural network-based system.
The number of translation attempts decreased as the amount of data in the corpora was reduced, with a notable exception for the statistical system of machine translation where the number of attempts in some cases (for example the language direction English-German) increases while the number of correct translations continued to decrease as in other systems. Such an increase in attempts but a decrease in quality is due to the reduction in the amount of data for a statistical machine translation system also reduces the difference between the probability of a correct translation and a wrong translation, thereby forcing the system to take an action similar to guessing the correct translation.
BLEU metrics generally show an identical trend to human evaluation of correct translations, but also may sometimes show an increase in translation quality as the amount of data within the corpus is reduced. Such growth is visible in the machine translation system based on neural networks for the English-Croatian direction. The increase in translation quality according to the BLEU metric occurs due to the BLEU metric evaluating the similarity of the machine translated text to the human translated text, and as such does not take into account the possibility of a greater number of correct translations for the same source sentence within the context of the target language. |