Und genau das machte Samuel Frontull der eine maschinelle Übersetzung für die ladinische Sprache entwickelte. Dafür wurde dem Informatiker bereits ein Anerkennungspreis verliehen seine Arbeit ist aber bei Weitem noch nicht abgeschlossen. <BR /><BR />Samuel Frontull ist Ladiner und stammt aus Longega/Zwischenwasser in der Gemeinde Mareo/Enneberg. Im Zuge seines Informatik-Studiums an der Universität Innsbruck entwickelte er tradutur, ein maschinelles Übersetzungssystem für die ladinische Sprache (für das Gadertaler Idiom, Anm. der Red.). Dank eines Forschungsstipendiums der Region Trentino Südtirol entwickelt er im Rahmen seines PhD-Studiums diese gerade weiter. Unterstützung erhält er dabei vom Ladinischen Kulturinstitut. Mit den „Dolomiten“ sprach er über seine Arbeit. <BR /><BR /><b>Wie kommt ein Informatiker dazu, sich mit Sprachenübersetzung zu beschäftigen?</b><BR />Samuel Frontull: Mich hat es bereits vor längerer Zeit fasziniert zu sehen, wie Computer es schaffen, Texte zu generieren. Wie gut das funktioniert und wie flüssige und verständliche Texte über alle möglichen Themen entstehen. <BR />Da hab ich mir gedacht, es wäre toll, so etwas auch in Ladinisch zu haben. <BR /><BR /><b> Ihre Muttersprache ist ja Ladinisch.</b><BR />Frontull: Ja, genau. Ich selber weiß, dass man sich auch als Muttersprachler schwertun kann Ladinisch zu schreiben. Da ich weiß, wie es ist, wenn eine Sprachbarriere vorhanden ist und dass diese nicht immer leicht zu überwinden ist, kann ein Übersetzer helfen, diese Barrieren zumindest im digitalen Raum abzubauen. <BR /><BR /><b>Und so entstand diese Idee vom Übersetzer?</b><BR />Frontull: Übersetzer gibt es ja schon länger, und da hab ich mir gedacht, das könnte ein cooles Projekt sein für eine Masterarbeit und dann in einem zweiten Moment eine Möglichkeit, um das Ladinische für die Welt zu öffnen. <BR /><BR /><div class="img-embed"><embed id="880826_image" /></div> <BR /><BR /><BR /><b>„Für das Ladinische gibt es bereits mehrere Online-Lexika und auch Internetseiten, wo z.B. Textanalysen durchgeführt werden können. Worin unterscheidet sich ihr Übersetzer?</b><BR />Frontull: Im Vergleich zu anderen Minderheitensprachen ist das Ladinische bereits sehr gut aufgestellt, ebenso das Rätoromanische. Bei den Lexika können einzelne Wörter nachgeschlagen werden. Bei dem Übersetzer werden ganze Sätze und Textblöcke übersetzt.<BR /><BR /><b> Das Prinzip dahinter ist folglich ein anderes?</b><BR />Frontull: Genau. Bei dem Übersetzer werden durch die Einspeisung von Wörtern und ganzen Sätzen selbstgeneriert Zusammenhänge erkannt und somit Texte übersetzt. Sprache ist etwas sehr Kontextabhängiges. Für die Übersetzung einzelner Wörter gibt es oft mehrere Möglichkeiten die potenziell unterschiedliche Bedeutungen haben. Ein Übersetzer muss, unter Betrachtung des Kontexts indem ein Wort verwendet wird, verstehen, welche Übersetzung die passendere ist. Diese Zusammenhänge können automatisiert aus beispielhaften Übersetzungen abgeleitet/gelernt werden.<BR /><BR /><BR /><embed id="dtext86-58926437_quote" /><BR /><BR /><BR /><BR /><b> Das klingt für einen Laien recht kompliziert...Wie haben Sie das gemacht?</b><BR />Frontull: Zunächst wurden aus Onlinewörterbuch Gadertalisch – Italienisch die Wörter übernommen. Dann habe ich geschaut, wie gut es funktioniert wenn Sätze Wort für Wort übersetzt werden. Das hat bei einfachen Sätzen recht gut funktioniert, bei komplexeren weniger. Das Ladinische hat zum Beispiel ja sehr viele Hilfswörter, die eingesetzt werden. Mit einem regelbasierten Ansatz bei der maschinellen Übersetzung kommt man da irgendwann nicht mehr weiter. Dort werden Regeln programmiert und deren Ausnahmen. Ich hatte zunächst damit angefangen, aber das ginge dann ins Unendliche, daher ist man in der Computerlinguistik auch von diesem regelbasierten Ansatz weggekommen. <BR /><BR /><div class="img-embed"><embed id="880829_image" /></div> <BR /><BR /><b>Was kam dann?</b><BR />Frontull: Ich habe es dann mit statistischen Ansätzen probiert, wo aus beispielhaften Übersetzungen die Übersetzungsregeln automatisch gelernt werden. Es folgte die Übersetzung aus Beispielsätzen sogenannten Satzpaaren. Dafür habe ich anfänglich mit den 40.000 Beispielsätzen aus dem Wörterbuch gearbeitet. Bei einer Minderheitensprache hat man nicht so viele Beispielsätze wie bei anderen Sprachen. <BR /><BR /><b> Wie funktioniert das System?</b><BR />Frontull: Statistische Systeme generieren Übersetzungen indem sie Texte in mehreren, kleineren Übersetzungseinheiten unterteilen (das können zum Beispiel einzelne Wörter sein) für die sie jeweils nach der wahrscheinlichsten Übersetzung suchen<BR />Eine Weiterentwicklung bzw. der nächste Schritt sind dann noch die sogenannten neuronalen Netzwerke, die auch kontextabhängig übersetzen, aber auf noch mehr Faktoren gleichzeitig achten können. Das geht dann in die Richtung der künstlichen Intelligenz. <BR /><BR /><b> Und Sie arbeiten nun mit der Künstlichen Intelligenz?</b><BR />Frontull: Ja, ich habe gesehen, dass das recht gut funktioniert in dem Bereich und bin nun direkt auf die künstliche Intelligenz übergegangen. Da gibt es viel Potenzial das zu verbessern. <BR /><BR /><b>Wie sind Sie dann weiter vorgegangen?</b><BR />Frontull: Um mehr Beispielsätze zu generieren, habe ich rein ladinische Texte verwendet und sie ins Italienische übersetzt. In Folge wurde das Resultat mit den bereits bestehenden Modellen automatisch korrigiert. So wurde ein Corpus geschaffen, bei dem eine Hälfte künstlich generiert ist und mit dem das neuronale Netzwerk trainiert werden konnte. So konnte eine recht große Menge an Texten als Basis gesammelt werden.<BR /><BR /><embed id="dtext86-58926438_quote" /><BR /><BR /><b>Das klingt nach viel Arbeit.</b><BR />Frontull: Die Arbeit bestand hier vor allem darin die Programme zu schreiben, danach wurde alles automatisch generiert. Da war der Aufwand nicht mehr so groß.<BR /><BR /><b>Bei den sprachlichen Belangen erhalten Sie nun die Unterstützung durch das Ladinische Kulturinstitut...</b><BR />Frontull: Dank des Forschungsstipendiums durch die Region wurde das Projekt nun für 2 Jahre vorerst bis zum 31. August 2024 finanziert und ich kann es weiterentwickeln. Jetzt befinde ich mich in der Post-editing-Phase bei der das Ladinische Kulturinstitut hilft. Ich habe ein Programm entwickelt, mit dem sie Einblick haben in die Trainingsdaten und diese dort dann bearbeiten können. So kann das Modell wieder neu trainiert und die Fehler Schritt für Schritt entfernt werden. <BR /><BR /><b> Klingt, als wäre der Übersetzer fertig?</b><BR />Frontull: Der Prototyp von tradutur ist bereits fertig. Es müssen aber noch Fehler entfernt werden. Zum Beispiel gibt es noch Probleme beim Geschlecht oder bei Singular/Plural. Mein Wunsch ist es aber schon das Programm in naher Zukunft der Öffentlichkeit zur Verfügung zu stellen. <BR /><BR /><b> Sprache entwickelt sich ja ständig weiter, wie wird das mit ihrem Übersetzer sein?</b><BR />Frontull: Ich habe verstanden, dass das Projekt auch nach Ende meiner Forschungszeit nie fertig sein wird. Ich werde deshalb das Programm so vorbereiten, dass es auch gewartetet und weitertrainiert werden kann. Und vielleicht kann ich nach Ende des Projektes ja noch selbst mitwirken <BR /><BR /><b> Ist die Übersetzung auch für die anderen Idiome vorgesehen? </b><BR />Frontull: Ich werde das sicher in den nächsten Monaten für das Grödnerische angehen, das steht für mich bereits fest. Nun habe ich den Ansatz untersucht und ich finde, es läuft gut. Mein Ziel ist es sicher auch für die anderen Idiome umzusetzen. Genauso soll es auch in die umgekehrte Richtung laufen, also vom Italienischen ins Ladinische. Bei der Übersetzung ins Deutsche läuft diese im Hintergrund über eine italienische Übersetzung, auch das könnte noch ausgebaut werden. <BR /><BR /><h3> Zur Person</h3>Samuel Frontull wurde 1995 in Bruneck geboren und stammt aus Longega/Zwischenwasser in der Gemeinde Mareo/Enneberg. Er studierte an der Universität Innsbruck Informatik. Im Rahmen der Abschlussarbeit bei ULG Data science entwickelte er eine maschinelle Übersetzung für die ladinische Sprache. Im Rahmen seiner Dissertationsarbeit, betreut von Tobias Hell und Georg Moser, forscht er an der maschinellen Übersetzung für die ladinische Sprache. Dank eines Forschungsstipendiums der Region Trentino Südtirol arbeitet Frontull nun an der Weiterentwicklung. In seiner Freizeit ist er ein leidenschaftlicher Fußballspieler (Stürmer beim ASC Mareo). Er lebt in Innsbruck.<BR /><BR /><BR />Samuel Frontull wird am Freitagvormittag im Rahmen der Tagung „Traditionelle und digitale Lexikographie in einem mehrsprachigen Alltag“ an der Europäischen Akademie (Eurac Research) in Bozen einen Vortrag halten zum Thema „Traduzione automatica per il ladino della Val Badia“. <BR />