À la Une

Soutenance de thèse Lorenza Russo

Mme Lorenza Russo soutiendra, en vue de l'obtention du grade de docteur ès lettres en linguistique, sa thèse intitulée:

La traduction automatique entre langues proches : le cas du français et de l’italien

Date: Lundi 17 juin 2019 à 14h15

Lieu: CUI / Battelle bâtiment A, auditoire rez-de-chaussée

Jury:

  • Professeur Jacques Moeschler, président du jury 
  • Professeur Eric Wehrli, directeur de thèse 
  • Professeure Nicoletta Calzolari (CNR-ILC, Pise) 
  • Professeure Johanna Monti (Università degli Studi di Napoli L'Orientale) 
  • Professeur Christopher Laenzlinger (Université de Genève) 

Résumé:

Ce travail s'inscrit dans le cadre de la traduction automatique entre langues proches et porte sur le couple de langues français-italien. Nous avons comparé deux traducteurs automatiques à base de règles: Apertium (Forcada, 2011) -- un traducteur qui se base sur un module d'analyse syntaxique dite ``de surface'' ou ``superficielle'' (shallow parsing en anglais) -- et Its-2 (Wehrli et Scherrer, 2009 -- un traducteur qui se base sur un module d'analyse syntaxique dite ``profonde'' (deep parsing en anglais). Les performances de ces deux systèmes ont été comparées à celles d'un système statistique à base neuronale (Google Traduction, Wu, 2016).

Dans ce travail, nous cherchons à vérifier l'hypothèse selon laquelle l'analyse syntaxique de surface est suffisante pour la traduction automatique entre langues proches étant donné qu'elles présentent un grand nombre de caractéristiques linguistiques communes.

Après une brève introduction (chapitre 1), nous abordons la question de la proximité linguistique entre le français et l'italien au niveau syntaxique, plus précisément au niveau des sous-catégorisations verbales partagées entre ces deux langues (chapitre 2) et au niveau des collocations dites ``transparentes'' (i.e., qui présentent le même comportement syntaxique et sémantique) (chapitre 3).

Au chapitre 4, nous comparons la stratégie de traduction d'Apertium avec celle d'Its-2. Nous évaluons les performances des deux systèmes lors de la traduction entre les langues proches espagnol-français. La raison pour laquelle le couple de langues espagnol-français a été choisi pour ces évaluations réside dans le fait qu'au début de ce travail de thèse Apertium ne possédait pas de module de traduction pour le couple français-italien. Compte tenu de ce manque, nous donnons au chapitre 5 les détails de l’implémentation du module de traduction français-italien que nous avons effectuée en Apertium.

Au chapitre 6, nous nous tournons vers la traduction automatique d'un phénomène linguistique spécifique au niveau duquel le français et l'italien se distinguent -- les pronoms clitiques -- afin de déterminer si les performances des trois systèmes (Apertium, Its-2 et Google Traduction) diffèrent lorsque le français et l'italien ne se comportent pas comme des langues proches.

Nos évaluations nous amènent à conclure que dans certains cas l'analyse syntaxique de surface peut être suffisante pour la traduction entre langues proches, mais lorsque l'on observe de plus près la qualité syntaxique des résultats obtenus, une telle approche ne semble pas suffisante. Par exemple, lors de la traduction des pronoms clitiques du français vers l'italien, nous avons pu constater que là où les pronoms clitiques se comportent de manière similaire entre le français et l'italien, Apertium atteint un pourcentage de traductions correctes de 44% (contre 85% atteint par Its-2). Cependant, lors de la traduction d'un phénomène linguistique plus compliqué nécessitant un nombre plus élevé de règles de transfert -- comme, par exemple, pour la traduction des séquences clitiques --, le système donné 0% de résultats corrects, alors qu'Its-2 atteint 45% de traductions correctes.

Outre les études effectuées pour déterminer dans quelle mesure une analyse syntaxique de surface est suffisante pour traduire entre langues proches, d'autres questions ont été soulevées dans ce travail de recherche, telles que les problèmes liés au choix de la mesure d'évaluation des systèmes de traduction automatique ainsi que les difficultés en lien avec les corpus à utiliser.

Finalement, avec ce travail de recherche nous donnons à la communauté scientifique des corpus que nous avons construits nous-mêmes et qui présentent l'avantage d'un meilleur contrôle sur des phénomènes linguistiques spécifiques, des tables de correspondance des collocations transparentes entre le français et l'italien ainsi qu'un module de traduction français-italien accessible sur la plateforme Apertium.