Le hachage appliqué à la traduction (French)

Non-English forums » French »
Le hachage appliqué à la traduction
Track this topic

Le hachage appliqué à la traduction

Thread poster: Jean-Marie Le Ray

Jean-Marie Le Ray

France
Local time: 07:00
Member
Italian to French
+ ...

Aug 21, 2007

http://fr.wikipedia.org/wiki/Fonction_de_hachage#Traduction_de_brochures_techniques

Traduction de brochures techniques

Imaginons traduire d'anglais en français un ouvrage, par exemple Perl version 5. Quand arrivera sa suite Perl version 6, on sait d'ores et déjà que sans doute 60% ou plus des phrases de l'ancienne version seront présentes - éventuellement placées ailleurs - dans la nouvelle. On procède donc de la façon suivante :

* Chaque traducteur traduit sur le réseau, phrase par phrase (dans leur contexte) le livre Perl 5.
* La signature (hash) de chaque phrase anglaise d'origine est calculée.
* On stocke dans une base de données (voire un simple fichier à accès direct) l'information phrase anglaise + phrase française, indexée par cette signature qui sert donc de clé.
* La signature de chaque phrase à traduire est calculée et, si la phrase correspondante existe dans la base de données, la traduction existante est proposée en préremplissage au traducteur.

Ce procédé fait déjà gagner du temps lors de la première traduction (Perl 5). Il en fera gagner encore plus avec la suivante sur un livre comprenant beaucoup de phrases dont beaucoup ont été déjà traduites (Perl 6).

Vous le saviez ?

Personnellement je n'en avais jamais entendu parler jusqu'à aujourd'hui, j'aimerais savoir s'il y en a parmi vous qui connaissent ce procédé.

Jean-Marie
http://www.translations2.com

Yolande Haneder (X)

Local time: 07:00
German to French
+ ...

Plus ou moins du Trados en ligne

Aug 21, 2007

A la différence que la MT ne reste pas chez le traducteur mais chez le client.
Peut être ceux-qui utilisent une TM de trados sur serveur peuvent avoir le même sentiment, des phrases qui se traduisent devant leur nez parce qu'un autre les entre au même moment.

Platary (X)
Local time: 07:00
German to French
+ ...

Massacre à la tronçonneuse ou des perles aux cochons ...

Aug 21, 2007

Jean-Marie Le Ray wrote:

Vous le saviez ?

Personnellement je n'en avais jamais entendu parler jusqu'à aujourd'hui, j'aimerais savoir s'il y en a parmi vous qui connaissent ce procédé.

Expérimenté deux fois (ne me demande pas quelle était la moulinette sous-jacente, je n'en sais rien), mais L'apprenti sorcier, c'est bien de Paul Dukas, d'après Goethe ?

Là, je sais où je mets les pieds ... dans un cas comme dans l'autre !

Bonne soirée,

Olivier

dom_fr
France
Local time: 07:00
English to French

Quand les rédacteurs de Wikipédia ne respecte pas les principes

Aug 21, 2007

Attention Wikipédia n'est pas une référence fiable, mais une référence qu'il faut vérifier plus que toute autre, vue la facilité de modification. Un des principes est que les articles doivent être vérifiables http://fr.wikipedia.org/wiki/Wikipédia:Vérifiabilité. Dans le cas de ce paragraphe aucune source, rien, nada.

Le doute augmente quand l'on découvre que le rédacteur n'est pas un utilisateur identifié. Quelqu'un qui a cru bien faire en ajoutant à une proposition d'utilisation sans application concrète vérifiable.

Enfin pourquoi les fonctions de hachage seraient-elles mieux adaptées que d'autres techniques ? Pas de réponse ! Personnellement une recherche moins exacte me semblerait plus adaptée.

Dans le doute, je vais faire le ménage.

Pour mémoire la version discutée est :
http://fr.wikipedia.org/w/index.php?title=Fonction_de_hachage&oldid=19719068#Traduction_de_brochures_techniques

En complément, j'aimerais bien connaître le taux de phrases récupérées à l'identique dans le cas cité, ou proche d'un langage de programmation.

[Edited at 2007-08-21 20:04] ▲ Collapse

mediamatrix (X)
Local time: 01:00
Spanish to English
+ ...

Qu'est-ce qu'il y a de neuf ? – Le dico ? Ou la signature ?

Aug 21, 2007

Jean-Marie Le Ray wrote:

Vous le saviez ?

Personnellement je n'en avais jamais entendu parler jusqu'à aujourd'hui, j'aimerais savoir s'il y en a parmi vous qui connaissent ce procédé.

Ca dépend , Jean-Marie, de ce que tu trouves de 'nouveau' dans ce procédé...

La construction, le maintien et l'emploi de répertoires de phrases déjà traduites en vue de leur réutilisation se trouve à la base de tous les systèmes de traduction assisté par ordinateur. Par ailleurs, réduit à sa forme la plus simple – c à d en admettant qu’une ‘phrase’ ne puisse contenir qu'un seul mot - on revient à la bonne vielle dictionnaire bi-lingue !

Cela étant, j'imagine que c'est l'emploi du procédé dite 'hachage’ qui serait en jeu ici...

Or, il s'agit simplement d'un procédé qui permet la conversion d'une phrase de longueur a priori inconnue en une séquence de caractères alphanumériques de longueur fixe, et dépourvu d'accents et de signes de ponctuation, connu en anglais comme "hash code" ou pour plus de facilité (surtout dans ce forum français...) "signature".

Il est bien connu aux gens de l'informatique que de tels signatures offrent une manipulation - stockage, tri, recherche de correspondances, etc. - plus facile et souvent beaucoup plus rapide que du texte 'libre'. De tels atouts sont d'importance primordiale dans un logiciel de TAO qui peut être amené à comparer des milliers de phrases à la seconde - à moins de vouloir laisser au traducteur une pause café entre la traduction de chaque phrase.

Bien que ce sont sans doute celles-là les principales avantages que l'on cherche à mettre à profit dans la TAO, l'emploi de signatures en offre d'autres encore. Par exemple: la confidentialité des données et l’irréversibilité du procédé d'hachage. En effet il est difficile, voire impossible, déterminer la phrase à partir de sa signature. De ce fait, un utilisateur du système TAO (normalement un traducteur, pas un hacker chevronné...) ne saurait pas extraire, en vrac, une copie complète et ‘en clair’ des phrases emmagasinées dans le système; de ce fait, le corpus des phrases dont la traduction est connue maintien sa valeur commerciale.

Et, sans en être certain, j'ose avancer l'idée qu'il puisse exister des procédés d'hachage qui ignoreraient, par exemple, l'emploi de majuscules/minuscules dans les phrases qui doivent se comparer, ou l'emploi de certains signes de ponctuation (le trait d'union par exemple: souvent présent, ou pas, ou remplacé par une simple espace, tout au moins en anglais), une certaine quantité d’erreurs simples dites ‘de frappe’ dans les phrases, ou des erreurs associées à l’usage des accents encore présents dans certaines langues (au détriment de l'apprentissage du français par des anglophones comme moi, par ailleurs !). L'élimination de ces légères différences au moment de comparer leurs signatures faciliteraient le recherche de correspondances entre des phrases qui diffèrent seulement dans ces 'détails' d'orthographie sans pour autant qu’il y ait une changement radicale du sens de la phrase.

MediaMatrix

Jean-Marie Le Ray

France
Local time: 07:00
Member
Italian to French
+ ...

TOPIC STARTER

Quoi de neuf ?

Aug 21, 2007

Déjà que le paragraphe incriminé a été supprimé de l'article Wikipédia ! Heureusement que je l'ai cité in extenso en début de discussion !
Dom_fr, t'en sais quelque chose ?
Le fait que les rédacteurs ne soient pas identifiés n'est pas nouveau puisqu'en grande majorité ils sont anonymes sur Wikipedia.
Je ne dis pas ça pour cautionner une vérificabilité quelconque, mais je trouve que le procédé qui consiste à supprimer purement et simplement une portion d'article dans l'anonymat le plus total est tout aussi arbitraire que le phénomène qu'on prétend dénoncer !
Donc, en faisant un peu plus de recherches, il me semble que ce procédé est discuté uniquement par les traducteurs de PERL http://perl.enstimac.fr/ et qu'il se peut très bien qu'ils utilisent ce procédé - ou envisagent de le faire - dans le cadre de leur bénévolat (je rappelle que toute la traduction de ces logiciels libres est basée sur le volontariat et la passion de quelques mordus, chose tout à fait louable).
Par conséquent je comprends mal la nécessité de tout supprimer.
Ceci dit, pour répondre à Médiametrix, ce que je trouvais de nouveau c'est qu'autant que je sache, les CAT actuels fonctionnent en se basant sur les statistiques et certainement pas sur tel "procédé de hachage".

Jean-Marie ▲ Collapse

dom_fr
France
Local time: 07:00
English to French

Rien de neuf

Aug 22, 2007

Jean-Marie Le Ray wrote:

Déjà que le paragraphe incriminé a été supprimé de l'article Wikipédia ! Heureusement que je l'ai cité in extenso en début de discussion !
Dom_fr, t'en sais quelque chose ?

Effectivement, c'est le principe de Wikipédia, une modification en permanence pour améliorer le contenu des articles.

Le fait que les rédacteurs ne soient pas identifiés n'est pas nouveau puisqu'en grande majorité ils sont anonymes sur Wikipedia.

Si par anonymes tu parles de rédacteurs non identifiés par un compte, le tableau suivant te donne tort.
Liste_des_Wikipédiens_par_nombre_d'éditions
ip : Utilisateurs non enregistrés, mais uniquement identifiés par leurs adresses ip.
bot : robot, généralement des programmes qui font des modifications massives et pénibles, par exemple mises à jour des liens entre les Wikipédias des différentes langues.

Je ne dis pas ça pour cautionner une vérificabilité quelconque, mais je trouve que le procédé qui consiste à supprimer purement et simplement une portion d'article dans l'anonymat le plus total est tout aussi arbitraire que le phénomène qu'on prétend dénoncer !

J'ai effectivement supprimé le passage douteux dans la version actuelle, mais je ne l'ai pas fait anonymement, car je suis enregistré, de plus j'ai commenté la modification dans l'historique et j'ai mis un commentaire dans la page de discussion qui fait référence à notre "topic". Il n'y a rien d'arbitraire, mais simplement discussion.
Enfin, si on se replace dans le cadre de l'article de Wikipédia ce paragraphe se trouvait dans le chapitre "Utilisation" et franchement cette utilisation, si elle existe, elle n'est certainement pas la plus courante, ce seul motif est suffisant pour motiver ma correction.

Donc, en faisant un peu plus de recherches, il me semble que ce procédé est discuté uniquement par les traducteurs de PERL http://perl.enstimac.fr/ et qu'il se peut très bien qu'ils utilisent ce procédé - ou envisagent de le faire - dans le cadre de leur bénévolat (je rappelle que toute la traduction de ces logiciels libres est basée sur le volontariat et la passion de quelques mordus, chose tout à fait louable).
Par conséquent je comprends mal la nécessité de tout supprimer.

Personnellement, je ne trouve rien sur la page que tu cites, qui fait référence à un procédé de traduction, peux-tu être plus précis.

Dom

sylver

Local time: 13:00
English to French

On réinvente la roue...

Aug 22, 2007

Jean-Marie Le Ray wrote:

http://fr.wikipedia.org/wiki/Fonction_de_hachage#Traduction_de_brochures_techniques

Ils se rendent compte du besoin de gérer les répétitions, mais ils ne sont visiblement pas conscients de l'existence des CATs.

Du coup ils réinventent la roue en enregistrant les traductions dans une base de données et en les ressortant en cas de 100% match.
[/quote]
Ceci dit, pour répondre à Médiametrix, ce que je trouvais de nouveau c'est qu'autant que je sache, les CAT actuels fonctionnent en se basant sur les statistiques et certainement pas sur tel "procédé de hachage".
[quote]
Le principe est le même:

Comparer chaque segment source avec les segments source existants dans la base de données.

La procédure de hachage consiste à réduire le texte en une signature supposée unique. Avec md5 -algo de hachage le plus connu- tu peux transformer un morceau de text de n'importe quelle taille en une signature d'une longueur constante de 128 bits, représentés sous la forme de 32 chiffres hexadécimaux.

Exemples (md5):
"bonjour" = "f02368945726d5fc2a14eb576f7276c0"
"Bonjour" = "ebc58ab2cb4848d04ec23d83f7ddf985"
"Le bon client paye toujours à temps" = 978c4bd240d68b6cd6608405a06394cf

Dans le cas du hachage, le programmeur sait que si le "hash" est identique, cela signifie que la phrase d'origine est strictement identique.

A vrai dire, le hachage n'est pas vraiment nécessaire dans ce cas là. Ils auraient très bien pu comparer la phrase entière directement. Seulement ils partent d'une logique de programmeur, pas de traducteur.

Le résultat est une sorte de mémoire de traduction rudimentaire, puisqu'elle n'est capable que d'identifier des phrases totalement identiques. Comme on peut le voir dans l'exemple au dessus, "Bonjour" et "bonjour" ne seront pas comptés comme des matchs.

Les CATs comparent le texte directement, et ils calculent également le pourcentage de similarité, ce qui est beaucoup plus efficace de notre point de vue:
Bonjour donne une match avec "bonjour" ou "Bonjour!" ou ...

Donc on n'est pas en train de parler d'une nouvelle technologie, mais de gens qui sont en train de réinventer la roue.

dom_fr
France
Local time: 07:00
English to French

On réinvente la roue...

Aug 22, 2007

On réinvente la roue, mais une roue ronde ou ovale ?

Je suis tout à fait d'accord avec Sylver, je pense qu'elle est encore légèrement ovale.

Le seul point qui rachète le paragraphe, est qu'il avait pour titre "Traduction de brochures techniques" et précisait que ça concernait la mise à jour entre deux versions. D'où ma question :

dom_fr wrote:
En complément, j'aimerais bien connaître le taux de phrases récupérées à l'identique dans le cas cité, ou proche, d'un langage de programmation.

Dom

dikran d (X)

Türkiye
Local time: 08:00
French to Turkish
+ ...

Intelligence artificielle

Aug 22, 2007

sylver wrote:

Les CATs comparent le texte directement, et ils calculent également le pourcentage de similarité, ce qui est beaucoup plus efficace de notre point de vue:

Ne serait-il pas plus efficace de mettre en oeuvre des principes de programmation d'intelligence artificielle, plutôt que d'appliquer bêtement des calculs de pourcentage, ce qui ne donne pas le meilleur résultat. Il y a bien des logiciels de traduction. Ne pourraient-ils pas intégrer ces techniques aux CATs pour obtenir des logiciels CATs plus performants?

[Edited at 2007-08-22 22:30]

sylver

Local time: 13:00
English to French

Concrètement parlant, ça donne quoi?

Aug 23, 2007

Dikran Dıragormacıoğlu wrote:

sylver wrote:

Les CATs comparent le texte directement, et ils calculent également le pourcentage de similarité, ce qui est beaucoup plus efficace de notre point de vue:

Peut être. Dois je comprendre que tu te portes volontaire?

A vrai dire, "programmation d'intelligence artificielle" est en soit une antinomie. Si l'intelligence doit être programmée, elle n'est pas très intelligente, non?

Un ordinateur ne réfléchit pas. il exécute les instructions qui lui sont fournies. Rien de plus. Le programme peut être tellement complexe qu'il donne l'apparence d'une réflexion, mais ce n'est qu'une apparence. Quelle que soit la complexité du programme, celui-ci peut toujours être réduit en instructions précises, sans aucune autonomie de la part de la machine.

Donc les techniques de la programmation "intelligence artificielle" sont les mêmes que celles de la programmation classique. La seule chose qui change réellement, c'est la façon d'aborder le problème.

En réalité, tu te trouves en présence de deux facteurs seulement:

+ le problème et
+ le ou les programmeurs qui s'efforcent de le résoudre.

Dans le cas qui nous concerne, le problème est celui de la traduction.

Pour résoudre ce problème, les programmeurs ont adopté 2 approches principales:

+ L'approche "Intelligence artificielle" seule:
Le but? Simuler le processus de pensée du traducteur.
C'est ce que l'on appelle la traduction machine (Systrans, Google translate, etc.) et les résultats, bien qu'impressionnants*, sont loin d'être concluants. Les logiciels qui en résultent sont une perte de temps pour un traducteur pro.

+ L'approche "mémoire de traduction":
Le but consiste à aider le traducteur autant que possible en organisant ses ressources (anciennes traductions, glossaires, dictionnaires,...)
Tous les CATs classiques (Wordfast, Trados, DV, MemoQ,...) rentrent dans cette catégorie.

Il est possible de mélanger les deux. Par exemple, tu peux facilement programmer Wordfast pour exécuter un logiciel de traduction machine sur chaque segment avant de le traduire. Ou de reconnaître des sous-segments. DV et MemoQ tentent de recomposer des segments complets à partir de morceaux d'anciennes traduction. ...

Mais en fin de compte, ce qui importe, ce n'est pas si la technique est jugée "intelligence artificielle" ou non. Ca, c'est du marketing.

Le but du jeu consiste à créer des outils qui permettent d'améliorer la qualité des traductions et la productivité des traducteurs. Pour ce faire, les programmeurs utilisent les techniques qui leur semblent être les plus efficaces en fonction des problèmes à résoudre et de leurs connaissances.

Si tu penses à une fonction/technique spécifique susceptible d'améliorer les outils existants, je suis tout ouïe.

-----------
* La traduction automatique est incapable de remplacer un traducteur pro, mais elle reste très utile.

Par exemple, pour ceux qui, comme moi, ne parlent pas chinois:
我们检测到您企图进行攻击并已经将您的IP地址加以记录。如果类似的情况再次发生，我们将采取必要的行动。

Il est très facile de se faire une idée du sujet en utilisant Google translate:

"We detected an attempt to attack you and you have to be the IP address of record. If a similar situation from happening again, we will take the necessary action."

...et de comprendre qu'il s'agit probablement d'un message d'erreur signalant que le logiciel pense que vous avez fait une tentative de piratage, que votre adresse IP a été enregistrée, et qu'ils comptent prendre des mesures à votre encontre si cela se reproduit.

Sans le logiciel, j'aurais été strictement incapable de deviner de quoi ça parle.

sylver

Local time: 13:00
English to French

Réponse:

Aug 23, 2007

dom_fr wrote:

On réinvente la roue, mais une roue ronde ou ovale ?

Je suis tout à fait d'accord avec Sylver, je pense qu'elle est encore légèrement ovale.

Le seul point qui rachète le paragraphe, est qu'il avait pour titre "Traduction de brochures techniques" et précisait que ça concernait la mise à jour entre deux versions. D'où ma question :

dom_fr wrote:
En complément, j'aimerais bien connaître le taux de phrases récupérées à l'identique dans le cas cité, ou proche, d'un langage de programmation.

Dom

Le taux de phrase récupérées à l'identique est probablement élevé. Après tout, ce sont deux versions du même langage. Les sections décrivant les fonctions, la syntaxe, les opérateurs, ... sont en grande partie identique.

[Edited at 2007-08-23 07:41]

dikran d (X)

Türkiye
Local time: 08:00
French to Turkish
+ ...

intelligence humaine

Aug 23, 2007

sylver wrote:

A vrai dire, "programmation d'intelligence artificielle" est en soit une antinomie. Si l'intelligence doit être programmée, elle n'est pas très intelligente, non?

D'abord, es-tu sûr que l'intelligence humaine ne repose pas sur une certaine forme de programmation aussi? (je pose la question...)

sylver wrote:

Dans le cas qui nous concerne, le problème est celui de la traduction.

Pour résoudre ce problème, les programmeurs ont adopté 2 approches principales:

+ L'approche "Intelligence artificielle" seule:
Le but? Simuler le processus de pensée du traducteur.
C'est ce que l'on appelle la traduction machine (Systrans, Google translate, etc.) et les résultats, bien qu'impressionnants*, sont loin d'être concluants. Les logiciels qui en résultent sont une perte de temps pour un traducteur pro.

+ L'approche "mémoire de traduction":
Le but consiste à aider le traducteur autant que possible en organisant ses ressources (anciennes traductions, glossaires, dictionnaires,...)
Tous les CATs classiques (Wordfast, Trados, DV, MemoQ,...) rentrent dans cette catégorie.

Il est possible de mélanger les deux. Par exemple, tu peux facilement programmer Wordfast pour exécuter un logiciel de traduction machine sur chaque segment avant de le traduire.
Ou de reconnaître des sous-segments. DV et MemoQ tentent de recomposer des segments complets à partir de morceaux d'anciennes traduction. ...

C'est ce que je voulais dire, mélanger, composer les deux techniques.
Je suis tout simplement déçu d'avoir payé des centaines d'Euros et d'avoir reçu un produit médiocre, qui n'est en rien supérieur à wordfast (la version gratuite) en ce qui concerne l'efficacité dela MT, sauf que la taille de la MT est limitée dans le cas de wordfast (version gratuite).

Je pense que cela devrait faire réfléchir les gens qui ont conçu TRADOS.
Je ne connaissais pas cette possibilité de wordfast que tu mentionnes.

Dikran

[Edited at 2007-08-23 11:52]

[Edited at 2007-08-23 11:54]

sylver

Local time: 13:00
English to French

Commentaires

Aug 23, 2007

Dikran Dıragormacıoğlu wrote:

sylver wrote:

A vrai dire, "programmation d'intelligence artificielle" est en soit une antinomie. Si l'intelligence doit être programmée, elle n'est pas très intelligente, non?

D'abord, es-tu sûr que l'intelligence humaine ne repose pas sur une certaine forme de programmation aussi? (je pose la question...)

Oui, mais on rentre dans un domaine beaucoup plus complexe, celui de la philosophie, et plus spécifiquement de la philosophie religieuse, avec la question de la nature humaine, du déterminisme, de la conscience, et par extension, la question de la création. (si l'homme est programmé, qui l'a programmé?)

Un débat sur ce sujet, quoique fort intéressant, sortirait nécessairement du cadre de Proz.

En ce qui me concerne toutefois, il ne fait aucun doute que l'homme n'est pas une sorte de robot évolué.

sylver wrote:
Dans le cas qui nous concerne, le problème est celui de la traduction.

Pour résoudre ce problème, les programmeurs ont adopté 2 approches principales:

+ L'approche "Intelligence artificielle" seule:
Le but? Simuler le processus de pensée du traducteur.
C'est ce que l'on appelle la traduction machine (Systrans, Google translate, etc.) et les résultats, bien qu'impressionnants*, sont loin d'être concluants. Les logiciels qui en résultent sont une perte de temps pour un traducteur pro.

+ L'approche "mémoire de traduction":
Le but consiste à aider le traducteur autant que possible en organisant ses ressources (anciennes traductions, glossaires, dictionnaires,...)
Tous les CATs classiques (Wordfast, Trados, DV, MemoQ,...) rentrent dans cette catégorie.

Il est possible de mélanger les deux. Par exemple, tu peux facilement programmer Wordfast pour exécuter un logiciel de traduction machine sur chaque segment avant de le traduire.
Ou de reconnaître des sous-segments. DV et MemoQ tentent de recomposer des segments complets à partir de morceaux d'anciennes traduction. ...

La fonction de Wordfast en question est expliquée dans le manuel. Il est même possible d'utiliser Google comme source de traduction automatique

Personnellement, je ne trouve pas cette fonction très utile. Je préfère traduire à partir de zéro plutôt que de rafistoler une traduction faite par un logiciel.

Certains aspects du logiciel présentent des similarités avec "l'intelligence artificielle" mais c'est le cas pour beaucoup de programmes évolués.

Pour ce qui est de Trados, ce n'est pas un mauvais produit, à mon opinion. Il y a mieux, mais il n'en reste pas moins qu'un traducteur peut facilement l'amortir en quelques mois de travail.

Login to reply/comment

To report site rules violations or get help, contact a site moderator:

Moderator(s) of this forum
Andriy Bublikov	[Call to this topic]

You can also contact site staff by submitting a support request »

Le hachage appliqué à la traduction

Forum rules

Help and orientation

Wordfast Pro
Translation Memory Software for Any Platform Exclusive discount for ProZ.com users! Save over 13% when purchasing Wordfast Pro through ProZ.com. Wordfast is the world's #1 provider of platform-independent Translation Memory software. Consistently ranked the most user-friendly and highest value Buy now! »

Protemos translation business management system
Create your account in minutes, and start working! 3-month trial for agencies, and free for freelancers! The system lets you keep client/vendor database, with contacts and rates, manage projects and assign jobs to vendors, issue invoices, track payments, store and manage project files, generate business reports on turnover profit per client/manager etc. More info »

Recent posts | FAQ | Rules | Moderators | Article knowledgebase

Your current localization setting

English

Select a language

More languages...

Le hachage appliqué à la traduction

Le hachage appliqué à la traduction

You have native languages that can be verified

Your current localization setting

Select a language