Unterschiedliche Trados Analyseergebnisse
Thread poster: Christian Duse
Christian Duse
Christian Duse
German to English
Oct 10, 2007

Hallo,

wir haben hier ein Problem.

Und zwar geht es um die Analyse eines sehr umfangreichen Word-Dokumentes.

Je nachdem, ob man das Dokument als doc, rtf oder ttx-Datei analysiert, erhält man andere Ergebnisse.

Dabei kann man die doc-Datei auch nicht direkt analysieren, sondern muss sie vorher in rtf umwandeln (mittels Word) oder eben in eine ttx-Datei mittels TagEditor.
Dies ist ja nichts besonderes, das passiert gerade bei umfangreiche
... See more
Hallo,

wir haben hier ein Problem.

Und zwar geht es um die Analyse eines sehr umfangreichen Word-Dokumentes.

Je nachdem, ob man das Dokument als doc, rtf oder ttx-Datei analysiert, erhält man andere Ergebnisse.

Dabei kann man die doc-Datei auch nicht direkt analysieren, sondern muss sie vorher in rtf umwandeln (mittels Word) oder eben in eine ttx-Datei mittels TagEditor.
Dies ist ja nichts besonderes, das passiert gerade bei umfangreichen Word-Dateien öfters mal, aber das nun unterschiedliche Analyseergebnisse dabei herauskommen?

Die Ergebnisse schwanken von 120.000 bis 195.000 Zeichen.

Kann mir jemand sagen woher dies kommt, wie ich das lösen kann bzw. welches Ergebniss den nun das Richtige ist?

Danke
Gruß
Collapse


 
Harry Bornemann
Harry Bornemann  Identity Verified
Mexico
Local time: 15:47
English to German
+ ...
Kein Problem Oct 10, 2007

Hallo,
Kann mir jemand sagen woher dies kommt, wie ich das lösen kann bzw. welches Ergebniss den nun das Richtige ist?

Das kommt daher, dass der Fuzzy-Count-Algorithmus geheim ist, damit man nicht die ganzen Pfuschereien darin entdeckt (das machen andere CAT-Tool Anbieter aber genauso).
Ich vermute, dass der Großteil der Differenz mit den Tags zusammenhängt.

Welches Ergebnis nun das "Richtige" ist, hängt davon ab, welchen besonderen Rabatt du mit dem Kunden vereinbart hast.

Häufig ist die Anzahl der Wörter oder Zeichen aus MS Word am einfachsten zu vermitteln.

Die Analysen aus CAT-Tools dienen eigentlich nur dazu, den nötigen Zeitaufwand genauer schätzen zu können, wenn man entsprechend viel Erfahrung mit dem jeweiligen CAT-Tool hat.


 
Edith Goebel
Edith Goebel  Identity Verified
Local time: 23:47
German to Danish
+ ...
Aufzählungszeichen Oct 11, 2007

Ein Kunde hat mir einmal ein Auftrag geschickt, ein Worddokument, und die Trados-analyse dazu. Die Analyse, die ich danach auch machte, zeigte mehr Wörter; 376 anstat 322. Ich habe mich gewundert über diesen Unterschied und versucht herrauszufinde warum.
Der Unterschied lag daran, das Trados 6.5 die Aufzählungszeichen in diesem Dokument als Wörter gerechnet hat, und die neuere Trados-Version des Kundens nicht.
Ob es nun an irgendwelche Einstellungen lag oder an den unterschiedlic
... See more
Ein Kunde hat mir einmal ein Auftrag geschickt, ein Worddokument, und die Trados-analyse dazu. Die Analyse, die ich danach auch machte, zeigte mehr Wörter; 376 anstat 322. Ich habe mich gewundert über diesen Unterschied und versucht herrauszufinde warum.
Der Unterschied lag daran, das Trados 6.5 die Aufzählungszeichen in diesem Dokument als Wörter gerechnet hat, und die neuere Trados-Version des Kundens nicht.
Ob es nun an irgendwelche Einstellungen lag oder an den unterschiedlichen Versionen, weis ich nicht.

[Edited at 2007-10-11 06:57]
Collapse


 
Sonja Tomaskovic (X)
Sonja Tomaskovic (X)  Identity Verified
Germany
Local time: 23:47
English to German
+ ...
Wenn es nur um die Wort-/Zeichenzahl geht... Oct 11, 2007

... dann wandle ich komplexe Texte normalerweise in Textdateien um, und analysiere diese dann.

Es hat sich gezeigt, dass damit evtl. Formatierungszeichen o.ä. meist nicht mitgezählt werden und auch das Problem mit Textboxen nicht besteht.

Gruß,

Sonja


 
Jerzy Czopik
Jerzy Czopik  Identity Verified
Germany
Local time: 23:47
Member (2003)
Polish to German
+ ...
Tageditor - getaggter Text, rtf - einfach Text Oct 11, 2007

Wenn der Kunde gepfuscht hat und Wörter teilweise mit Tags durchsiebt sind, wird die Analyse sehr stark davon beeinflusst.
Wie verahlten sich denn die Wortzahlen zu einander? Zeichenzahl ist für mich eine recht unzuverlässige Basis.

Jerzy


 
RWSTranslation
RWSTranslation
Germany
Local time: 23:47
German to English
+ ...
Unterschiede Oct 11, 2007

Hallo,

ich denke der Unterschied wird anders zu begründen sein.

Word Dateien haben sich noch nie direkt analysieren lassen. Im Zweifelsfall macht die Workbench selbst die Konvertierung nach RTF. (Intern ist derzeit alles in der Workbench auf RTF Basis kodiert). Bei großen Dateien gibt es immer mal wieder Probleme wegen der möglicherweise sehr langen Umspeicherung.

Des Weiteren ist es so, das dei Workbench bei Analysen von Word/RTF Dateien einige Elemente
... See more
Hallo,

ich denke der Unterschied wird anders zu begründen sein.

Word Dateien haben sich noch nie direkt analysieren lassen. Im Zweifelsfall macht die Workbench selbst die Konvertierung nach RTF. (Intern ist derzeit alles in der Workbench auf RTF Basis kodiert). Bei großen Dateien gibt es immer mal wieder Probleme wegen der möglicherweise sehr langen Umspeicherung.

Des Weiteren ist es so, das dei Workbench bei Analysen von Word/RTF Dateien einige Elemente nicht mitzählt. Hierzu gehören z.B. Texte in Textfeldern. Auf der anderen Seite erscheinen Kopf und Fußzeilen manchmal mehrmals in der TTX.

Im allgemeinen ist die Textmenge in TTX Dateien etwas höher als in Word Dateien. Wenn aber Textfelder in Word verwendet werden kann es zu erheblichen Abweichungen kommen. TTX ist dann korrekter.

Die Problematik mit den Tags kann man reduzieren, wenn man sifern möglich die Word Dateien besser formatiert. Wenn die Dateien es hergeben, hilft es z.B. manchmal dem ganzen Text wieder den verwendeten Fonts zuzuweisen, bedinge Silbentrennung zu löschen, ..... Manchmal hilft es auch, die Daei vor der Konvertierung nach TTX zuvor nach RTF und dann wieder nach Word umzuspeichern.

Schliesslich klann man marignal an der taganzahl drehen, wenn man einige Optionen in den Filter Settings deaktiviert.

Ein Möglichkeit wäre es auch, überflüssige Tagstrukturen (siehe auch unter SDL Ideas) zu löschen.

Am allersinnvollsten ist es aber ein anderes Programm als Word zu verwenden.

Viele Grüße

Hans
Collapse


 
Christian Duse
Christian Duse
German to English
TOPIC STARTER
Konvertier hier, konvertier dort und nochmal andersrum... Oct 11, 2007


Word Dateien haben sich noch nie direkt analysieren lassen. Im Zweifelsfall macht die Workbench selbst die Konvertierung nach RTF. (Intern ist derzeit alles in der Workbench auf RTF Basis kodiert). Bei großen Dateien gibt es immer mal wieder Probleme wegen der möglicherweise sehr langen Umspeicherung.


Jeep. Bei großen Word-Dateien bricht die Workbench mit einem Fehler ab. Und sei es nur das dem OS der Speicher ausgeht.

Dann kann man versuchen alle offene Anwendungen zu schließen und die Datei direkt in Word in ein rtf umzuwandeln.

Falls das auch nicht klappt, kann man es mal mit OpenOffice probieren. Das schafft das als auch wenn Word versagt.
Allerdings sind danach die Analyseergebnisse zwischen Word-rtf und OO-rtf unterschiedlich



Auf der anderen Seite erscheinen Kopf und Fußzeilen manchmal mehrmals in der TTX.

Ja, das ist mir auch schon aufgefallen.


Ein Möglichkeit wäre es auch, überflüssige Tagstrukturen (siehe auch unter SDL Ideas) zu löschen.

was meinst du damit?


Andere Möglichkeit wäre auch die doc-Datei für die Analyse als txt-Datei zwischenzuspeichern und diese dann wieder in eine doc bzw. rtf-Datei zu konvertieren. Damit sind dann ALLE Formatierungen etc. vernichtet. Allerdings kann es dabei zu falöschen Zeilenumbrüchen kommen, weshalb die Analyse dann erst Recht nicht stimmt, da die Segmentierung anders ist.

Ich habe das Dokument nun auch mal in Across analysieren lassen. Das TM kann man ja als tmx-File importieren. Dabei kam dann ein Ergebniss irgendwo in der Mitte der Streuung heraus.

Und damit habe ich jetzt 4 verschiedenen Analysen mit 4 verschiedenen Ergebnissen, die sich um bis zu 40% unterscheiden. Da sach ich nur noch: "Xzd%mpGNAg"


 
RWSTranslation
RWSTranslation
Germany
Local time: 23:47
German to English
+ ...
SDL Ideas Oct 22, 2007

Christian Duse wrote:


Ein Möglichkeit wäre es auch, überflüssige Tagstrukturen (siehe auch unter SDL Ideas) zu löschen.

was meinst du damit?


Hallo,
siehe hier: http://ideas.sdltrados.com/ideas/detail.asp?i=531

Viele Grüße

Hans


 


There is no moderator assigned specifically to this forum.
To report site rules violations or get help, please contact site staff »


Unterschiedliche Trados Analyseergebnisse






TM-Town
Manage your TMs and Terms ... and boost your translation business

Are you ready for something fresh in the industry? TM-Town is a unique new site for you -- the freelance translator -- to store, manage and share translation memories (TMs) and glossaries...and potentially meet new clients on the basis of your prior work.

More info »
Wordfast Pro
Translation Memory Software for Any Platform

Exclusive discount for ProZ.com users! Save over 13% when purchasing Wordfast Pro through ProZ.com. Wordfast is the world's #1 provider of platform-independent Translation Memory software. Consistently ranked the most user-friendly and highest value

Buy now! »