Rozbieżność w wynikach analizy różnych CAT-ów
Thread poster: Magdalena Szewciów

Magdalena Szewciów  Identity Verified
Poland
Local time: 01:21
Member (2008)
English to Polish
+ ...
Jun 16, 2010

Na prośbę zleceniodawcy, w celu weryfikacji wyników otrzymanych przez biuro, przeprowadziłam Wordfastem analizę otrzymanego tekstu w Wordfaście. Otrzymałam 12% powtórzeń (repetitions). Jakież było moje zdziwienie, gdy otrzymałam skonsternowany mail od biura, że im w MemoQ wyszło ok. 5%. Z ciekawości wrzuciłam ten sam tekst do Tradosa Studio 2009 i co? 5,8% powtórzeń.
Co jest grane?

Wrzucam to zapytanie na naszą polską listę, ponieważ IMO nie jest to kwestia problemu z żadnym konkretnym CAT-em, a ponadto wiem, że wśród nas (polskojęzycznych użytkowników) jest wiele osób, które na pewno powiedzą mi coś ciekawego na powyższy temat.

Zdaję sobie sprawę, że w zależności od CAT-a możemy otrzymać NIECO inne wyniki, ale w moim tekście było 30 000 słów, stąd marne 6% różnicy ma duże znaczenie (finansowe oczywiście).

Będę wdzięczna za wszelkie uwagi czy ew. dyskusję na powyższy temat.


Direct link Reply with quote
 

Lucyna Długołęcka  Identity Verified
Poland
Local time: 01:21
English to Polish
+ ...
Jestem nieufna Jun 16, 2010

Dlatego ja podchodzę z dużą nieufnością do takich analiz, wolę rozliczać się wg stron, a jak na oko widać dużo powtórzeń, to przecież można nieco obniżyć stawkę za stronę. A tak to bywa, że mimo "wirtualnych powtórzeń" roboty wcale nie jest mniej niż "normalnie", a przynajmniej nie o tyle mniej, by godzić się na obniżone stawki za słowo w przypadku matches. Czasem jest tak, że np. 100% powtórzeń jest 40%, ale nie są to powtórzenia segmentów, lecz słów. Tak mi z tych analiz wynika, choć mogę się mylić. Tak czy inaczej zwykła praktyka nauczyła mnie nieufności wobec tych analiz.

[Zmieniono 2010-06-16 16:37 GMT]


Direct link Reply with quote
 

Andrzej Sawicki
Poland
Local time: 01:21
German to Polish
+ ...
Programy myślą różnie Jun 16, 2010

Magdalena Szewciów wrote:

Co jest grane?

Różne programy różnie określają, jak bardzo jednostki są powtórzone, a dopiero takie ułamki są zliczane. Widać Wordfast liczy więcej powtórzeń jako pełne, a MemQ i Trados bardziej się rozdrabniają. Po zsumowaniu wychodzą różnice. (IBM TM powiedziałby pewnie, że powtórzeń było 2%).


Direct link Reply with quote
 

Grzegorz Gryc  Identity Verified
Local time: 01:21
French to Polish
+ ...
Obsługa znaczników... Jun 17, 2010

Andrzej Sawicki wrote:

Magdalena Szewciów wrote:

Co jest grane?

Różne programy różnie określają, jak bardzo jednostki są powtórzone, a dopiero takie ułamki są zliczane. Widać Wordfast liczy więcej powtórzeń jako pełne, a MemQ i Trados bardziej się rozdrabniają. Po zsumowaniu wychodzą różnice. (IBM TM powiedziałby pewnie, że powtórzeń było 2%).


Może to być np. sprawa obsługi znaczników.
Np. dla DVX, który znaczniki obsługuje w sposób kompletnie abstrakcyjny, zdania:
Ala ma kota.
Ala ma kota.
Ala ma kota.
dają idealne powtórzenia (100% zgodność), a dla memoka czy Tradosa będzie to w tym przypadku domyślnie 99%, bo interpretowane formatowanie jest różne.
Przykład z głowy dla RTF.
W zależności od typu plików i znaczników wyniki mogą być różne.

Zasada jest prosta.
Do rozliczeń liczymy zawsze w programie, którego wymaga klient.
A to, co wymiauczy nasz ulubiony kotek, to nasze

Dlatego uwielbiam biura, które ślepo wierzą w Tradosa

Zdrówkot, właśnie łączący taśmowo segmenty między akapitami
GG

[Edited at 2010-06-17 11:35 GMT]


Direct link Reply with quote
 

Joanna Trojan
Poland
Local time: 01:21
English to Polish
+ ...
rozbieżność w tradosie Jun 17, 2010

Mam problem z rozbieżnością analizy w Tradosie na różnych komputerach: te same pliki, ta sama pamięć, lecz u mnie jest ponad 6000 no match, a w biurze i u klienta ok. 800 no match, reszta to 100%. Czy mogę mieć coś źle ustawione w Workbenchu lub w komputerze? (Trados 2007)

Direct link Reply with quote
 

Grzegorz Gryc  Identity Verified
Local time: 01:21
French to Polish
+ ...
Atrybuty Jun 17, 2010

Joanna Pryga wrote:

Mam problem z rozbieżnością analizy w Tradosie na różnych komputerach: te same pliki, ta sama pamięć, lecz u mnie jest ponad 6000 no match, a w biurze i u klienta ok. 800 no match, reszta to 100%. Czy mogę mieć coś źle ustawione w Workbenchu lub w komputerze? (Trados 2007)


Project and filter settings.

Zdrówkot
GG


Direct link Reply with quote
 
Marcelina Haftka  Identity Verified
Poland
Local time: 01:21
Member (2006)
English to Polish
+ ...
Rozbieżność Jun 17, 2010

Popieram Grzegorza - pracować możemy, w czym chcemy, ale analizę robimy zawsze w programie klienta. Najlepiej stosować stawkę za słowo/linijkę/stronę i w ogóle "nie bawić się" w różne stawki za powtórzenia i ich brak.

Poza tym znaczniki to jedna kwestia, ale z tego, co pamiętam, Magdo, to masz bardzo nisko ustawione Fuzzy w Wordfaście - moim zdaniem, gdybyś wszystkie porównywalne parametry CATów ustawiła tak samo, to znacznych różnic w analizie by nie było.


Direct link Reply with quote
 

Wojciech Froelich  Identity Verified
Poland
Local time: 01:21
English to Polish
Wordfast Classic? Jun 18, 2010

Wordfast w przykładzie z różnicami na repetycjach był tym klasycznym Wordowskim?
To bym obstawiał jakąś drobną różnicę w regułach segmentacji. Ani Trados ani SDL nie trąbił nigdy o tym specjalnie głośno, ale dla pewnych języków Workbench (nie wiem jak Studio, nie zdążyłem tego akurat sprawdzić) miał zaszytą listę skrótów z kropką, po których nie zaczynał nowego segmentu nawet jak mu reguła segmentacji kazała. W tym samym miejscu Wordfast zadziała z matematyczną precyzją i rozpocznie następny segment.

Tylko obstawiam, że tak się właśnie porobiło, bo musiałbym zobaczyć obie analizy w całości.

W


Direct link Reply with quote
 

Wojciech Froelich  Identity Verified
Poland
Local time: 01:21
English to Polish
I jeszcze w temacie zgodności analiz Jun 18, 2010

Czysto teoretycznie jest możliwość uzyskiwania zgodnych analiz w różnych programach. Muszą one jednak być zgodne ze standardem LISA GMX-V
http://www.lisa.org/Global-information-M.104.0.html

To jest chyba na razie jedyna próba zbudowania platformy pozwalającej na bezpośrednie porównanie wyników analiz różnych narzędzi. Sami producenci narzędzi wolą wykorzystywać ułomność algorytmów zaimplementowanych w Tradosie pre-2009, co skutkuje wszelkiej maści konkursami "daj nam swoje pliki, a pokażemy Ci, że nasz system wyprodukuje lepsze logi niż Trados".


Direct link Reply with quote
 

Grzegorz Gryc  Identity Verified
Local time: 01:21
French to Polish
+ ...
Wyjątki w regułach segmentacji w Tradosie Jun 19, 2010

Wojciech Froelich wrote:

Wordfast w przykładzie z różnicami na repetycjach był tym klasycznym Wordowskim?
To bym obstawiał jakąś drobną różnicę w regułach segmentacji. Ani Trados ani SDL nie trąbił nigdy o tym specjalnie głośno, ale dla pewnych języków Workbench (nie wiem jak Studio, nie zdążyłem tego akurat sprawdzić)

Studio też ma domyślne listy wyjątków, ale tym razem są jawne.
Swoją drogą, dla polskiego są calkiem sensowne.

miał zaszytą listę skrótów z kropką, po których nie zaczynał nowego segmentu nawet jak mu reguła segmentacji kazała. W tym samym miejscu Wordfast zadziała z matematyczną precyzją i rozpocznie następny segment.

Tylko obstawiam, że tak się właśnie porobiło, bo musiałbym zobaczyć obie analizy w całości.

Możliwe.
Ale to musiałby być dość specyficzny zestaw mocno podobnych zdań. różniących się np. tylko drugą połową lub zawierających identyczne subsegmenty między skrótami.
W "normalnych" tj. zbliżonych do chaosu warunkach różnice powinny być w granicach błędu statystycznego.

Zdrówkot
GG

[Edited at 2010-06-19 10:50 GMT]


Direct link Reply with quote
 

Grzegorz Gryc  Identity Verified
Local time: 01:21
French to Polish
+ ...
Skrzywione założenia... Jun 19, 2010

Wojciech Froelich wrote:

Czysto teoretycznie jest możliwość uzyskiwania zgodnych analiz w różnych programach. Muszą one jednak być zgodne ze standardem LISA GMX-V
http://www.lisa.org/Global-information-M.104.0.html

To jest chyba na razie jedyna próba zbudowania platformy pozwalającej na bezpośrednie porównanie wyników analiz różnych narzędzi.

Podejrzewam, że nikomu oprócz tłumaczy na razie to nie jest na rękę.
Monopolista nie musi i jest raczej zainteresowany w utrzymaniu status quo, ze szczególnym uwzględnieniem faworyzujących zleceniodawców (w tym siebie...) algorytmów matchingu, a depcząca mu po piętach konkurencja nie ma wyraźnej motywacji, nie mówiąc nawet o woli dogadania się.

Przy okazji, GMX-V wyraźnie mówi, że tagi itepe mają znaczenie w nakładzie pracy, co jest sprzeczne z obecną, wygodną dla zleceniodawców praktyką w branży, że za tagi się explicite nie płaci.
A tak w sumie, jak one nie mają żadnej wartości, to może powinniśmy zacząć oddawać biurom te teteiksy bez tagów

Sami producenci narzędzi wolą wykorzystywać ułomność algorytmów zaimplementowanych w Tradosie pre-2009, co skutkuje wszelkiej maści konkursami "daj nam swoje pliki, a pokażemy Ci, że nasz system wyprodukuje lepsze logi niż Trados".

Trza było pisać porządnie i się nie podkładać

BTW.
Różnice między DVX i Tradosem są zwykle w granicach błędu statystycznego, o ile segmenty nie są jakieś specyficzne, jak ten przykład z "Ala ma kota" powyżej.
Tylko i tak siła DVX czy MQ nie polega na "innych, lepszych" logach (to akurat mocno dyskusyjne w przypadku memoQ...), tylko na funkcjach typu AutoAssemble tj. wykorzystaniu segmentów jako susbsegmentów oraz przejrzystej i skutecznej obsłudze terminologii.

Zdrówkot
GG


Direct link Reply with quote
 

Jabberwock  Identity Verified
Poland
Local time: 01:21
Member (2004)
English to Polish
Schizofrenia stosowana Jun 19, 2010

Grzegorz Gryc wrote:
Podejrzewam, że nikomu oprócz tłumaczy na razie to nie jest na rękę.


Ależ przecież tłumacze bronią się przed narzędziami, które pozwalałyby na wstępną ocenę rzeczywistych nakładów pracy rękami i nogami. To znaczy właściwie to by chcieli coś takiego, byleby tylko się jakiś klient o tym nie dowiedział... Ileż to razy można przeczytać nawet na tutejszych forach wykłady różnych autorytetów o straszliwej potworności, jaką jest stawka za powtórzenia.

To, że w imię wyimaginowanych korzyści ("zarobię, a się nie narobię!") tak naprawdę utrudniają sobie życie, jakoś do nich nie dociera.


Direct link Reply with quote
 


To report site rules violations or get help, contact a site moderator:

Moderator(s) of this forum
Monika Jakacka Márquez[Call to this topic]

You can also contact site staff by submitting a support request »

Rozbieżność w wynikach analizy różnych CAT-ów

Advanced search






memoQ translator pro
Kilgray's memoQ is the world's fastest developing integrated localization & translation environment rendering you more productive and efficient.

With our advanced file filters, unlimited language and advanced file support, memoQ translator pro has been designed for translators and reviewers who work on their own, with other translators or in team-based translation projects.

More info »
BaccS – Business Accounting Software
Modern desktop project management for freelance translators

BaccS makes it easy for translators to manage their projects, schedule tasks, create invoices, and view highly customizable reports. User-friendly, ProZ.com integration, community-driven development – a few reasons BaccS is trusted by translators!

More info »



Forums
  • All of ProZ.com
  • Term search
  • Jobs
  • Forums
  • Multiple search