потенциальные проблемы с кодировками при переходе на новый Традос
Thread poster: Vitali Stanisheuski

Vitali Stanisheuski  Identity Verified
Belarus
Local time: 05:19
Member (2005)
English to Belarusian
+ ...
May 26, 2008

Собирась перейти с Традоса 6.5 на 8.0 (есть, но еще не установлен) и предвижу проблемы с использованием баз, созданных в версии 6.5. А именно баз, где задействован польский или немецкий язык.
Дело в том, что в старой используется кодировка ANSI, в новой - Юникод. Не раз были ситуации, когда при передаче баз из одной версии пользователям другой версии их (текстовые экспортированные файлы) или получении баз от таковых приходилось пересохранять в нужную кодировку. Все бы ничего, но знаки с диакритиками искажаются, причем, как я заметил, по-разному: при пересохранении из Юникода в ANSI знак с диакритиком теряет этот диакритик, а при работе в старой версии знак с диакритиком превращается в кириллический, или точнее в "дополнительный" знак, соответствующий по неким кодовым таблицам и т.д. и т.п. (напр., польский ę становится к, а ą становится №). Простое пересохранение из одной кодировки в другую не дает эффекта, идентичного созданию этой базы в этой же (другой) кодировке.

То есть, даже если в базе есть сегменты для перевода одного и того же предложения, то при работе в другой версии Традоса они могут не распознаны, как на 100% совпадающие (могут даже и до 70% не дотянуть).

Поэтому я думаю, что мне делать со своими базами - или после установки новой версии произвести очистку предыдущих двуязычных переводов с одновременным внесением в базу, или взять текстовые экспорт. файлы и произвести в них замену этих кириллических и пр. дополнительных знаков на соответствующие знаки с диакритиками.
В последнем случае, правда, есть еще заковыка, т.к. кроме искажения также появляются какие-то таинственные письмена типа {\f78 , напр.:
Przep}{\f78 і}{\f61 yw powietrza i odpowiednia temperatura s}{\f78 №}{\f61 bardzo wa}{\f78 ї}{\f61 ne.}
И я не знаю, повлияют ли они на качество преобразованной базы или нет, а если их просто удалить, не будет ли проблем?

Сталкивался ли кто-нибудь с подобной проблемой и как ее решил?


Direct link Reply with quote
 

Nadezhda & Vatslav Yehurnovy  Identity Verified
Ukraine
Local time: 05:19
Member (2008)
English to Russian
+ ...
произвести очистку предыдущих переводов с внесением в May 26, 2008

И больше, боюсь, никак...
Можно еще поэкспериментировать с экспортом-импортом в формат тмх, но не факт, что это поможет. А про экспорт в текстовые файлы (тхт) и импорт из них лучше просто забыть - с польским сам один раз получил подобные "грабли" на ровном месте, после этого поставил на формате экспорта тхт жирный крест.

А таинственные письмена - это разметка rtf и представление диакритики в нем.
Przep}{\f78 і}{\f61 yw - это на самом деле "przepływ"
Комбинаций из фигурных скобок и косых с цифрами будет настолько много и разных, что вычищать их придется именно вручную. И все равно после этого скорее всего потом будут "выплывать" некие не часто встречающиеся малозаметные "глюки".

Имхо, проще и надежней будет убить время на подъем архивов и их сортировку, а потом поставить традосу задачу "клинапить" до полного прозрения. Хотя, конечно, это применимо если разные версии ворда или еще чего-то там не будут тоже "гадить" кодировку


Direct link Reply with quote
 

Roman Bulkiewicz  Identity Verified
Ukraine
Local time: 05:19
Member (2004)
English to Ukrainian
+ ...
Альтернативный путь May 26, 2008

Vitali Stanisheuski wrote:
Поэтому я думаю, что мне делать со своими базами - или после установки новой версии произвести очистку предыдущих двуязычных переводов с одновременным внесением в базу, или взять текстовые экспорт. файлы и произвести в них замену этих кириллических и пр. дополнительных знаков на соответствующие знаки с диакритиками.


Экспортировать базу в TXT-файл, потом сделать из него в Ворде двуязычный традосовский файл, при необходимости поисправлять кривые символы, потом очистить в новой версии Традоса.

Этот путь может оказаться более коротким, чем собирание и сортировка старых переводов, и более надежным, чем импорт TXT-базы в новую версию. (А может и не оказаться -- я на практике с такой проблемой не сталкивался, поэтому предложение чисто теоретическое.)


Direct link Reply with quote
 

Vitali Stanisheuski  Identity Verified
Belarus
Local time: 05:19
Member (2005)
English to Belarusian
+ ...
TOPIC STARTER
ответ вроде нашелся May 31, 2008

обратил внимание, что в базах моих диакритика искажена обоими из описанных способов - т.е. функции "Найти и заменить" будет недостаточно, ведь в случае с потерянными (а не искаженными) диакритиками (ciezki вместо ciężki) я их уже не восстановлю. (Судя по всему это та часть файлов, которую делал в ТагЭдиторе.) Придется "клинапить". До прозренья, так сказать...

Direct link Reply with quote
 

Valentinas & Halina Kulinic  Identity Verified
Local time: 05:19
English to Ukrainian
+ ...
Стоит ли шкурка выделки? Jun 5, 2008

Если речь идет о испорченных символах в языке перевода (как ciezki вместо ciężki), то Вы это исправите в ходе перевода новых документов. Ведь все 100% накопившихся у Вас готовых сегментов Вам не придется использовать. Зачем же все исправлять?

Direct link Reply with quote
 

Vitali Stanisheuski  Identity Verified
Belarus
Local time: 05:19
Member (2005)
English to Belarusian
+ ...
TOPIC STARTER
Concordance и др. Jun 5, 2008

Valentinas & Halina Kulinic wrote:

Если речь идет о испорченных символах в языке перевода (как ciezki вместо ciężki), то Вы это исправите в ходе перевода новых документов. Ведь все 100% накопившихся у Вас готовых сегментов Вам не придется использовать. Зачем же все исправлять?


Потому что через Concordance тоже много приходится проверять часто повторяющиеся термины и формулировки. При искаженных символах поиск тоже может не сработать нормально.


Direct link Reply with quote
 


To report site rules violations or get help, contact a site moderator:


You can also contact site staff by submitting a support request »

потенциальные проблемы с кодировками при переходе на новый Традос

Advanced search


Translation news in Russian Federation





Wordfast Pro
Translation Memory Software for Any Platform

Exclusive discount for ProZ.com users! Save over 13% when purchasing Wordfast Pro through ProZ.com. Wordfast is the world's #1 provider of platform-independent Translation Memory software. Consistently ranked the most user-friendly and highest value

More info »
TM-Town
Manage your TMs and Terms ... and boost your translation business

Are you ready for something fresh in the industry? TM-Town is a unique new site for you -- the freelance translator -- to store, manage and share translation memories (TMs) and glossaries...and potentially meet new clients on the basis of your prior work.

More info »



Forums
  • All of ProZ.com
  • Term search
  • Jobs
  • Forums
  • Multiple search