Pages in topic:   [1 2 3] >
Обслуживание больших ТМ. Советы.
Thread poster: Sergei Leshchinsky

Sergei Leshchinsky  Identity Verified
Ukraine
Local time: 22:51
Member (2008)
English to Russian
+ ...
Oct 28, 2009

Многие из нас используют большие ТМ с сотнями тысяч сегментов. Периодически они нуждаются в обслуживании: удалении дубликатов, устаревших сегментов и прочего мусора. Порой приходится укрупнять базы, объединяя несколько в одну. Предлагаю высказываться.

Обсуждаем следующие направления:
• вопросы программного обеспечения (основные средства CAT и вспомогательные программы);
• рекомендации по оборудованию (какой должен быть компьютер у переводчика);
• разное (ну, этот пункт всегда вставляютicon_smile.gif ).


Direct link Reply with quote
 

Pavel Nikonorkin  Identity Verified
Russian Federation
Local time: 22:51
Member (2007)
English to Russian
+ ...
Перед любой модификацией ТМ делаем резервную копию Oct 29, 2009

в виде txt или tmx. При многочисленных изменениях желательно делать копию после каждого этапа, чтобы потом не было мучительно больно...
Лично я предпочитаю экспортировать txt-файл, открыть его в Olifant, отфильтровать сегменты, которые нужно исправить, далее экспортировать их в отдельный файл, а затем править в любом текстовом редакторе. Затем импортирую в исходную ТМ с перезаписью.
Пробовал настраивать атрибуты и фильтры, но обычно не хватает организованности следить за ними, поэтому все дополнительные атрибуты сегментов удаляю.


Direct link Reply with quote
 

Sergei Leshchinsky  Identity Verified
Ukraine
Local time: 22:51
Member (2008)
English to Russian
+ ...
TOPIC STARTER
Эксперименты с ТМ. Oct 29, 2009

Упорядочивание ТМ

1. Было TMW - 227 МБ (было 510473 TU)
2. Экспортировал из TWB в TMX и получил TMX - 610 МБ
3. Xbench его не принял (не хватило памяти)
4. Экспортировал из TWB в TXT и получил TXT - 220 МБ
5. Xbench его принял (открывал ок. 20 минут)
6. Экспортировал в TMX "с удалением повторов" и получил TMX - 406 МБ
7. Импортировал TMX в TWB, получил TMW - 201 МБ (стало 509576 TU)
8. экспортировал снова в TMX и получил 443 МБ (см. п. 2)

Удалено 897 TU (реорганизацией TM в TWB этого добиться не удалось). Ощутимо возросла скорость конкорданса (вероятно, за счет пересоздания базы с нуля). TWB дает прирост в размере при экспорте к TMX. Файл TMX, созданный в TWB, в полтора раза больше, чем TMX от Xbench: 600 и 400 МБ. При этом в сжатом виде (RAR) они имею практически одинаковые размеры (см. ниже). Т.е. в первом случае присутствуют неиспользуемые поля, которые идентичны во всех TU и поэтому хорошо сжимаются.

• Описанная процедура упорядочивания может немного отодвинуть срок модернизации компьютера, если вы уже почувствовали, что "начало тормозить".

Игры с архивацией ТМ (стандартное сжатие)

TMW (п. 1 выше) - 227 МБ > RAR = 110 МБ (5 файлов в архиве)
TMX (п. 2 выше) - 601 МБ > RAR = 28 МБ
TXT (п. 4 выше) - 220 МБ > RAR = 23 МБ
TMX (п. 8 выше) - 443 МБ > RAR = 26 МБ

Хранить архивированные ТМ лучше в формате TMX, как наиболее распространенном.

[Редактировалось 2009-10-29 10:13 GMT]


Direct link Reply with quote
 

Nadezhda & Vatslav Yehurnovy  Identity Verified
Ukraine
Local time: 22:51
Member (2008)
English to Russian
+ ...
А дустом не пробовали? Oct 29, 2009

Вполне сравнимый результат для всеми любимого Традоса дает следующая комбинация:
1. Экспорт в какой-нибудь формат.
2. Импорт с реорганизацией в ТМ с языками "наоборот".
3. Экспорт из этой ТМ, которая "шиворот-навыворот".
В результате кучи мусора (сегменты с точностью до опечатки) самоликвидируются.

Ну и поиск-замена в Maintenance очень сильно помогают. Особенно в случае причесывания многолетних наслоений коллективного разума.


Direct link Reply with quote
 

Sergei Leshchinsky  Identity Verified
Ukraine
Local time: 22:51
Member (2008)
English to Russian
+ ...
TOPIC STARTER
просто еще один способ Oct 30, 2009

Nadezhda & Vatslav Yehurnovy wrote:
Вполне сравнимый результат для всеми любимого Традоса дает следующая комбинация:


- Времени это займет больше.
- ТМ, например, я храню в TMX и составляют икэбаны из нескольких под конкретный проект.
- Дустом попробую.
- Традос не смог удалить почти тысячу повторов. В том и дело.
- На вкус и цвет все фломастеры разные.
- Традос создает слишком большие TMX. Их надо иногда "сжимать" описанным способом.


Direct link Reply with quote
 

xxxyanadeni  Identity Verified
Canada
Local time: 15:51
French to Russian
+ ...
ДежаВю Oct 30, 2009

Не знаю, насколько мой опыт может пригодиться... Кошками пользуюсь относительно недавно. Самая большая ТМ по конкретной тематике насчитывает порядка 35 тыс. двуязычных сегментов и весит 45 Мб. Но она у меня в родном формате ДежаВю .dvmdb. И указанное количество сегментов осталось после чистки вот такой встроенной функцией ДВ:



Direct link Reply with quote
 

mk_lab  Identity Verified
Ukraine
Local time: 22:51
Member (2004)
English to Russian
+ ...
Как объять необъятное Nov 1, 2009

Sergei Leshchinsky wrote:
Многие из нас используют большие ТМ с сотнями тысяч сегментов.

Чрезмерности всегда превращаются в свою противоположность.

По-моему, общее число "многих из нас", откликнувшихся на ваше хобби - коллекционировать ТМ-ки в 610 МБ красноречиво свидетельствует о молчаливо высказанном совете:
Администрирование таких "полезных" ТМ должно быть волевым - выбросить их поскорее, и мусорное ведро тщательно вымыть, иначе очень скоро придется выкидывать компьютер

[Edited at 2009-11-01 14:53 GMT]


Direct link Reply with quote
 

Nikolai Muraviev  Identity Verified
Russian Federation
Local time: 22:51
English to Russian
+ ...
А поиск-замена - поподробней можно? Nov 1, 2009

Nadezhda & Vatslav Yehurnovy wrote:

Ну и поиск-замена в Maintenance очень сильно помогают. Особенно в случае причесывания многолетних наслоений коллективного разума.


Вы говорите о "причесывании" терминологии или о чем-то еще?


Direct link Reply with quote
 

Sergei Leshchinsky  Identity Verified
Ukraine
Local time: 22:51
Member (2008)
English to Russian
+ ...
TOPIC STARTER
поспорю Nov 1, 2009

mk_lab wrote:
Чрезмерности всегда превращаются в свою противоположность

Не всегда, поверьте. Может, "зачастую" или "временами", но точно не "всегда".
Администрирование таких "полезных" ТМ должно быть волевым - выбросить их поскорее, и мусорное ведро тщательно вымыть, иначе очень скоро придется выкидывать компьютер

И опять поспорю. Это ТМ по проектам MS. Там оч. много повторов и при получении заказов я подключаю еще и свою ТМ и, поверьте, получаю оч. неплохой leverage. (Не велика беда, если в ТМ находится старая лексика ("узлы", а не "сайты", "контент", а не "содержимое" и пр.). Главное — там попадаются целые абзацы. А поменять лексику гораздо проще.)

---

Или, скажем, как можно выкинуть ТМ по кипрским оффшорам?! Да, там куча похожего. Иногда абзац с перечислением видов деятельности компании отличается одним словом. Или имя регистратора поменялось... Но это карман не тянет, а работу ускоряет. И тут рациональнее задуматься об увеличении оперативной памяти компа, а не о сокращении ТМ, если она дает leverage.

Или... ?


Direct link Reply with quote
 

Sergei Leshchinsky  Identity Verified
Ukraine
Local time: 22:51
Member (2008)
English to Russian
+ ...
TOPIC STARTER
и еще Nov 1, 2009

mk_lab wrote:
Чрезмерности всегда превращаются в свою противоположность.

Поверьте, тут есть люди, у которых ТМ измеряются гигабайтами, но они пока мой вопрос не задали. А я задал.


Direct link Reply with quote
 

Nikolai Muraviev  Identity Verified
Russian Federation
Local time: 22:51
English to Russian
+ ...
А вот еще 2 вопроса. Nov 2, 2009

1) У меня в ТМ-ке (ТРАДОС) часть русского текста "завернут" Юникодом, то есть перед каждой буквой кириллицы стоит ее юникодный код. Текст в окне Edit Совершенно нечитаемый. Что с этим делать?

2) Часть сегментов ТМ невозможно редактировать: кнопки EDIT и DELETE неактивны. Как их "расктрыть"? ИЛи это - потеряно навсегда?


Direct link Reply with quote
 

mk_lab  Identity Verified
Ukraine
Local time: 22:51
Member (2004)
English to Russian
+ ...
Дело вкуса... Nov 2, 2009

[quote]Sergei Leshchinsky wrote:

есть люди, у которых ТМ измеряются гигабайтами

... но, по-моему, для того, чтобы ТМ оставалась полезной, ее нужно "причесывать" после каждого проекта, выбрасывая длинные фразы, сегменты с тегами, и пр. "мусор", который составляет процентов 90 содержимого и вряд-ли будет повторяться в других текстах. Таким образом, база сразу становится небольшой, удобоваримой и безопасной в работе.


Direct link Reply with quote
 

Sergei Leshchinsky  Identity Verified
Ukraine
Local time: 22:51
Member (2008)
English to Russian
+ ...
TOPIC STARTER
некоторые CAT Nov 2, 2009

в процессе перевода сразу вносят в ТМ сегменты уже без тегов.icon_smile.gif

Direct link Reply with quote
 

Nadezhda & Vatslav Yehurnovy  Identity Verified
Ukraine
Local time: 22:51
Member (2008)
English to Russian
+ ...
А поподробнее - лЁгко Nov 2, 2009

Nikolai Muraviev wrote:

Вы говорите о "причесывании" терминологии или о чем-то еще?

И о ней тоже.
0. С помощью Конкорданса обнаруживаем, что именно желательно поменять во всей памяти.
1. Если открыть ТМ с галкой Exclusive, станет доступным пункт меню Maintenance.
2. В одноименном диалоговом окошке есть кнопка Find and Replace...
3. В очередном окошке можно задать, что искать и на что менять.
Например, в Target ввести from: "соединения типа папа" to:"охватываемого соединения", в Source можно дополнительно прописать "male connection". Там еще по куче полей можно уточнять этот запрос на замену.
4. Нажать ОК.
5. Станет доступна кнопка Change, жмем ее и выбираем All translation units. Если память отличается особо крупными размерами - самое время заварить чаю или еще как-нибудь отвлечься от компьютера.
6. Проверяем результаты конкордансом, но если кнопку Search не нажать - будут отображаться старые значения.

Если замену нужно делать с разными падежами - для каждого из падежей приходится запускать этот маховик по отдельности...
Но этот процесс очень сильно помогает, особенно для запущенных случаев с присланной ТМ заказчика, например когда Magenta - это и красный, и фиолетовый, и сиреневый, и пурпурный, причем во всех падежах.


[Редактировалось 2009-11-02 22:13 GMT]


Direct link Reply with quote
 

Sergei Leshchinsky  Identity Verified
Ukraine
Local time: 22:51
Member (2008)
English to Russian
+ ...
TOPIC STARTER
примечания Nov 2, 2009

Спасибо за подробное описание, но мне такой способ кажется довольно трудоемким. Приходилось мне как-то менять термины автозаменой во всех падежах. Проблема иногда заключается в том, что надо заменить однословный термин на фразу и эта фраза начинает себя вести в каждом предложении по-своему, порой разделяя и пуская внутрь себя наречия или проявляя другие странности русской грамматики. Не все так просто...

Тут сейчас обсуждают подобную тему, только на английском, но пока ничего ценного не сказали. Все ответы сводятся к двум мыслям:
а посмотрите, какие у вас там программы есть, и что-то там себе придумайте
и
а у меня иначе.
icon_smile.gif

[Редактировалось 2009-11-02 16:07 GMT]


Direct link Reply with quote
 
Pages in topic:   [1 2 3] >


To report site rules violations or get help, contact a site moderator:


You can also contact site staff by submitting a support request »

Обслуживание больших ТМ. Советы.

Advanced search


Translation news in Russian Federation





Wordfast Pro
Translation Memory Software for Any Platform

Exclusive discount for ProZ.com users! Save over 13% when purchasing Wordfast Pro through ProZ.com. Wordfast is the world's #1 provider of platform-independent Translation Memory software. Consistently ranked the most user-friendly and highest value

More info »
memoQ translator pro
Kilgray's memoQ is the world's fastest developing integrated localization & translation environment rendering you more productive and efficient.

With our advanced file filters, unlimited language and advanced file support, memoQ translator pro has been designed for translators and reviewers who work on their own, with other translators or in team-based translation projects.

More info »



Forums
  • All of ProZ.com
  • Term search
  • Jobs
  • Forums
  • Multiple search