UTF-8 и TagEditor
Thread poster: Igor Savenkov
Igor Savenkov
Igor Savenkov  Identity Verified
Russian Federation
Local time: 16:06
Member (2007)
English to Russian
Apr 1, 2009

Заказчик требует, чтобы переведенные файлы были в кодировке UTF-8.

Попробовал, как это будет получаться. Открываю htm-файл в TagEditor'е. Перевожу предложение, сохраняю файл в htm с другим именем. Смотрю кодировку сохраненного файла. Она оказывается Windows-1251. После этого открыва
... See more
Заказчик требует, чтобы переведенные файлы были в кодировке UTF-8.

Попробовал, как это будет получаться. Открываю htm-файл в TagEditor'е. Перевожу предложение, сохраняю файл в htm с другим именем. Смотрю кодировку сохраненного файла. Она оказывается Windows-1251. После этого открываю этот же файл в AkelPad 3.3.4 (аналог "Блокнота"), делаю "Сохранить как" и указываю кодировку UTF-8. Сохраняю, открываю файл, смотрю кодировку - действительно UTF-8.

Вопросы:
1) (На всякий случай) Нет ли "подводных камней" в этой операции? Всё "законно"?
2) Нельзя ли получать файл в кодировке UTF-8 непосредственно из TagEditor? Может быть, это есть где-то в настройках? (поискал - не нашел). А то как-то не хочется пересохранять htm-файлы в UTF-8 - их у меня под 300 штук.

Спасибо заранее.
Collapse


 
Nadiia and Vatslav Yehurnovy
Nadiia and Vatslav Yehurnovy
Ukraine
Local time: 16:06
Member (2008)
English to Russian
+ ...
а charset какой? Apr 1, 2009

1) Если кроме английского и русского есть еще буквы с умляутами и т.п., а особенно если иероглифы имеются - они при подобной смене кодировки могут превратиться в чертте-что.

2) В HTML есть строчка в угловых скобках:
meta http-equiv="Content-Type" content="text/html; charset=utf-8"
Если там charset=wind
... See more
1) Если кроме английского и русского есть еще буквы с умляутами и т.п., а особенно если иероглифы имеются - они при подобной смене кодировки могут превратиться в чертте-что.

2) В HTML есть строчка в угловых скобках:
meta http-equiv="Content-Type" content="text/html; charset=utf-8"
Если там charset=windows-125* или еще что-либо другое- то можно попробовать в исходных файлах эти метаданные поменять. И тут же проверить читабельность букв с умляутами или еще какими завитушками.
Collapse


 
Igor Savenkov
Igor Savenkov  Identity Verified
Russian Federation
Local time: 16:06
Member (2007)
English to Russian
TOPIC STARTER
Похоже, есть проблема Apr 1, 2009

Nadezhda & Vatslav Yehurnovy wrote:

1) Если кроме английского и русского есть еще буквы с умляутами и т.п., а особенно если иероглифы имеются - они при подобной смене кодировки могут превратиться в чертте-что.


Все слова английские, кроме одного французского слова с французской буковкой "е". (Это та, что с апострофом над ней - не знаю, как это называется). Значит, она "гвакнется" при такой манипуляции?


2) В HTML есть строчка в угловых скобках:
meta http-equiv="Content-Type" content="text/html; charset=utf-8"
Если там charset=windows-125* или еще что-либо другое- то можно попробовать в исходных файлах эти метаданные поменять. И тут же проверить читабельность букв с умляутами или еще какими завитушками.


В части файлов есть charset=utf-8, в других - вообще никакого charset.
charset=windows-125* нет ни в одном файле.


 
Roman Bulkiewicz
Roman Bulkiewicz  Identity Verified
Local time: 16:06
Member (2004)
English to Ukrainian
+ ...
на вопросы не отвечу... Apr 1, 2009

...но, может, подскажу как не пересохранять 300 файлов.
В SDL Trados есть утилита Glue, которая позволяет склеивать много файлов в один для последующего перевода в Tageditor. Когда переведете и перед тем как расклеивать, открываете TTX-файл в текстовом редакторе и меняете кодировку. (Мо�
... See more
...но, может, подскажу как не пересохранять 300 файлов.
В SDL Trados есть утилита Glue, которая позволяет склеивать много файлов в один для последующего перевода в Tageditor. Когда переведете и перед тем как расклеивать, открываете TTX-файл в текстовом редакторе и меняете кодировку. (Может, там и есть подводные камни, я не знаю.)

А одну буковку можно вручную заменить HTML-кодом. Если не ошибаюсь, é

--

Не ошибся!

Попробую так:

é

[Edited at 2009-04-01 17:36 GMT]
Collapse


 
Igor Savenkov
Igor Savenkov  Identity Verified
Russian Federation
Local time: 16:06
Member (2007)
English to Russian
TOPIC STARTER
Утилита для конвертации Windows-1251 -> UTF-8 Apr 1, 2009

По идее, должны быть утилита(ы) для перекодировки в UTF-8, которой можно разом скормить все 300 файлов. Я, конечно, могу сам поискать - и поищу - но, может быть, кто-нибудь порекомендует надежную и удобную утилиту для этой цели?

 
Igor Savenkov
Igor Savenkov  Identity Verified
Russian Federation
Local time: 16:06
Member (2007)
English to Russian
TOPIC STARTER
Спасибо, Роман Apr 1, 2009

Пойду Вашим путем. Лучше переводить и обрабатывать один крупный файл, чем сто мелких (о "фиче" Glue я не знал).

é - это действительно é

Roman Bulkiewicz wrote:

...но, может, подскажу как не пересохранять 300 файлов.
В SDL Trados есть утилита Glue, которая позволяет склеивать много файлов в один для последующего перевода в Tageditor. Когда переведете и перед тем как расклеивать, открываете TTX-файл в текстовом редакторе и меняете кодировку. (Может, там и есть подводные камни, я не знаю.)

А одну буковку можно вручную заменить HTML-кодом. Если не ошибаюсь, é

--

Не ошибся!

Попробую так:

é

[Edited at 2009-04-01 16:50 GMT]


 
Maxim Manzhosin
Maxim Manzhosin  Identity Verified
Russian Federation
Local time: 16:06
English to Russian
Утилита для конвертации Windows-1251 -> UTF-8 Apr 2, 2009

Порекомендую iconv.

Версия для Windows лежит здесь.


 
Tatiana Pelipeiko
Tatiana Pelipeiko  Identity Verified
Russian Federation
Local time: 16:06
French to Russian
+ ...
Не обязательно... Apr 4, 2009

Igor Savenkov wrote:

с французской буковкой "е". Значит, она "гвакнется" при такой манипуляции?


Не обязательно. Но может.
Зависит от исходника. (К сожалению, с французскими текстами в html бывают проблемы в словах с диакритикой. Чем конкретно сие объясняется - не знаю. )


 
Sergei Leshchinsky
Sergei Leshchinsky  Identity Verified
Ukraine
Local time: 16:06
Member (2008)
English to Russian
+ ...
А объясняется тем, что... Apr 4, 2009

... все еще приоритет отдается первой половине кодовой таблицы... Имена файлов из франции не открываются, пока не переименуешь, заменив диакритику простыми символами....

Tatiana Pelipeiko wrote:
бывают проблемы в словах с диакритикой. Чем конкретно сие объясняется - не знаю.


 
Igor Savenkov
Igor Savenkov  Identity Verified
Russian Federation
Local time: 16:06
Member (2007)
English to Russian
TOPIC STARTER
Все оказалось не совсем просто... Apr 11, 2009

Пошел я путем Романа...

Roman Bulkiewicz wrote:
...но, может, подскажу как не пересохранять 300 файлов.
В SDL Trados есть утилита Glue, которая позволяет склеивать много файлов в один для последующего перевода в Tageditor. Когда переведете и перед тем как расклеивать, открываете TTX-файл в текстовом редакторе и меняете кодировку. (Может, там и есть подводные камни, я не знаю.)


...и оказались подводные камни: TTX-файл не терпит вольного обращения, и после перекодировки просто отказывается расклеивать файлы (возникает ошибка 91). Возможно, в нем можно кое-что подправить, чтобы он не брыкался, но... чем дальше в лес, тем толще партизаны... и я предпочел свернуть на запасную тропинку - поискать утилиты для пакетной обработки файлов (на поиск которых угробил полдня).

В итоге вот как все выглядит:

1) Склеиваю 100 файлов в один крупный файл.
2) Перевожу крупный файл.
3) Расклеиваю 1 крупный на 100 мелких.
4) С помощью утилиты XChange меняю код для диактрического "е" во всех 100 файлах
5) С помощью утилиты Sisulizer's Kaboom меняю кодировку на UTF-8 во всех 100 файлах

P.S. Sisulizer's Kaboom - бесплатная, а вот с shareware XChange пришлось повозиться дополнительно
P.P.S
Maxim Manzhosin wrote:
Порекомендую iconv.
Версия для Windows лежит здесь.


Версия iconv для Windows оказалась очень крутой: выводит результат перекодирования прямо на консоль


 


To report site rules violations or get help, contact a site moderator:


You can also contact site staff by submitting a support request »

UTF-8 и TagEditor


Translation news in Russian Federation





Trados Studio 2022 Freelance
The leading translation software used by over 270,000 translators.

Designed with your feedback in mind, Trados Studio 2022 delivers an unrivalled, powerful desktop and cloud solution, empowering you to work in the most efficient and cost-effective way.

More info »
Wordfast Pro
Translation Memory Software for Any Platform

Exclusive discount for ProZ.com users! Save over 13% when purchasing Wordfast Pro through ProZ.com. Wordfast is the world's #1 provider of platform-independent Translation Memory software. Consistently ranked the most user-friendly and highest value

Buy now! »