Mobile menu

UTF-8 и TagEditor
Thread poster: Igor Savenkov

Igor Savenkov  Identity Verified
Russian Federation
Local time: 01:05
Member (2007)
English to Russian
Apr 1, 2009

Заказчик требует, чтобы переведенные файлы были в кодировке UTF-8.

Попробовал, как это будет получаться. Открываю htm-файл в TagEditor'е. Перевожу предложение, сохраняю файл в htm с другим именем. Смотрю кодировку сохраненного файла. Она оказывается Windows-1251. После этого открываю этот же файл в AkelPad 3.3.4 (аналог "Блокнота"), делаю "Сохранить как" и указываю кодировку UTF-8. Сохраняю, открываю файл, смотрю кодировку - действительно UTF-8.

Вопросы:
1) (На всякий случай) Нет ли "подводных камней" в этой операции? Всё "законно"?
2) Нельзя ли получать файл в кодировке UTF-8 непосредственно из TagEditor? Может быть, это есть где-то в настройках? (поискал - не нашел). А то как-то не хочется пересохранять htm-файлы в UTF-8 - их у меня под 300 штук.

Спасибо заранее.


Direct link Reply with quote
 

Nadezhda & Vatslav Yehurnovy  Identity Verified
Ukraine
Local time: 00:05
Member (2008)
English to Russian
+ ...
а charset какой? Apr 1, 2009

1) Если кроме английского и русского есть еще буквы с умляутами и т.п., а особенно если иероглифы имеются - они при подобной смене кодировки могут превратиться в чертте-что.

2) В HTML есть строчка в угловых скобках:
meta http-equiv="Content-Type" content="text/html; charset=utf-8"
Если там charset=windows-125* или еще что-либо другое- то можно попробовать в исходных файлах эти метаданные поменять. И тут же проверить читабельность букв с умляутами или еще какими завитушками.


Direct link Reply with quote
 

Igor Savenkov  Identity Verified
Russian Federation
Local time: 01:05
Member (2007)
English to Russian
TOPIC STARTER
Похоже, есть проблема Apr 1, 2009

Nadezhda & Vatslav Yehurnovy wrote:

1) Если кроме английского и русского есть еще буквы с умляутами и т.п., а особенно если иероглифы имеются - они при подобной смене кодировки могут превратиться в чертте-что.


Все слова английские, кроме одного французского слова с французской буковкой "е". (Это та, что с апострофом над ней - не знаю, как это называется). Значит, она "гвакнется" при такой манипуляции?


2) В HTML есть строчка в угловых скобках:
meta http-equiv="Content-Type" content="text/html; charset=utf-8"
Если там charset=windows-125* или еще что-либо другое- то можно попробовать в исходных файлах эти метаданные поменять. И тут же проверить читабельность букв с умляутами или еще какими завитушками.


В части файлов есть charset=utf-8, в других - вообще никакого charset.
charset=windows-125* нет ни в одном файле.


Direct link Reply with quote
 

Roman Bulkiewicz  Identity Verified
Ukraine
Local time: 00:05
Member (2004)
English to Ukrainian
+ ...
на вопросы не отвечу... Apr 1, 2009

...но, может, подскажу как не пересохранять 300 файлов.
В SDL Trados есть утилита Glue, которая позволяет склеивать много файлов в один для последующего перевода в Tageditor. Когда переведете и перед тем как расклеивать, открываете TTX-файл в текстовом редакторе и меняете кодировку. (Может, там и есть подводные камни, я не знаю.)

А одну буковку можно вручную заменить HTML-кодом. Если не ошибаюсь, é

--

Не ошибся!

Попробую так:

é

[Edited at 2009-04-01 17:36 GMT]


Direct link Reply with quote
 

Igor Savenkov  Identity Verified
Russian Federation
Local time: 01:05
Member (2007)
English to Russian
TOPIC STARTER
Утилита для конвертации Windows-1251 -> UTF-8 Apr 1, 2009

По идее, должны быть утилита(ы) для перекодировки в UTF-8, которой можно разом скормить все 300 файлов. Я, конечно, могу сам поискать - и поищу - но, может быть, кто-нибудь порекомендует надежную и удобную утилиту для этой цели?

Direct link Reply with quote
 

Igor Savenkov  Identity Verified
Russian Federation
Local time: 01:05
Member (2007)
English to Russian
TOPIC STARTER
Спасибо, Роман Apr 1, 2009

Пойду Вашим путем. Лучше переводить и обрабатывать один крупный файл, чем сто мелких (о "фиче" Glue я не знал).

é - это действительно é

Roman Bulkiewicz wrote:

...но, может, подскажу как не пересохранять 300 файлов.
В SDL Trados есть утилита Glue, которая позволяет склеивать много файлов в один для последующего перевода в Tageditor. Когда переведете и перед тем как расклеивать, открываете TTX-файл в текстовом редакторе и меняете кодировку. (Может, там и есть подводные камни, я не знаю.)

А одну буковку можно вручную заменить HTML-кодом. Если не ошибаюсь, é

--

Не ошибся!

Попробую так:

é

[Edited at 2009-04-01 16:50 GMT]


Direct link Reply with quote
 

Maxim Manzhosin  Identity Verified
Russian Federation
Local time: 01:05
Member (2008)
English to Russian
Утилита для конвертации Windows-1251 -> UTF-8 Apr 2, 2009

Порекомендую iconv.

Версия для Windows лежит здесь.


Direct link Reply with quote
 
Tatiana Pelipeiko  Identity Verified
Russian Federation
Local time: 01:05
French to Russian
+ ...
Не обязательно... Apr 4, 2009

Igor Savenkov wrote:

с французской буковкой "е". Значит, она "гвакнется" при такой манипуляции?


Не обязательно. Но может.
Зависит от исходника. (К сожалению, с французскими текстами в html бывают проблемы в словах с диакритикой. Чем конкретно сие объясняется - не знаю. )


Direct link Reply with quote
 

Sergei Leshchinsky  Identity Verified
Ukraine
Local time: 00:05
Member (2008)
English to Russian
+ ...
А объясняется тем, что... Apr 4, 2009

... все еще приоритет отдается первой половине кодовой таблицы... Имена файлов из франции не открываются, пока не переименуешь, заменив диакритику простыми символами....

Tatiana Pelipeiko wrote:
бывают проблемы в словах с диакритикой. Чем конкретно сие объясняется - не знаю.


Direct link Reply with quote
 

Igor Savenkov  Identity Verified
Russian Federation
Local time: 01:05
Member (2007)
English to Russian
TOPIC STARTER
Все оказалось не совсем просто... Apr 11, 2009

Пошел я путем Романа...

Roman Bulkiewicz wrote:
...но, может, подскажу как не пересохранять 300 файлов.
В SDL Trados есть утилита Glue, которая позволяет склеивать много файлов в один для последующего перевода в Tageditor. Когда переведете и перед тем как расклеивать, открываете TTX-файл в текстовом редакторе и меняете кодировку. (Может, там и есть подводные камни, я не знаю.)


...и оказались подводные камни: TTX-файл не терпит вольного обращения, и после перекодировки просто отказывается расклеивать файлы (возникает ошибка 91). Возможно, в нем можно кое-что подправить, чтобы он не брыкался, но... чем дальше в лес, тем толще партизаны... и я предпочел свернуть на запасную тропинку - поискать утилиты для пакетной обработки файлов (на поиск которых угробил полдня).

В итоге вот как все выглядит:

1) Склеиваю 100 файлов в один крупный файл.
2) Перевожу крупный файл.
3) Расклеиваю 1 крупный на 100 мелких.
4) С помощью утилиты XChange меняю код для диактрического "е" во всех 100 файлах
5) С помощью утилиты Sisulizer's Kaboom меняю кодировку на UTF-8 во всех 100 файлах

P.S. Sisulizer's Kaboom - бесплатная, а вот с shareware XChange пришлось повозиться дополнительно
P.P.S
Maxim Manzhosin wrote:
Порекомендую iconv.
Версия для Windows лежит здесь.


Версия iconv для Windows оказалась очень крутой: выводит результат перекодирования прямо на консоль


Direct link Reply with quote
 


To report site rules violations or get help, contact a site moderator:


You can also contact site staff by submitting a support request »

UTF-8 и TagEditor

Advanced search


Translation news in Russian Federation





TMreserve
Wake up in the Morning and see that you have sold TMs and made Money overnight



The TM Market Place for Translators
New: Our Instant TM Download
TM owners: Upload your TMs into the online database
Customers: Analyse your text & instantly download a text-specific TM
Well over 1.2 BILLION translation units

More info »
Anycount & Translation Office 3000
Translation Office 3000

Translation Office 3000 is an advanced accounting tool for freelance translators and small agencies. TO3000 easily and seamlessly integrates with the business life of professional freelance translators.

More info »



All of ProZ.com
  • All of ProZ.com
  • Term search
  • Jobs