Как перевести глоссарий в табличный формат
Thread poster: Arkadi Burkov
Arkadi Burkov
Arkadi Burkov  Identity Verified
Belarus
Local time: 12:02
English to Russian
Sep 7, 2011

Уважаемые коллеги!

Подскажите, есть ли способ, позволяющий относительно быстро перевести глоссарий вот такого вида (http://www.rdtex.ru/docs/glossary/) в табличный формат?


 
Sergei Leshchinsky
Sergei Leshchinsky  Identity Verified
Ukraine
Local time: 12:02
Member (2008)
English to Russian
+ ...
непростая задача Sep 7, 2011

1) Купить знакомому программисту много заокеанской огненной воды или пива (по вкусу) и он напишет парсер. Но это парсер будет работать на этом конкретном сайте. Для следующего глоссария придется опять бежать в гастроном.

ИЛИ

2) Сам глоссарий можно выкачать в ло
... See more
1) Купить знакомому программисту много заокеанской огненной воды или пива (по вкусу) и он напишет парсер. Но это парсер будет работать на этом конкретном сайте. Для следующего глоссария придется опять бежать в гастроном.

ИЛИ

2) Сам глоссарий можно выкачать в локальную версию. Это будет структура папок с HTML-файлами. Из локального зеркала удалить все картинки и лишние данные и превратить это дело в PDG или CHM с внутренними гиперссылками. Я такое делал пару раз.

[Редактировалось 2011-09-07 14:48 GMT]
Collapse


 
Vitali Stanisheuski
Vitali Stanisheuski
Belarus
Local time: 12:02
Member (2005)
English to Russian
+ ...
SITE LOCALIZER
примерно таким занимался Sep 7, 2011

полуавтоматический способ:
1) выкачать все нужные страницы спецпрограммой типа офлайн-браузера (напр. Teleport Pro)
2) загнать все файлы в Tageditor и сохранить как ttx
3) склеить в один ttx
4) сохранить как один html
/если знаете как просто склеить кучу файлов html сразу без ман�
... See more
полуавтоматический способ:
1) выкачать все нужные страницы спецпрограммой типа офлайн-браузера (напр. Teleport Pro)
2) загнать все файлы в Tageditor и сохранить как ttx
3) склеить в один ttx
4) сохранить как один html
/если знаете как просто склеить кучу файлов html сразу без манипуляций с Tageditor, воспользуйтесь этим способом, я сам был бы рад знать, но на тот момент использовал, что мог/
5) редактировать код полученного html путем "Найти"-"Заменить все", на первых порах огульно удаляя все повторяющиеся ненужные элементы
6) после того как останется нужный минимум (оригинал - перевод), свести к удобной форме для того, чтобы преобразовать все в таблицу; если пару оригинал-перевод все равно разделяет достаточно ненужных элементов, особым образом выделить оригинал-перевод, а остальное удалить (напр. отформатировать оригинал из глоссария и перевод из глоссария выравниванием по правой стороне, а потом задать удаление всего что было с исходной левой стороны - при обработке кода в MS Word)
Collapse


 
Maxim Manzhosin
Maxim Manzhosin  Identity Verified
Russian Federation
Local time: 12:02
English to Russian
Все так, только без TagEditor Sep 8, 2011

Vitali Stanisheuski wrote:

2) загнать все файлы в Tageditor и сохранить как ttx
3) склеить в один ttx
4) сохранить как один html


Для склейки TagEditor не нужен, достаточно команды copy /Y *.htm result.html.

Далее в получившемся result.html с помощью поиска и замены удалите все, что не содержится между < title >...< /title > и < p >< b >Перевод: ... < /p >.

Рекомендую использовать для этого не Word, а что-нибудь вроде Funduc Search and Replace.

[Edited at 2011-09-09 08:55 GMT]


 
Andriy Bublikov
Andriy Bublikov  Identity Verified
Ukraine
Local time: 12:02
French to Russian
+ ...

Moderator of this forum
Все так, только без гастронома :) Sep 8, 2011

Sergei Leshchinsky wrote:

1) Купить знакомому программисту много заокеанской огненной воды или пива (по вкусу) и он напишет парсер. Но это парсер будет работать на этом конкретном сайте. Для следующего глоссария придется опять бежать в гастроном.

ИЛИ

2) Сам глоссарий можно выкачать в локальную версию. Это будет структура папок с HTML-файлами. Из локального зеркала удалить все картинки и лишние данные и превратить это дело в PDG или CHM с внутренними гиперссылками. Я такое делал пару раз.

[Редактировалось 2011-09-07 14:48 GMT]


Глоссарий в локальную версию можно выкачать при помощи Teleport VLX или Offline Explorer Enterprise.

Дальше описано здесь: http://www.oszone.net/3789

HTML Help Workshop все склеивает сам.

С непривычки первый раз, возможно, придется повозиться. Потом будет легче. Конечно, все это стоит проделывать только в том случае, если глоссарий действительно нужен, иначе не стоит тратить время.

P.S. Было бы небезынтересно узнать, как заснуть скачанные HTML-файлы в MultiTerm.
Если кто-нибудь подскажет, буду весьма признателен.




[Modifié le 2011-09-08 12:56 GMT]


 
Sergei Leshchinsky
Sergei Leshchinsky  Identity Verified
Ukraine
Local time: 12:02
Member (2008)
English to Russian
+ ...
Я попробовал, но сдулся... Sep 8, 2011

Arkadi Burkov wrote: глоссарий вот такого вида (http://www.rdtex.ru/docs/glossary/)[/quote]
Мне надоело примерно после скачивания 15 тысяч HTML-файлов. Не знаю, сколько из там оставалось... Сумма меняется динамически по ходу анализа ссылок внутри каждого файла.

Если вам это удастся, то буду рад копии.

Andriy Bublikov wrote: ... если глоссарий действительно нужен, иначе не стоит тратить время

Это ключевые слова.

Maxim Manzhosin wrote:достаточно команды copy 1.html + 2.html + ... + n.html result.html.

Повторяю, мне надоело на 15 тысячах HTML-файлов.
Слишком длинная будет командная строка.

 
Sergei Leshchinsky
Sergei Leshchinsky  Identity Verified
Ukraine
Local time: 12:02
Member (2008)
English to Russian
+ ...
Эх,как его перекособочило! Sep 8, 2011

А это уже происходит все чаще...

 
Vitali Stanisheuski
Vitali Stanisheuski
Belarus
Local time: 12:02
Member (2005)
English to Russian
+ ...
SITE LOCALIZER
- Sep 8, 2011

Правильно ли я понял проблемы - 1) скачиваются лишние файлы, 2) утомительно делать длинную строку ?

По п. 1, надо сначала вручную собрать ссылки на каждый из разделов глоссария по алфавиту + "Прочее" (там с цифр начинается). Итого около 30. В настройках офлайн-браузера задат
... See more
Правильно ли я понял проблемы - 1) скачиваются лишние файлы, 2) утомительно делать длинную строку ?

По п. 1, надо сначала вручную собрать ссылки на каждый из разделов глоссария по алфавиту + "Прочее" (там с цифр начинается). Итого около 30. В настройках офлайн-браузера задать эти 30 ссылок как исходные, а если это невозможно сделать в рамках одного проекта, то вручную создать html-файл с этими 30 ссылками и указать его в офлайн-браузере как исходный. Если локальные файлы не берет, залить куда-нибудь на сервер и указать уже Интернет-адрес. Установить глубину прохода по ссылкам - 1.

По п. 2 - если скачанные файлы действительно нумеруются по порядку, то можно сначала создать список чисел от единицы до нужного (допустим в Excel) и теми же методами "Найти-Заменить" смастерить строку. Хотя если можно обойтись без строки - упоминались программы, чтобы склеить файлы, то, разумеется, лучше просто воспользоваться ими.

[Edited at 2011-09-08 19:24 GMT]
Collapse


 
Vitali Stanisheuski
Vitali Stanisheuski
Belarus
Local time: 12:02
Member (2005)
English to Russian
+ ...
SITE LOCALIZER
HTML-файлы в MultiTerm Sep 8, 2011

Andriy Bublikov wrote:

Было бы небезынтересно узнать, как заснуть скачанные HTML-файлы в MultiTerm.
Если кто-нибудь подскажет, буду весьма признателен.


Да вот, видимо, никак. Сначала надо обработать эти HTML до табличной формы, а уж дальше полученное использовать для конвертации в MultiTerm.


 
Sergei Tumanov
Sergei Tumanov  Identity Verified
Local time: 12:02
English to Russian
+ ...
Если есть экселевский файл, то Sep 8, 2011

в Мультитерм его засунуть проще простого.

 
Andriy Bublikov
Andriy Bublikov  Identity Verified
Ukraine
Local time: 12:02
French to Russian
+ ...

Moderator of this forum
Табличный формат Sep 8, 2011

Когда я писал о Teleport VLX, Offline Explorer Enterprise и HTML Help Workshop , я исходил из того, что Аркадию нужен просто локальный глоссарий, неважно в каком формате.

Благодаря поиску, глоссарии в формате СНМ - очень удобны, весят мало. Единственный недостаток, это невозможность их подключе�
... See more
Когда я писал о Teleport VLX, Offline Explorer Enterprise и HTML Help Workshop , я исходил из того, что Аркадию нужен просто локальный глоссарий, неважно в каком формате.

Благодаря поиску, глоссарии в формате СНМ - очень удобны, весят мало. Единственный недостаток, это невозможность их подключения к ТМ.

К сожалению, как конвертировать HTML в табличный формат, я не знаю. Если бы знал, не задавал бы вопросы о конвертации HTML в Мультитерм.

Осталось найти ответ на вопрос Аркадия: как HTML-файлы конвертировать в табличный формат? А оттуда уже и до Мультитерма недалеко.


Отдельное спасибо Сергею Туманову за его подробное руководство:
http://www.proz.com/forum/russian/72534-Импорт_из_multiterm_convert.html

Очень помогает, пользуюсь постоянно. Еще раз огромное СПАСИБИЩЕ, Сергей.
Collapse


 
Vitali Stanisheuski
Vitali Stanisheuski
Belarus
Local time: 12:02
Member (2005)
English to Russian
+ ...
SITE LOCALIZER
уточнения Sep 9, 2011

Vitali Stanisheuski wrote:
Установить глубину прохода по ссылкам - 1.

Неточно написал. Если исходной будет страница с 30 ссылками, то глубина - 2, т.к. 1-ми будут страницы со списком статьей, а нужны будут сами статьи.

А вообще можно вручную выделить область со ссылками на каждой из этих страниц, скопировать в Word, из него сделать HTML, и уже задать офлайн-браузеру скачивание с этой страницы, и тут глубина будет 1.


 
Sergei Leshchinsky
Sergei Leshchinsky  Identity Verified
Ukraine
Local time: 12:02
Member (2008)
English to Russian
+ ...
2 Виталий Sep 9, 2011

Похоже, там на каждое вхождение отдельный файл.
Я не знаю объем глоссария, но скачанные 15 тыс. файлов -- это вполне может быть 15 тыс. терминов...

Собрать строку можно, но в ОС существуют ограничения в отношении длины командой строки.


 
Vitali Stanisheuski
Vitali Stanisheuski
Belarus
Local time: 12:02
Member (2005)
English to Russian
+ ...
SITE LOCALIZER
- Sep 9, 2011

Sergei Leshchinsky wrote:

Похоже, там на каждое вхождение отдельный файл.


Так и есть, слава Богу, файлы эти мелкие, без излишеств.

Sergei Leshchinsky wrote:
в ОС существуют ограничения в отношении длины командой строки.

Тогда без строки.


 
Andriy Bublikov
Andriy Bublikov  Identity Verified
Ukraine
Local time: 12:02
French to Russian
+ ...

Moderator of this forum
Глоссарий в формате СНМ Sep 15, 2011

Если кому-то нужен этот глоссарий в формате СНМ, пишите мне, вышлю.

 


To report site rules violations or get help, contact a site moderator:


You can also contact site staff by submitting a support request »

Как перевести глоссарий в табличный формат


Translation news in Russian Federation





Trados Studio 2022 Freelance
The leading translation software used by over 270,000 translators.

Designed with your feedback in mind, Trados Studio 2022 delivers an unrivalled, powerful desktop and cloud solution, empowering you to work in the most efficient and cost-effective way.

More info »
CafeTran Espresso
You've never met a CAT tool this clever!

Translate faster & easier, using a sophisticated CAT tool built by a translator / developer. Accept jobs from clients who use Trados, MemoQ, Wordfast & major CAT tools. Download and start using CafeTran Espresso -- for free

Buy now! »