Как перевести глоссарий в табличный формат
Thread poster: Arkadi Burkov

Arkadi Burkov  Identity Verified
Belarus
Local time: 23:25
English to Russian
Sep 7, 2011

Уважаемые коллеги!

Подскажите, есть ли способ, позволяющий относительно быстро перевести глоссарий вот такого вида (http://www.rdtex.ru/docs/glossary/) в табличный формат?


 

Sergei Leshchinsky  Identity Verified
Ukraine
Local time: 22:25
Member (2008)
English to Russian
+ ...
непростая задача Sep 7, 2011

1) Купить знакомому программисту много заокеанской огненной воды или пива (по вкусу) и он напишет парсер. Но это парсер будет работать на этом конкретном сайте. Для следующего глоссария придется опять бежать в гастроном.

ИЛИ

2) Сам глоссарий можно выкачать в локальную версию. Это будет структура папок с HTML-файлами. Из локального зеркала удалить все картинки и лишние данные и превратить это дело в PDG или CHM с внутренними гиперссылками. Я такое делал пару раз.

[Редактировалось 2011-09-07 14:48 GMT]


 

Vitali Stanisheuski
Belarus
Local time: 23:25
Member (2005)
English to Russian
+ ...
примерно таким занимался Sep 7, 2011

полуавтоматический способ:
1) выкачать все нужные страницы спецпрограммой типа офлайн-браузера (напр. Teleport Pro)
2) загнать все файлы в Tageditor и сохранить как ttx
3) склеить в один ttx
4) сохранить как один html
/если знаете как просто склеить кучу файлов html сразу без манипуляций с Tageditor, воспользуйтесь этим способом, я сам был бы рад знать, но на тот момент использовал, что мог/
5) редактировать код полученного html путем "Найти"-"Заменить все", на первых порах огульно удаляя все повторяющиеся ненужные элементы
6) после того как останется нужный минимум (оригинал - перевод), свести к удобной форме для того, чтобы преобразовать все в таблицу; если пару оригинал-перевод все равно разделяет достаточно ненужных элементов, особым образом выделить оригинал-перевод, а остальное удалить (напр. отформатировать оригинал из глоссария и перевод из глоссария выравниванием по правой стороне, а потом задать удаление всего что было с исходной левой стороны - при обработке кода в MS Word)


 

Maxim Manzhosin  Identity Verified
Russian Federation
Local time: 23:25
Member (2008)
English to Russian
Все так, только без TagEditor Sep 8, 2011

Vitali Stanisheuski wrote:

2) загнать все файлы в Tageditor и сохранить как ttx
3) склеить в один ttx
4) сохранить как один html


Для склейки TagEditor не нужен, достаточно команды copy /Y *.htm result.html.

Далее в получившемся result.html с помощью поиска и замены удалите все, что не содержится между < title >...< /title > и < p >< b >Перевод: ... < /p >.

Рекомендую использовать для этого не Word, а что-нибудь вроде Funduc Search and Replace.

[Edited at 2011-09-09 08:55 GMT]


 

Andriy Bublikov  Identity Verified
Ukraine
Local time: 22:25
Member (2009)
French to Russian
+ ...

Moderator of this forum
Все так, только без гастронома :) Sep 8, 2011

Sergei Leshchinsky wrote:

1) Купить знакомому программисту много заокеанской огненной воды или пива (по вкусу) и он напишет парсер. Но это парсер будет работать на этом конкретном сайте. Для следующего глоссария придется опять бежать в гастроном.

ИЛИ

2) Сам глоссарий можно выкачать в локальную версию. Это будет структура папок с HTML-файлами. Из локального зеркала удалить все картинки и лишние данные и превратить это дело в PDG или CHM с внутренними гиперссылками. Я такое делал пару раз.

[Редактировалось 2011-09-07 14:48 GMT]


Глоссарий в локальную версию можно выкачать при помощи Teleport VLX или Offline Explorer Enterprise.

Дальше описано здесь: http://www.oszone.net/3789

HTML Help Workshop все склеивает сам.

С непривычки первый раз, возможно, придется повозиться. Потом будет легче. Конечно, все это стоит проделывать только в том случае, если глоссарий действительно нужен, иначе не стоит тратить время.

P.S. Было бы небезынтересно узнать, как заснуть скачанные HTML-файлы в MultiTerm.
Если кто-нибудь подскажет, буду весьма признателен.




[Modifié le 2011-09-08 12:56 GMT]


 

Sergei Leshchinsky  Identity Verified
Ukraine
Local time: 22:25
Member (2008)
English to Russian
+ ...
Я попробовал, но сдулся... Sep 8, 2011

Arkadi Burkov wrote: глоссарий вот такого вида (http://www.rdtex.ru/docs/glossary/)

Мне надоело примерно после скачивания 15 тысяч HTML-файлов. Не знаю, сколько из там оставалось... Сумма меняется динамически по ходу анализа ссылок внутри каждого файла.

Если вам это удастся, то буду рад копии.icon_wink.gif

Andriy Bublikov wrote: ... если глоссарий действительно нужен, иначе не стоит тратить время

Это ключевые слова.

Maxim Manzhosin wrote:достаточно команды copy 1.html + 2.html + ... + n.html result.html.

Повторяю, мне надоело на 15 тысячах HTML-файлов.
Слишком длинная будет командная строка.icon_smile.gif


 

Sergei Leshchinsky  Identity Verified
Ukraine
Local time: 22:25
Member (2008)
English to Russian
+ ...
Эх,как его перекособочило! Sep 8, 2011

А это уже происходит все чаще...

 

Vitali Stanisheuski
Belarus
Local time: 23:25
Member (2005)
English to Russian
+ ...
- Sep 8, 2011

Правильно ли я понял проблемы - 1) скачиваются лишние файлы, 2) утомительно делать длинную строку ?

По п. 1, надо сначала вручную собрать ссылки на каждый из разделов глоссария по алфавиту + "Прочее" (там с цифр начинается). Итого около 30. В настройках офлайн-браузера задать эти 30 ссылок как исходные, а если это невозможно сделать в рамках одного проекта, то вручную создать html-файл с этими 30 ссылками и указать его в офлайн-браузере как исходный. Если локальные файлы не берет, залить куда-нибудь на сервер и указать уже Интернет-адрес. Установить глубину прохода по ссылкам - 1.

По п. 2 - если скачанные файлы действительно нумеруются по порядку, то можно сначала создать список чисел от единицы до нужного (допустим в Excel) и теми же методами "Найти-Заменить" смастерить строку. Хотя если можно обойтись без строки - упоминались программы, чтобы склеить файлы, то, разумеется, лучше просто воспользоваться ими.

[Edited at 2011-09-08 19:24 GMT]


 

Vitali Stanisheuski
Belarus
Local time: 23:25
Member (2005)
English to Russian
+ ...
HTML-файлы в MultiTerm Sep 8, 2011

Andriy Bublikov wrote:

Было бы небезынтересно узнать, как заснуть скачанные HTML-файлы в MultiTerm.
Если кто-нибудь подскажет, буду весьма признателен.


Да вот, видимо, никак. Сначала надо обработать эти HTML до табличной формы, а уж дальше полученное использовать для конвертации в MultiTerm.


 

Sergei Tumanov  Identity Verified
Local time: 22:25
English to Russian
+ ...
Если есть экселевский файл, то Sep 8, 2011

в Мультитерм его засунуть проще простого.

 

Andriy Bublikov  Identity Verified
Ukraine
Local time: 22:25
Member (2009)
French to Russian
+ ...

Moderator of this forum
Табличный формат Sep 8, 2011

Когда я писал о Teleport VLX, Offline Explorer Enterprise и HTML Help Workshop , я исходил из того, что Аркадию нужен просто локальный глоссарий, неважно в каком формате.

Благодаря поиску, глоссарии в формате СНМ - очень удобны, весят мало. Единственный недостаток, это невозможность их подключения к ТМ.

К сожалению, как конвертировать HTML в табличный формат, я не знаю. Если бы знал, не задавал бы вопросы о конвертации HTML в Мультитерм.

Осталось найти ответ на вопрос Аркадия: как HTML-файлы конвертировать в табличный формат? А оттуда уже и до Мультитерма недалеко.icon_smile.gif


Отдельное спасибо Сергею Туманову за его подробное руководство:
http://www.proz.com/forum/russian/72534-Импорт_из_multiterm_convert.html

Очень помогает, пользуюсь постоянно. Еще раз огромное СПАСИБИЩЕ, Сергей.


 

Vitali Stanisheuski
Belarus
Local time: 23:25
Member (2005)
English to Russian
+ ...
уточнения Sep 9, 2011

Vitali Stanisheuski wrote:
Установить глубину прохода по ссылкам - 1.

Неточно написал. Если исходной будет страница с 30 ссылками, то глубина - 2, т.к. 1-ми будут страницы со списком статьей, а нужны будут сами статьи.

А вообще можно вручную выделить область со ссылками на каждой из этих страниц, скопировать в Word, из него сделать HTML, и уже задать офлайн-браузеру скачивание с этой страницы, и тут глубина будет 1.


 

Sergei Leshchinsky  Identity Verified
Ukraine
Local time: 22:25
Member (2008)
English to Russian
+ ...
2 Виталий Sep 9, 2011

Похоже, там на каждое вхождение отдельный файл.
Я не знаю объем глоссария, но скачанные 15 тыс. файлов -- это вполне может быть 15 тыс. терминов...

Собрать строку можно, но в ОС существуют ограничения в отношении длины командой строки.


 

Vitali Stanisheuski
Belarus
Local time: 23:25
Member (2005)
English to Russian
+ ...
- Sep 9, 2011

Sergei Leshchinsky wrote:

Похоже, там на каждое вхождение отдельный файл.


Так и есть, слава Богу, файлы эти мелкие, без излишеств.

Sergei Leshchinsky wrote:
в ОС существуют ограничения в отношении длины командой строки.

Тогда без строки.


 

Andriy Bublikov  Identity Verified
Ukraine
Local time: 22:25
Member (2009)
French to Russian
+ ...

Moderator of this forum
Глоссарий в формате СНМ Sep 15, 2011

Если кому-то нужен этот глоссарий в формате СНМ, пишите мне, вышлю.

 


To report site rules violations or get help, contact a site moderator:


You can also contact site staff by submitting a support request »

Как перевести глоссарий в табличный формат

Advanced search


Translation news in Russian Federation





CafeTran Espresso
You've never met a CAT tool this clever!

Translate faster & easier, using a sophisticated CAT tool built by a translator / developer. Accept jobs from clients who use SDL Trados, MemoQ, Wordfast & major CAT tools. Download and start using CafeTran Espresso -- for free

More info »
BaccS – Business Accounting Software
Modern desktop project management for freelance translators

BaccS makes it easy for translators to manage their projects, schedule tasks, create invoices, and view highly customizable reports. User-friendly, ProZ.com integration, community-driven development – a few reasons BaccS is trusted by translators!

More info »



Forums
  • All of ProZ.com
  • Term search
  • Jobs
  • Forums
  • Multiple search