Как перевести глоссарий в табличный формат
Thread poster: Arkadi Burkov

Arkadi Burkov  Identity Verified
Belarus
Local time: 10:08
English to Russian
Sep 7, 2011

Уважаемые коллеги!

Подскажите, есть ли способ, позволяющий относительно быстро перевести глоссарий вот такого вида (http://www.rdtex.ru/docs/glossary/) в табличный формат?


Direct link Reply with quote
 

Sergei Leshchinsky  Identity Verified
Ukraine
Local time: 10:08
Member (2008)
English to Russian
+ ...
непростая задача Sep 7, 2011

1) Купить знакомому программисту много заокеанской огненной воды или пива (по вкусу) и он напишет парсер. Но это парсер будет работать на этом конкретном сайте. Для следующего глоссария придется опять бежать в гастроном.

ИЛИ

2) Сам глоссарий можно выкачать в локальную версию. Это будет структура папок с HTML-файлами. Из локального зеркала удалить все картинки и лишние данные и превратить это дело в PDG или CHM с внутренними гиперссылками. Я такое делал пару раз.

[Редактировалось 2011-09-07 14:48 GMT]


Direct link Reply with quote
 

Vitali Stanisheuski
Belarus
Local time: 10:08
Member (2005)
English to Russian
+ ...
примерно таким занимался Sep 7, 2011

полуавтоматический способ:
1) выкачать все нужные страницы спецпрограммой типа офлайн-браузера (напр. Teleport Pro)
2) загнать все файлы в Tageditor и сохранить как ttx
3) склеить в один ttx
4) сохранить как один html
/если знаете как просто склеить кучу файлов html сразу без манипуляций с Tageditor, воспользуйтесь этим способом, я сам был бы рад знать, но на тот момент использовал, что мог/
5) редактировать код полученного html путем "Найти"-"Заменить все", на первых порах огульно удаляя все повторяющиеся ненужные элементы
6) после того как останется нужный минимум (оригинал - перевод), свести к удобной форме для того, чтобы преобразовать все в таблицу; если пару оригинал-перевод все равно разделяет достаточно ненужных элементов, особым образом выделить оригинал-перевод, а остальное удалить (напр. отформатировать оригинал из глоссария и перевод из глоссария выравниванием по правой стороне, а потом задать удаление всего что было с исходной левой стороны - при обработке кода в MS Word)


Direct link Reply with quote
 

Maxim Manzhosin  Identity Verified
Russian Federation
Local time: 10:08
Member (2008)
English to Russian
Все так, только без TagEditor Sep 8, 2011

Vitali Stanisheuski wrote:

2) загнать все файлы в Tageditor и сохранить как ttx
3) склеить в один ttx
4) сохранить как один html


Для склейки TagEditor не нужен, достаточно команды copy /Y *.htm result.html.

Далее в получившемся result.html с помощью поиска и замены удалите все, что не содержится между < title >...< /title > и < p >< b >Перевод: ... < /p >.

Рекомендую использовать для этого не Word, а что-нибудь вроде Funduc Search and Replace.

[Edited at 2011-09-09 08:55 GMT]


Direct link Reply with quote
 

Andriy Bublikov  Identity Verified
Ukraine
Local time: 10:08
Member (2009)
French to Russian
+ ...

Moderator of this forum
Все так, только без гастронома :) Sep 8, 2011

Sergei Leshchinsky wrote:

1) Купить знакомому программисту много заокеанской огненной воды или пива (по вкусу) и он напишет парсер. Но это парсер будет работать на этом конкретном сайте. Для следующего глоссария придется опять бежать в гастроном.

ИЛИ

2) Сам глоссарий можно выкачать в локальную версию. Это будет структура папок с HTML-файлами. Из локального зеркала удалить все картинки и лишние данные и превратить это дело в PDG или CHM с внутренними гиперссылками. Я такое делал пару раз.

[Редактировалось 2011-09-07 14:48 GMT]


Глоссарий в локальную версию можно выкачать при помощи Teleport VLX или Offline Explorer Enterprise.

Дальше описано здесь: http://www.oszone.net/3789

HTML Help Workshop все склеивает сам.

С непривычки первый раз, возможно, придется повозиться. Потом будет легче. Конечно, все это стоит проделывать только в том случае, если глоссарий действительно нужен, иначе не стоит тратить время.

P.S. Было бы небезынтересно узнать, как заснуть скачанные HTML-файлы в MultiTerm.
Если кто-нибудь подскажет, буду весьма признателен.




[Modifié le 2011-09-08 12:56 GMT]


Direct link Reply with quote
 

Sergei Leshchinsky  Identity Verified
Ukraine
Local time: 10:08
Member (2008)
English to Russian
+ ...
Я попробовал, но сдулся... Sep 8, 2011

Arkadi Burkov wrote: глоссарий вот такого вида (http://www.rdtex.ru/docs/glossary/)[/quote]
Мне надоело примерно после скачивания 15 тысяч HTML-файлов. Не знаю, сколько из там оставалось... Сумма меняется динамически по ходу анализа ссылок внутри каждого файла.

Если вам это удастся, то буду рад копии.

Andriy Bublikov wrote: ... если глоссарий действительно нужен, иначе не стоит тратить время

Это ключевые слова.

Maxim Manzhosin wrote:достаточно команды copy 1.html + 2.html + ... + n.html result.html.

Повторяю, мне надоело на 15 тысячах HTML-файлов.
Слишком длинная будет командная строка.

Direct link Reply with quote
 

Sergei Leshchinsky  Identity Verified
Ukraine
Local time: 10:08
Member (2008)
English to Russian
+ ...
Эх,как его перекособочило! Sep 8, 2011

А это уже происходит все чаще...

Direct link Reply with quote
 

Vitali Stanisheuski
Belarus
Local time: 10:08
Member (2005)
English to Russian
+ ...
- Sep 8, 2011

Правильно ли я понял проблемы - 1) скачиваются лишние файлы, 2) утомительно делать длинную строку ?

По п. 1, надо сначала вручную собрать ссылки на каждый из разделов глоссария по алфавиту + "Прочее" (там с цифр начинается). Итого около 30. В настройках офлайн-браузера задать эти 30 ссылок как исходные, а если это невозможно сделать в рамках одного проекта, то вручную создать html-файл с этими 30 ссылками и указать его в офлайн-браузере как исходный. Если локальные файлы не берет, залить куда-нибудь на сервер и указать уже Интернет-адрес. Установить глубину прохода по ссылкам - 1.

По п. 2 - если скачанные файлы действительно нумеруются по порядку, то можно сначала создать список чисел от единицы до нужного (допустим в Excel) и теми же методами "Найти-Заменить" смастерить строку. Хотя если можно обойтись без строки - упоминались программы, чтобы склеить файлы, то, разумеется, лучше просто воспользоваться ими.

[Edited at 2011-09-08 19:24 GMT]


Direct link Reply with quote
 

Vitali Stanisheuski
Belarus
Local time: 10:08
Member (2005)
English to Russian
+ ...
HTML-файлы в MultiTerm Sep 8, 2011

Andriy Bublikov wrote:

Было бы небезынтересно узнать, как заснуть скачанные HTML-файлы в MultiTerm.
Если кто-нибудь подскажет, буду весьма признателен.


Да вот, видимо, никак. Сначала надо обработать эти HTML до табличной формы, а уж дальше полученное использовать для конвертации в MultiTerm.


Direct link Reply with quote
 

Sergei Tumanov  Identity Verified
Local time: 10:08
English to Russian
+ ...
Если есть экселевский файл, то Sep 8, 2011

в Мультитерм его засунуть проще простого.

Direct link Reply with quote
 

Andriy Bublikov  Identity Verified
Ukraine
Local time: 10:08
Member (2009)
French to Russian
+ ...

Moderator of this forum
Табличный формат Sep 8, 2011

Когда я писал о Teleport VLX, Offline Explorer Enterprise и HTML Help Workshop , я исходил из того, что Аркадию нужен просто локальный глоссарий, неважно в каком формате.

Благодаря поиску, глоссарии в формате СНМ - очень удобны, весят мало. Единственный недостаток, это невозможность их подключения к ТМ.

К сожалению, как конвертировать HTML в табличный формат, я не знаю. Если бы знал, не задавал бы вопросы о конвертации HTML в Мультитерм.

Осталось найти ответ на вопрос Аркадия: как HTML-файлы конвертировать в табличный формат? А оттуда уже и до Мультитерма недалеко.


Отдельное спасибо Сергею Туманову за его подробное руководство:
http://www.proz.com/forum/russian/72534-Импорт_из_multiterm_convert.html

Очень помогает, пользуюсь постоянно. Еще раз огромное СПАСИБИЩЕ, Сергей.


Direct link Reply with quote
 

Vitali Stanisheuski
Belarus
Local time: 10:08
Member (2005)
English to Russian
+ ...
уточнения Sep 9, 2011

Vitali Stanisheuski wrote:
Установить глубину прохода по ссылкам - 1.

Неточно написал. Если исходной будет страница с 30 ссылками, то глубина - 2, т.к. 1-ми будут страницы со списком статьей, а нужны будут сами статьи.

А вообще можно вручную выделить область со ссылками на каждой из этих страниц, скопировать в Word, из него сделать HTML, и уже задать офлайн-браузеру скачивание с этой страницы, и тут глубина будет 1.


Direct link Reply with quote
 

Sergei Leshchinsky  Identity Verified
Ukraine
Local time: 10:08
Member (2008)
English to Russian
+ ...
2 Виталий Sep 9, 2011

Похоже, там на каждое вхождение отдельный файл.
Я не знаю объем глоссария, но скачанные 15 тыс. файлов -- это вполне может быть 15 тыс. терминов...

Собрать строку можно, но в ОС существуют ограничения в отношении длины командой строки.


Direct link Reply with quote
 

Vitali Stanisheuski
Belarus
Local time: 10:08
Member (2005)
English to Russian
+ ...
- Sep 9, 2011

Sergei Leshchinsky wrote:

Похоже, там на каждое вхождение отдельный файл.


Так и есть, слава Богу, файлы эти мелкие, без излишеств.

Sergei Leshchinsky wrote:
в ОС существуют ограничения в отношении длины командой строки.

Тогда без строки.


Direct link Reply with quote
 

Andriy Bublikov  Identity Verified
Ukraine
Local time: 10:08
Member (2009)
French to Russian
+ ...

Moderator of this forum
Глоссарий в формате СНМ Sep 15, 2011

Если кому-то нужен этот глоссарий в формате СНМ, пишите мне, вышлю.

Direct link Reply with quote
 


To report site rules violations or get help, contact a site moderator:


You can also contact site staff by submitting a support request »

Как перевести глоссарий в табличный формат

Advanced search


Translation news in Russian Federation





SDL Trados Studio 2017 only €495 / $595
Get the cheapest prices for SDL Trados Studio 2017 on ProZ.com

Join this translator’s group buy brought to you by ProZ.com and buy SDL Trados Studio 2017 Freelance for only €495 / $595 / £425 / ¥70,000 You will also receive FREE access to Studio 2019 when released.

More info »
PerfectIt consistency checker
Faster Checking, Greater Accuracy

PerfectIt helps deliver error-free documents. It improves consistency, ensures quality and helps to enforce style guides. It’s a powerful tool for pro users, and comes with the assurance of a 30-day money back guarantee.

More info »



Forums
  • All of ProZ.com
  • Term search
  • Jobs
  • Forums
  • Multiple search