Pages in topic:   [1 2] >
Сканирование и импорт бумажных словарей в MultiTerm
Thread poster: Vladimir Pochinov
Vladimir Pochinov
Vladimir Pochinov  Identity Verified
Russian Federation
Local time: 00:28
English to Russian
Aug 28, 2004

Выполняя обещание, данное Кириллу Семенову ( http://www.proz.com/topic/24124 ), делюсь своим опытом преобразования бумажных словарей для дальнейшего импорта в MultiTerm.

Типичная статья словаря, построенного по алфавитно-гнездовому с�
... See more
Выполняя обещание, данное Кириллу Семенову ( http://www.proz.com/topic/24124 ), делюсь своим опытом преобразования бумажных словарей для дальнейшего импорта в MultiTerm.

Типичная статья словаря, построенного по алфавитно-гнездовому способу (словари с алфавитной структурой создают гораздо меньше проблем), выглядит так:

control 1. регулирование, регулировка (напр. давления) 2. управление 3. контроль 4. орган управления; регулятор ◊ ~ with zero offset астатическое регулирование
absorption ~ абсорбционное управление (реактором)
armature (voltage) ~ регулирование напряжения на якоре (ротора)
direct emergency ~ прямое (диспетчерское) управление нагрузкой

А простейшая структура словарной статьи MultiTerm имеет такой вид (где символ # служит разделителем и может быть заменен табуляцией и т.п.):

EN_TERM#RU_TERM#NOTE

Можно преобразовать словарную статью бумажного словаря в 12 словарных статей словаря MultiTerm (охватывающие все возможные варианты перевода):

control#регулирование
control#регулировка#напр. давления
control#управление
control#контроль
control#орган управления
control#регулятор
control with zero offset#астатическое регулирование
absorption control#абсорбционное управление#реактором
armature control#регулирование напряжения на якоре#ротора
armature voltage control#регулирование напряжения на якоре#ротора
direct emergency control#прямое управление нагрузкой
direct emergency control#прямое диспетчерское управление нагрузкой

Можно объединить все переводы каждого термина в одной статье, тогда получим:

control#регулирование##регулировка#напр. давления#управление##контроль##орган управления##регулятор
control with zero offset#астатическое регулирование
absorption control#абсорбционное управление#реактором
armature control#регулирование напряжения на якоре#ротора
armature voltage control#регулирование напряжения на якоре#ротора
direct emergency control#прямое управление нагрузкой##прямое диспетчерское управление нагрузкой

В этом случае необходимо использовать два разделителя ## после тех русских эквивалентов, которые не сопровождаются примечанием (иначе при импорте в Excel они не попадут в нужную колонку).

После импорта в Excel получим примерно такую таблицу (строка с названиями колонок добавляется уже после импорта):

EN_TERM#RU-TERM#NOTE#RU-TERM#NOTE#RU-TERM#NOTE#RU-TERM#NOTE

В этой таблице строки с переводами терминов armature control и armature voltage control идут друг под другом.

Если вы хотите объединить английские синонимы в одной словарной статье, нужно добавить еще несколько пустых колонок EN_TERM (обычно достаточно 3-4 колонок). В итоге получаем таблицу типа

EN_TERM#EN_TERM#EN_TERM#RU-TERM#NOTE#RU-TERM#NOTE#RU-TERM#NOTE#RU-TERM#NOTE

Удаляем строку с одним из английских терминов, а удаленный термин помещаем во вторую колонку, т.е. оба термина оказываются в одной строке:

EN_TERM#EN_TERM#...
armature control#armature voltage control#...

Возможны и другие варианты структуры словарных статей MultiTerm. У каждого из них могут быть свои достоинста и недостатки. Поэкспериментируйте с микро-словариками из 5-10 словарных статей (как говорится, почувствуйте разницу...).

Я пока остановился на таком варианте (для уменьшения числа словарных статей в MultiTerm). Отдельные словарные статьи создаются для значений под цифрами. Как вы знаете, "в переводах принята следующая система разделительных знаков: синонимы отделены запятой, более далекие по значению эквиваленты - точкой с запятой, разные значения - цифрами". Таким образом, если под одной цифрой даются несколько значений, разделенных запятыми или точками с запятой, то они включаются в одну статью.

В любом случае, при обработке отсканированного текста (я сканирую текст с разрешением 600 dpi, чтобы повысить точность распознавания) необходимо решать ряд вопросов, напр. заменять тильду (~) на соответствующие английские слова.

Я не большой специалист по макросам, но использую некоторые простенькие вещи. Например, в отсканированном тексте все употребления " 2. ", " 3. " и т.п. заменяются знаком начала нового параграфа "^p". В результате все значения под цифрами идут отдельной строкой (мне так их легче потом обрабатывать).

В общем, процесс достаточно муторный (особенно, все подчистки и т.п., которые приходится делать вручную) и требует терпения и времени. "Англо-русский словарь по электротехнике и электроэнергетике" (около 45 000 терминов, 590 стр.) был подготовлен к импорту в MultiTerm за 4 месяца. Для сведения могу сказать, что при этом пять дней в неделю я работал на объекте заказчика (т.е. словарем не занимался) с 07:00 до 13:00. Кроме того, я выполнял переводы по заказам клиентов (в среднем, 15 000 - 20 000 слов в месяц). Думаю, что если работать над словарем весь рабочий день, то можно управиться за 1-2 месяца.

Когда отсканированный и обработанный словарь импортирован в Excel (мой промежуточный формат), можно добавить такие поля (колонки), как Domain (напр. Technical, Finance, Medical), Subject (финансовых словарей это могут быть accounting, banking, insurance, securities), и т.д. Это уже дело вашей фантазии и "(человеческого) воображения"

Ну, а чтобы разобраться с самим процессом импорта из Excel в MultiTerm, почитайте документацию по MultiTerm Convert и MultiTerm.

Вот, пожалуй, и все, а то этот трактат уже грозит превратиться в "Войну и мир"

[Edited at 2004-08-29 04:52]
Collapse


 
Kirill Semenov
Kirill Semenov  Identity Verified
Ukraine
Local time: 01:28
Member (2004)
English to Russian
+ ...
Спасибо! Aug 28, 2004

Спасибо большое, есть что переваривать.

Хотя процесс и правда такой трудоемкий и долгий на вид, что нужно крепко собраться с духом, прежде чем взяться...


 
Svetlana Touloub
Svetlana Touloub  Identity Verified
Local time: 00:28
Dutch to Russian
+ ...
Ой.... Aug 28, 2004

Ой.....страшно-то как.....
А экселевскими форматами не поделитесь, плз....?(
понимаю, что наглость, но не удержаться - так "вкусно" зазываете:)))


 
Vladimir Pochinov
Vladimir Pochinov  Identity Verified
Russian Federation
Local time: 00:28
English to Russian
TOPIC STARTER
Обмен словарными базами данных Aug 29, 2004

Svetlana Touloub wrote:
А экселевскими форматами не поделитесь, плз....?(
понимаю, что наглость, но не удержаться - так "вкусно" зазываете:)))


Делиться своими наработками в одностороннем порядке я пока не собираюсь. Единственный возможный вариант (которым я, правда, еще не пользовался) - обмен на сравнимый по объему другой словарь.

Кстати, если кто-то уже занимался или занимается преобразованием бумажных словарей в электронный формат, мы можем обсудить возможное сотрудничество.

Если 3 человека переделают по одному словарю каждый, а затем обменяются ими, то у каждого будет по три словаря. И будет им хорошо!


 
alexey_kor
alexey_kor
English to Russian
+ ...
про импорт словарей из электронного вида Aug 30, 2004

Добрый день! Наткнулся на эту тему и решил поделится своим опытом. Достался мне как-то словарик «Компьютеры и т.д.» одного издательства в виде размеченного файла Word - т.е., фактически, бумажная книга в электронном варианте. И поиск нужного слова порой приводил меня в бешенс�... See more
Добрый день! Наткнулся на эту тему и решил поделится своим опытом. Достался мне как-то словарик «Компьютеры и т.д.» одного издательства в виде размеченного файла Word - т.е., фактически, бумажная книга в электронном варианте. И поиск нужного слова порой приводил меня в бешенство – через CTRL+F она останавливалась на всех кросс-ссылках, если ползунком искать – и машина тормозит, и проскочить легко, оба способа совмещать – долго... В общем, с неделю я помаялся, потом решил что-то сделать Ручной перенос и форматирование, как у Владимира, я отбросил сразу – неприлично долго. Поигравшись с макросами я ничего не добился. В результате я написал программу на C#. Я это дело вообще люблю В общем, весь процесс у меня занял порядка 5 часов с перерывом на кофе. Я это все делал в своеобразном итеративном режиме – сначала делаю что-то совсем простое (ну, например, разбиваю Enter’ами термины). После чего в программе смотрю, сколько терминов она нашла. Вычитая из известного количества терминов это число, получаем число «ошибочных» (да, бывает и такое – разные варианты разметки, ошибки и т.д.) терминов. Их немного, поэтому вместо усложнения программы я просто в Word’е исправлял ошибки и запускал программу заново. И так далее. Т.е. основная идея – достаточно простой алгоритм программы + ручная правка в Word’е (естественно, с частым-частым использованием Find and Replace). В результате я получил словарь в Multiterm, которым сейчас пользуюсь с удовольствием И всего за пару часиков. Спасибо, что дочитали до концаCollapse


 
Vladimir Pochinov
Vladimir Pochinov  Identity Verified
Russian Federation
Local time: 00:28
English to Russian
TOPIC STARTER
Программирование и переработка отсканированных бумажных словарей Aug 30, 2004

alexey_kor wrote:
Достался мне как-то словарик «Компьютеры и т.д.» одного издательства в виде размеченного файла Word - т.е., фактически, бумажная книга в электронном варианте. В общем, с неделю я помаялся, потом решил что-то сделать Ручной перенос и форматирование, как у Владимира, я отбросил сразу – неприлично долго. Поигравшись с макросами я ничего не добился. В результате я написал программу на C#. В общем, весь процесс у меня занял порядка 5 часов с перерывом на кофе.


Спасибо за информацию, Алексей! Я тоже думаю, что, правильно понимая алгоритм действий, можно написать программу, которая возьмет на себя большую часть работы. К сожалению, моих познаний в программировании для этого маловато

А пробовали ли вы с помощью этой программы обрабатывать страницы отсканированных бумажных словарей (так сказать, "сырой" материал - с опечатками, нераспознанными словами, тильдами, лишними переносами и т.п.)? Если да, то насколько быстро двигалась работы?


 
Aleksandr Okunev (X)
Aleksandr Okunev (X)
Local time: 01:28
English to Russian
2 Aug 30, 2004

Vladimir Pochinov wrote: понимая алгоритм действий, можно написать программу, которая возьмет на себя большую часть работы.


Владимир, остановитесь на достигнутом, очень это трудоемко и, главное, не совсем оправданно. Есть куча готовых словарей и глоссариев, где не хватает двух десятков *ваших* статей.

(Если мои призывы не возымели действия) Можно распознавать в Ворд (нужно высокое качество), и затем обрабатывать текст макросом, опирающимся на форматирование текста и присутствие тильд, двоеточий и т.п. Это, ИМХО, нетрудно и эффективно, по крайней мере для черновой обработки.

Всех благ
Александр


 
Aleksandr Okunev (X)
Aleksandr Okunev (X)
Local time: 01:28
English to Russian
В конкорданс яво! Aug 30, 2004

alexey_kor wrote: И поиск нужного слова порой приводил меня в бешенство – через CTRL+F она останавливалась на всех кросс-ссылках, если ползунком искать – и машина тормозит, и проскочить легко, оба способа совмещать – долго...


В такой ситуации (когда "словарь" сырой, а работать надо) самое быстрое решение - сохранить как текст и сунуть в папку конкорданса. Одно нажатие клавиш выдаст все случаи в документе, в отдельном окне, выделив искомое слово желтым фоном.

Всего наилучшего


 
Victor Sidelnikov
Victor Sidelnikov  Identity Verified
Russian Federation
Local time: 01:28
English to Russian
+ ...
А как? Aug 31, 2004

Aleksandr Okunev wrote:

В такой ситуации (когда \"словарь\" сырой, а работать надо) самое быстрое решение - сохранить как текст и сунуть в папку конкорданса. Одно нажатие клавиш выдаст все случаи в документе, в отдельном окне, выделив искомое слово желтым фоном.

Простите, Александр, а нельзя ли поподробнее: как вы сохраняете текст, чтобы потом можно было использовать F3?


 
Boris Popov
Boris Popov
Local time: 01:28
English to Russian
+ ...
Отвечу за земляка - надеюсь, не обидится... :) Aug 31, 2004

Victor Sidelnikov wrote:

Aleksandr Okunev wrote:

В такой ситуации (когда "словарь" сырой, а работать надо) самое быстрое решение - сохранить как текст и сунуть в папку конкорданса. Одно нажатие клавиш выдаст все случаи в документе, в отдельном окне, выделив искомое слово желтым фоном.

Простите, Александр, а нельзя ли поподробнее: как вы сохраняете текст, чтобы потом можно было использовать F3?




Это одна из функций WordFast, вызывается комбинацией клавиш Ctrl+Alt+N.

Кстати - Александр, Вы связку Wordfast +DNS (Dragon Naturally Speaking) не пробовали? Если да, то сколько DNS нужно учить, чтобы добиться приемлемого качества распознавания?


 
Victor Sidelnikov
Victor Sidelnikov  Identity Verified
Russian Federation
Local time: 01:28
English to Russian
+ ...
Интересно Aug 31, 2004

Boris Popov wrote:

Это одна из функций WordFast, вызывается комбинацией клавиш Ctrl+Alt+N.


Я с WordFast не работаю, не знал, что у него есть такая функция. Т.е. можно запихать любой не переведенный текст. А дальше что - он ищет по типу поиска Ворда?


 
alexey_kor
alexey_kor
English to Russian
+ ...
Ну и еще немного про автоматизацию процесса Aug 31, 2004

Vladimir Pochinov wrote:

Спасибо за информацию, Алексей! Я тоже думаю, что, правильно понимая алгоритм действий, можно написать программу, которая возьмет на себя большую часть работы. К сожалению, моих познаний в программировании для этого маловато

А пробовали ли вы с помощью этой программы обрабатывать страницы отсканированных бумажных словарей (так сказать, "сырой" материал - с опечатками, нераспознанными словами, тильдами, лишними переносами и т.п.)? Если да, то насколько быстро двигалась работы?


Вы знаете - причина-то довольно банальна - у меня сейчас сканера нет вообще. Когда он у меня был (в Москве, я сейчас в Корее живу), меня просто пугали объемы работы - сотни страниц отсканировать, распознать (и причем сложно же остановиться на достигнутом)... В общем, было как-то не до этого. Когда же попался словарь в электронном виде - тут я и стал репу чесать

И пара комментариев:
1. "с помощью этой программы обрабатывать" - понимаете, какая штука - фактически я ту программу писал для себя и на один раз. Из этого следует, что в неё я не закладывал никаких вариантов настройки на различные словари (скажем, сменить разделитель терминов). Т.е. получается, что она на том словаре сработала и всё, можно выкидывать. Остались только общие принципы

2. Насчет "сырого" материала. Расскажу чуть подробнее, что я делал. Есть файл Word. Сначала он очень подробно изучается на предмет выявления структуры словарной статьи (в моем словаре был один основной вариант - почти все слова, и пара вариаций - вместо "~" был "-" и т.п.). Затем средствами Word'а я начинаю все эти погрешности приводить к основной сторуктуре. Впрочем, средствами это сильно сказано, я пользовался только Find-Replace. Обычно, если даже один раз заметил какое-то отклонение от шаблона, то оно обязательно где-то еще вылезет, поэтому руками править замучаешься.
Далее термины разделяются, скажем, 2 переносами строк (до этого шага все СЛУЧАЙНЫЕ двойные, тройные и т.д. переносы тем же самым Find-Replace заменяются на одинарный). После чего под основной шаблон пишется и запускается программа. Она знает сколько терминов всего (просто считает двойные переносы каретки) и знает, на скольких терминах она сработала, т.е. где совпала структура. У меня с первого прохода получилось процентов 70 соответствия. После чего берется первая несработавшая статья, изучается, под неё модифицируется программа (ну или же файл Word, если очевидна ошибка и её ЛЕГКО исправить) и запускается программа снова. Количество нераспознанных терминов снижается в разы. После 4-5 итераций остается буквально 3-4 статьи ну совсем уж левые, которые уже и руками поправить можно.

Вот Основной вывод, который я сделал после этого - бессмысленно брать, сканировать 2-3 странички и затем под них писать программу. Либо не все случаи будут учтены - а это значит, опять что-то искать, вспоминать, что делал и т.д. при распознании всего словаря, либо же будет затрачено тоже самое количество усилий, что и при распознании всего словаря.

Далее, еще немного про "сырой" материал - опечатки - ну, куда ж от них денешься? В чем-то, конечно, Word может помочь со своей проверкой грамматики, но и не более.
Нераспознанные слова - если словарь не сильно потрепанный и процесс сканирования/распознования дает приличные результаты, то тогда вероятность таких слов весьма мала. Ну будет оно, и что? Ну и фиг с ним Главное, что бы не каждое второе.
Тильды - что вы имеете в виду? Это уже проблема программы понимать что тильда значит пропущенное основное слово и вставлять его соответственно, но это все достаточно должно алгоритмизироваться, с этим и приходится возиться.
А вот всякие двойные-тройные пробелы, переносы строк и прочая ПОВТОРЯЮЩАЯСЯ гадость на ура удаляется Find-Replace (Find 10 переносов - Replace на 1, Find 9 переносов - Replace на 1 и т.д.).

Это я всё к тому веду, что процесс сканирование/разпознавание нужно сделать как можно более автоматизированным, никакой вычитки не вести, иначе одуреть можно будет.

Алексей.


 
Aleksandr Okunev (X)
Aleksandr Okunev (X)
Local time: 01:28
English to Russian
Я вернулся Aug 31, 2004

Извините за поздний ответ, к школе готовимся
?????????????????????????????
Простите, Александр, а нельзя ли поподробнее: как вы сохраняете текст, чтобы потом можно было использовать F3?
~~~
Я не использую F3, потому что эта функция Ворда вызыв�
... See more
Извините за поздний ответ, к школе готовимся
?????????????????????????????
Простите, Александр, а нельзя ли поподробнее: как вы сохраняете текст, чтобы потом можно было использовать F3?
~~~
Я не использую F3, потому что эта функция Ворда вызывается Вордфастом по комбинации клавиш. Если завести папку на диске, куда записать один или несколько текстовых файлов нужной тематики, а потом в настройках указать Вордфасту местонахождение этой папки, то при нажатии Ctrl+Alt+N Вордфаст откроет новое окно Ворда, куда выбросит все фрагменты текста, содержащие слово (если курсор стоял на слове, при этом ВФ переспрашивает, хотите ли искать это слово) или выделенный текст, фрагменты включают текст *до и после* ключевого слова/фразы, сам хотимый текст выделен желтым маркером, в документе результатов поиска в свою очередь можно использовать F3, сохранить и т.д. Мне очень помогает.
?????????????????????????????
Кстати - Александр, Вы связку Wordfast +DNS (Dragon Naturally Speaking) не пробовали? Если да, то сколько DNS нужно учить, чтобы добиться приемлемого качества распознавания?
~~~
Пробовал, работает очень хорошо (версия 5.5), но только на английский, русских надстроек я даже не искал, потому что пользоваться дома DNS часто невозможно: все орут и гремят. Если у кого-то первое впечатление от DNS будет отвратительным, не забывайте – его нудно долго и терпеливо обучать, и результаты будут прекрасными. Совместимость с Вордфастом хорошая, только надо не забыть указать имя шаблона DNS (что-то.dot) в списке шаблонов Ворда, которые Вордфаст не прибивает при запуске.
?????????????????????????????
А вообще я мечтаю наконец научится печатать вслепую.
Кстати, кто из присутствующих это умеет и на какой клавиатуре?
Collapse


 
Aleksandr Okunev (X)
Aleksandr Okunev (X)
Local time: 01:28
English to Russian
В качестве удобрения Aug 31, 2004

можно написать программу, которая возьмет на себя большую часть работы. К сожалению, моих познаний в программировании для этого маловато


Для примера: одни ребята зачем-то создали отличный глоссарий, сунули его в PDF, заперли паролем и вывесили в сетке. Глоссарий в 2 столбца, слово - жирным, перевод нежирным! После того, как пароль удалился, осталось скопировать в Ворд и заменить ***жирный*** знак абзаца на табуляцию, при этом нежирные знаки абзаца (новая статья) остались нетронутыми.
Марал: Встроенные функции Ворда - вещь весьма мощная, если хорошо её изучить (это не обо мне).


 
Boris Popov
Boris Popov
Local time: 01:28
English to Russian
+ ...
Есть такое дело... Sep 1, 2004

Aleksandr Okunev wrote:
---skipped---

А вообще я мечтаю наконец научится печатать вслепую.
Кстати, кто из присутствующих это умеет и на какой клавиатуре?

В русской раскладке печатаю вслепую уже года 4 - в свое время полтора месяца ушло на обучение, но ни разу об этом не пожалел.

На английском печатаю "по старинке" - глядя на клавиатуру, достаточно быстро, но хотелось бы еще более оптимизировать процесс, поэтому и поглядываю в сторону DNS.

Клавиатура - не эргономичная, т.е. обычная "доска", но с дополнительными клавишами Cut/Copy/Paste и клавишами управления курсором под пробелом (BTC 8190A).


С уважением,
Борис Попов
Минск, Беларусь


 
Pages in topic:   [1 2] >


To report site rules violations or get help, contact a site moderator:


You can also contact site staff by submitting a support request »

Сканирование и импорт бумажных словарей в MultiTerm


Translation news in Russian Federation





Protemos translation business management system
Create your account in minutes, and start working! 3-month trial for agencies, and free for freelancers!

The system lets you keep client/vendor database, with contacts and rates, manage projects and assign jobs to vendors, issue invoices, track payments, store and manage project files, generate business reports on turnover profit per client/manager etc.

More info »
Anycount & Translation Office 3000
Translation Office 3000

Translation Office 3000 is an advanced accounting tool for freelance translators and small agencies. TO3000 easily and seamlessly integrates with the business life of professional freelance translators.

More info »