Mobile menu

Pages in topic:   [1 2] >
PDF для работы с ТRADOS
Thread poster: Svetlana Touloub

Svetlana Touloub  Identity Verified
Local time: 22:55
Dutch to Russian
+ ...
Dec 5, 2005

Коллеги, первый раз столкнулась с тем, что надо работать с ПДФ-файлом. Прогнала его через Файн-Ридер - получилась "грязь".
Какие еще есть способы, чтобы получить нормального качества файл для дальнейшей работы с ним в Традосе?
Дополнительные программы роли не играют - только дайте название, а там разберусь и найду.
Текст на английском, есть немного диакритики.
Заранее всем спасибо!


Direct link Reply with quote
 

Alexander Onishko  Identity Verified
Local time: 23:55
Member (2007)
Russian to English
+ ...
а что значит - "прогнала через Finereader " ? Dec 5, 2005

у меня всегда хорошо распознаются pdf файлы

Direct link Reply with quote
 

Boris Kimel  Identity Verified
Russian Federation
Local time: 00:55
English to Russian
+ ...
Ручная работа Dec 5, 2005

Мне предоставляют по большей части обработанные руками вордовские документы - видимо, заказчик знает, где сделать это дешево и быстро. Перевод отправляется обратно на форматирование, которое почти идеально те же ребята делают за несколько часов (страниц так 50).

Последние версии FineReadera распознают хорошо, но форматирование надо убивать и делать заново. Если распознавать вообще не нужно (то есть в PDF'е есть текст, а не сканированные оригиналы), то можно воспользоваться программой Solid PDF Converter - www.solidpdf.com


Direct link Reply with quote
 

Svetlana Touloub  Identity Verified
Local time: 22:55
Dutch to Russian
+ ...
TOPIC STARTER
Файн-Ридер Dec 5, 2005

Прогнала через Файн-Ридер - просто запустила программу и включила распознование. Форматирование пошло все наперекосяк.
Это текст со скриншотами, затем есть несколько страниц текста в колонках - тут полный кошмар.Все разъехалось непонятно куда.
Есть и таблицы - они тоже "криво" получились.
В общем - начались страдания. Сразу хочу сказать - это не коммерческий заказ, перевод для коллег.Поэтому "обратно" никому послать не могу - придется все делать самой.


Direct link Reply with quote
 

Kirill Semenov  Identity Verified
Ukraine
Local time: 23:55
Member (2004)
English to Russian
+ ...
Для начала... Dec 5, 2005

Svetlana Touloub wrote:
Коллеги, первый раз столкнулась с тем, что надо работать с ПДФ-файлом.


Для начала можете просто попробовать в Акробате Select All, Ctrl+C, потом Ctrl+V в пустой Word-файл. Довольно часто получается. Если я правильно помню, может понадобиться переносить постранично.

Если у текста в PDF не очень сложная структура - например, просто текст в одну-две колонки, то вполне сгодится. Но если потом хотите работать в CAT, то, как Борис справедливо отметил, в любом случае придётся пройтись вручную, убрать лишние разделительные знаки.

А лично я пользуюсь ABBYY PDF Converter.


Direct link Reply with quote
 

Radian Yazynin  Identity Verified
Local time: 00:55
Member (2004)
English to Russian
+ ...
Не так то просто Dec 5, 2005

Kirill Semenov wrote:

Для начала можете просто попробовать в Акробате Select All, Ctrl+C, потом Ctrl+V в пустой Word-файл.


Это если текст там еще "жив" и не идет как графика. А потом при копировании текста в пустой Ворд ПДФ, не хороший такой, берет и "сцепляет слова" после копирования и получается типа "данноеописаниесоставлено". Можно и не заметить. Не все подряд, но все же муторно исправлять.

[Edited at 2005-12-05 17:14]


Direct link Reply with quote
 

Kirill Semenov  Identity Verified
Ukraine
Local time: 23:55
Member (2004)
English to Russian
+ ...
Я не говорю, что просто :) Dec 5, 2005

Radian Yazynin wrote:
Kirill Semenov wrote:
Для начала можете просто попробовать в Акробате Select All, Ctrl+C, потом Ctrl+V в пустой Word-файл.

Это если текст там еще "жив" и не идет как графика. А потом при копировании текста в пустой Ворд ПДФ, не хороший такой, берет и "сцепляет слова" после копирования и получается типа "данноеописаниесоставлено". Можно и не заметить. Не все подряд, но все же муторно исправлять.


Всё верно, но попробовать можно, это быстро. В половине случаев у меня лично получались вполне приемлемые .doc файлы. Ещё какое-то время повозиться со знаками параграфа - и порядок, можно втаскивать в CAT. Но я сразу сказал, что это при относительно простой структуре. В паре случаев текст у меня копировался, но состоял из кучи коротких фрагментов в разных местах PDF, так они просто скопировались в Word в диком беспорядке. Каждый кусочек отдельным параграфом, но в такой последовательности, что разобрать ничего нельзя было.

С тех пор, как ABBYY PDF Transformer появился, проблем стало намного меньше, хотя он подчас тоже жуткие штуки выдаёт.


Direct link Reply with quote
 

Vitali Stanisheuski  Identity Verified
Belarus
Local time: 00:55
Member (2005)
English to Belarusian
+ ...
Дополнительный теоретический совет Dec 5, 2005

К Fine Reader прилагается Form Filler - с его помощью можно заранее задать структуру документа и в соответствии с таковой текст будет растусовываться в соответствующие блоки при сканировании-распознавании.

Напр., страница с 2-мя колонками текста и узким промежутком. Иногда Fine Reader может сделать из этого одноколоночный текст (т.е. в каждой строке якобы длинный пробел посередине) или даже сделать 2-колоночным, но при наличии 2-х абзацев на одном уровне друг напротив друга может объединить их в один блок.
При использовании Form Filler можно задать 2 колонки и текст будет точно по этим 2-м колонкам.

К сожалению, практически я этого еще не делал - проблема стала неактуальна, а уж дальше и просто руки не дошли.


Direct link Reply with quote
 

Vitali Stanisheuski  Identity Verified
Belarus
Local time: 00:55
Member (2005)
English to Belarusian
+ ...
Кстати, тоже интересно Dec 5, 2005

Хотел бы узнать у коллег, пользующихся Конвертером и/или Транформером - не делают ли они из одного цельного абзаца набор нескольких однострочных абзацев, как это случается при сохранении в Ворд или при копировании-вставке (и даже иногда при сканировании-распознавании)? Это довольно-таки насущная проблема, особенно это критично при переводе с CAT-tools - невозможно ведь будет нормально работать, т.к. Trados будет считать получившиеся обрывки предложений сегментами.

Direct link Reply with quote
 

Igor Kreknin  Identity Verified
Local time: 23:55
English to Russian
+ ...
названия: Dec 5, 2005

Svetlana Touloub wrote:
только дайте название


В принципе, Adobe Acrobat 7.0 Professional сохраняет PDF прямо в MS Word:

Save AS >> Microsoft Word Document (*.doc)


Ещё здесь не упоминался конвертер PDF Converter
Professional 3 http://www.scansoft.co.uk/pdfconverter/professional/

Это конкурент упомянутого Solid PDF Converter.


FineReader желательно использовать именно последней 8-й версии. В этой версии ABBYY ввела новшество -- программа может не распознавать текст, а считывать его, если в PDF, конечно, он есть, т.е. в PDF не только изображение текста, но и сам текст (в шрифтовом формате).

Эта опция в меню FR8:
Сервис >> Опции >> 2. Распознать >>
и далее делаете выбор
- Извлечь текст из PDF документа
или
- Распознать PDF как изображение

Но скриншоты, конечно, это только изображение. Значит, здесь может помочь только графическое распознавание FineReader.

[Edited at 2005-12-05 18:55]


Direct link Reply with quote
 

mk_lab  Identity Verified
Ukraine
Local time: 23:55
Member (2004)
English to Russian
+ ...
Почти в тему Dec 5, 2005

Kirill Semenov wrote:
...это при относительно простой структуре.


У меня прямо сейчас какая-то дикая фантастика получается. Текст из PDF-файла при любом методе конвертации (простое копирование, Solid PDF Converter, PDF2Word..., а Fine Reader его почему-то "не съел"), преобразуется таким образом, что порядок букв в боксиках меняется на обратный, например "аммаргорп яашчул яамас - taborcA ebodA".

Наверняка файл был конвертирован в PDF из какого-то другого приложения. Возился-возился, да и плюнул - делаю все руками.


Direct link Reply with quote
 

Kirill Semenov  Identity Verified
Ukraine
Local time: 23:55
Member (2004)
English to Russian
+ ...
Иврит? :) Dec 5, 2005

mk_lab wrote:
У меня прямо сейчас какая-то дикая фантастика получается. Текст из PDF-файла при любом методе конвертации (простое копирование, Solid PDF Converter, PDF2Word..., а Fine Reader его почему-то "не съел"), преобразуется таким образом, что порядок букв в боксиках меняется на обратный, например "аммаргорп яашчул яамас - taborcA ebodA".


Всякая "ebodA" наводит на мысли, что PDF могли создать в Израиле. Мне приходится порой возиться с текстами, где иврит замешан, там такие крендели в Word бывают, что не знаешь, на какие клавиши давить. Одни параграфы в одну сторону, другие в другую, даже стрелочками курсор передвинуть - уже беда.


Direct link Reply with quote
 

Svetlana Touloub  Identity Verified
Local time: 22:55
Dutch to Russian
+ ...
TOPIC STARTER
Спасибо всем! Dec 5, 2005

Спасибо всем, кто откликнулся!
Буду пробовать.
Извините, что сразу не ответила - только что вернулась с работы.
У меня сейчас запарка образовалась - для курсов приходится самой текст сканировать, вычитывать, а потом делать подстрочник. Глаза уже в кучку собираются. Я думала, что с ПДФ проще будет, ан нет....Ну, я всю информацию мужу передала - пусть теперь с программами колдует:)))))


Direct link Reply with quote
 

Svetlana Touloub  Identity Verified
Local time: 22:55
Dutch to Russian
+ ...
TOPIC STARTER
О, а у меня, оказывается, новости Dec 5, 2005

О, а у меня, оказывается, новости - пока я на работе была, муж прогнал файл через Адобе, результат довольно неплохой - но.....Та часть, в которой текст был в колонках - оказался в Ворде в качестве картинки. То есть в текст войти не могу. Это примерно четвертая часть всего файла. Что можно сделать теперь?
То есть файл ПДФ теперь стал файлом Ворд, но часть отображается в "картинке", доступа к тексту нет.
Есть идеи?

Кстати, диакритика все равно "кривая" получилась, но получше, чем после прогона через Ридер...


Direct link Reply with quote
 

Igor Kreknin  Identity Verified
Local time: 23:55
English to Russian
+ ...
Идея пока только одна: Dec 6, 2005

Svetlana Touloub wrote:
То есть файл ПДФ теперь стал файлом Ворд, но часть отображается в "картинке", доступа к тексту нет.
Есть идеи?


Это отсканированный фрагмент текста. Т.е. отсканировали текст, получили рисунок с текстом в виде изображения, этот рисунок и вставили в PDF.

Эти страницы необходимо распознать в FineReader'е как изображение и затем вставить на своё место в файл Word'а.

Т.е. в самом тяжелом случае, когда текст в PDF был сохранён в виде изображения (а не в виде обычного шрифтового текста), без FR всё же не обойтись.

[Edited at 2005-12-06 05:48]


Direct link Reply with quote
 
Pages in topic:   [1 2] >


To report site rules violations or get help, contact a site moderator:


You can also contact site staff by submitting a support request »

PDF для работы с ТRADOS

Advanced search


Translation news in Russian Federation





Déjà Vu X3
Try it, Love it

Find out why Déjà Vu is today the most flexible, customizable and user-friendly tool on the market. See the brand new features in action: *Completely redesigned user interface *Live Preview *Inline spell checking *Inline

More info »
TM-Town
Manage your TMs and Terms ... and boost your translation business

Are you ready for something fresh in the industry? TM-Town is a unique new site for you -- the freelance translator -- to store, manage and share translation memories (TMs) and glossaries...and potentially meet new clients on the basis of your prior work.

More info »



All of ProZ.com
  • All of ProZ.com
  • Term search
  • Jobs