https://www.proz.com/forum/russian/39898-pdf_%E4%EB%FF_%F0%E0%E1%EE%F2%FB_%F1_%D2rados.html

Pages in topic:   [1 2] >
PDF для работы с ТRADOS
Thread poster: Svetlana Touloub
Svetlana Touloub
Svetlana Touloub  Identity Verified
Local time: 15:10
Dutch to Russian
+ ...
Dec 5, 2005

Коллеги, первый раз столкнулась с тем, что надо работать с ПДФ-файлом. Прогнала его через Файн-Ридер - получилась "грязь".
Какие еще есть способы, чтобы получить нормального качества файл для дальнейшей работы с ним в Традосе?
Дополнительные программы роли не играют - только дайте название, а там разберусь и найду.
Текст на английском, есть немного диакритики.
Заранее всем спасибо!


 
Alexander Onishko
Alexander Onishko  Identity Verified
Russian to English
+ ...
а что значит - "прогнала через Finereader " ? Dec 5, 2005

у меня всегда хорошо распознаются pdf файлы

 
Boris Kimel
Boris Kimel  Identity Verified
Israel
Local time: 16:10
English to Russian
+ ...
Ручная работа Dec 5, 2005

Мне предоставляют по большей части обработанные руками вордовские документы - видимо, заказчик знает, где сделать это дешево и быстро. Перевод отправляется обратно на форматирование, которое почти идеально те же ребята делают за несколько часов (страниц так 50).

Посл
... See more
Мне предоставляют по большей части обработанные руками вордовские документы - видимо, заказчик знает, где сделать это дешево и быстро. Перевод отправляется обратно на форматирование, которое почти идеально те же ребята делают за несколько часов (страниц так 50).

Последние версии FineReadera распознают хорошо, но форматирование надо убивать и делать заново. Если распознавать вообще не нужно (то есть в PDF'е есть текст, а не сканированные оригиналы), то можно воспользоваться программой Solid PDF Converter - www.solidpdf.com
Collapse


 
Svetlana Touloub
Svetlana Touloub  Identity Verified
Local time: 15:10
Dutch to Russian
+ ...
TOPIC STARTER
Файн-Ридер Dec 5, 2005

Прогнала через Файн-Ридер - просто запустила программу и включила распознование. Форматирование пошло все наперекосяк.
Это текст со скриншотами, затем есть несколько страниц текста в колонках - тут полный кошмар.Все разъехалось непонятно куда.
Есть и таблицы - они тоже "криво" получились.
В общем - начались страдания. Сразу хочу сказать - это не коммерческий заказ, перевод для коллег.Поэтому "обратно" никому послать не могу - придется все делать самой.


 
Kirill Semenov
Kirill Semenov  Identity Verified
Ukraine
Local time: 16:10
Member (2004)
English to Russian
+ ...
Для начала... Dec 5, 2005

Svetlana Touloub wrote:
Коллеги, первый раз столкнулась с тем, что надо работать с ПДФ-файлом.


Для начала можете просто попробовать в Акробате Select All, Ctrl+C, потом Ctrl+V в пустой Word-файл. Довольно часто получается. Если я правильно помню, может понадобиться переносить постранично.

Если у текста в PDF не очень сложная структура - например, просто текст в одну-две колонки, то вполне сгодится. Но если потом хотите работать в CAT, то, как Борис справедливо отметил, в любом случае придётся пройтись вручную, убрать лишние разделительные знаки.

А лично я пользуюсь ABBYY PDF Converter.


 
Radian Yazynin
Radian Yazynin  Identity Verified
Local time: 16:10
Member (2004)
English to Russian
+ ...
Не так то просто Dec 5, 2005

Kirill Semenov wrote:

Для начала можете просто попробовать в Акробате Select All, Ctrl+C, потом Ctrl+V в пустой Word-файл.


Это если текст там еще "жив" и не идет как графика. А потом при копировании текста в пустой Ворд ПДФ, не хороший такой, берет и "сцепляет слова" после копирования и получается типа "данноеописаниесоставлено". Можно и не заметить. Не все подряд, но все же муторно исправлять.

[Edited at 2005-12-05 17:14]


 
Kirill Semenov
Kirill Semenov  Identity Verified
Ukraine
Local time: 16:10
Member (2004)
English to Russian
+ ...
Я не говорю, что просто :) Dec 5, 2005

Radian Yazynin wrote:
Kirill Semenov wrote:
Для начала можете просто попробовать в Акробате Select All, Ctrl+C, потом Ctrl+V в пустой Word-файл.

Это если текст там еще "жив" и не идет как графика. А потом при копировании текста в пустой Ворд ПДФ, не хороший такой, берет и "сцепляет слова" после копирования и получается типа "данноеописаниесоставлено". Можно и не заметить. Не все подряд, но все же муторно исправлять.


Всё верно, но попробовать можно, это быстро. В половине случаев у меня лично получались вполне приемлемые .doc файлы. Ещё какое-то время повозиться со знаками параграфа - и порядок, можно втаскивать в CAT. Но я сразу сказал, что это при относительно простой структуре. В паре случаев текст у меня копировался, но состоял из кучи коротких фрагментов в разных местах PDF, так они просто скопировались в Word в диком беспорядке. Каждый кусочек отдельным параграфом, но в такой последовательности, что разобрать ничего нельзя было.

С тех пор, как ABBYY PDF Transformer появился, проблем стало намного меньше, хотя он подчас тоже жуткие штуки выдаёт.


 
Vitali Stanisheuski
Vitali Stanisheuski
Belarus
Local time: 16:10
Member (2005)
English to Russian
+ ...
SITE LOCALIZER
Дополнительный теоретический совет Dec 5, 2005

К Fine Reader прилагается Form Filler - с его помощью можно заранее задать структуру документа и в соответствии с таковой текст будет растусовываться в соответствующие блоки при сканировании-распознавании.

Напр., страница с 2-мя колонками текста и узким промежутком. Иногда Fine
... See more
К Fine Reader прилагается Form Filler - с его помощью можно заранее задать структуру документа и в соответствии с таковой текст будет растусовываться в соответствующие блоки при сканировании-распознавании.

Напр., страница с 2-мя колонками текста и узким промежутком. Иногда Fine Reader может сделать из этого одноколоночный текст (т.е. в каждой строке якобы длинный пробел посередине) или даже сделать 2-колоночным, но при наличии 2-х абзацев на одном уровне друг напротив друга может объединить их в один блок.
При использовании Form Filler можно задать 2 колонки и текст будет точно по этим 2-м колонкам.

К сожалению, практически я этого еще не делал - проблема стала неактуальна, а уж дальше и просто руки не дошли.
Collapse


 
Vitali Stanisheuski
Vitali Stanisheuski
Belarus
Local time: 16:10
Member (2005)
English to Russian
+ ...
SITE LOCALIZER
Кстати, тоже интересно Dec 5, 2005

Хотел бы узнать у коллег, пользующихся Конвертером и/или Транформером - не делают ли они из одного цельного абзаца набор нескольких однострочных абзацев, как это случается при сохранении в Ворд или при копировании-вставке (и даже иногда при сканировании-распознавании)? Это довольно-таки насущная проблема, особенно это критично при переводе с CAT-tools - невозможно ведь будет нормально работать, т.к. Trados будет считать получившиеся обрывки предложений сегментами.

 
Igor Kreknin
Igor Kreknin  Identity Verified
Local time: 16:10
English to Russian
+ ...
названия: Dec 5, 2005

Svetlana Touloub wrote:
только дайте название


В принципе, Adobe Acrobat 7.0 Professional сохраняет PDF прямо в MS Word:

Save AS >> Microsoft Word Document (*.doc)


Ещё здесь не упоминался конвертер PDF Converter
Professional 3 http://www.scansoft.co.uk/pdfconverter/professional/

Это конкурент упомянутого Solid PDF Converter.


FineReader желательно использовать именно последней 8-й версии. В этой версии ABBYY ввела новшество -- программа может не распознавать текст, а считывать его, если в PDF, конечно, он есть, т.е. в PDF не только изображение текста, но и сам текст (в шрифтовом формате).

Эта опция в меню FR8:
Сервис >> Опции >> 2. Распознать >>
и далее делаете выбор
- Извлечь текст из PDF документа
или
- Распознать PDF как изображение

Но скриншоты, конечно, это только изображение. Значит, здесь может помочь только графическое распознавание FineReader.

[Edited at 2005-12-05 18:55]


 
mk_lab
mk_lab  Identity Verified
Ukraine
Local time: 16:10
Member (2004)
English to Russian
+ ...
Почти в тему Dec 5, 2005

Kirill Semenov wrote:
...это при относительно простой структуре.


У меня прямо сейчас какая-то дикая фантастика получается. Текст из PDF-файла при любом методе конвертации (простое копирование, Solid PDF Converter, PDF2Word..., а Fine Reader его почему-то "не съел"), преобразуется таким образом, что порядок букв в боксиках меняется на обратный, например "аммаргорп яашчул яамас - taborcA ebodA".

Наверняка файл был конвертирован в PDF из какого-то другого приложения. Возился-возился, да и плюнул - делаю все руками.


 
Kirill Semenov
Kirill Semenov  Identity Verified
Ukraine
Local time: 16:10
Member (2004)
English to Russian
+ ...
Иврит? :) Dec 5, 2005

mk_lab wrote:
У меня прямо сейчас какая-то дикая фантастика получается. Текст из PDF-файла при любом методе конвертации (простое копирование, Solid PDF Converter, PDF2Word..., а Fine Reader его почему-то "не съел"), преобразуется таким образом, что порядок букв в боксиках меняется на обратный, например "аммаргорп яашчул яамас - taborcA ebodA".


Всякая "ebodA" наводит на мысли, что PDF могли создать в Израиле. Мне приходится порой возиться с текстами, где иврит замешан, там такие крендели в Word бывают, что не знаешь, на какие клавиши давить. Одни параграфы в одну сторону, другие в другую, даже стрелочками курсор передвинуть - уже беда.


 
Svetlana Touloub
Svetlana Touloub  Identity Verified
Local time: 15:10
Dutch to Russian
+ ...
TOPIC STARTER
Спасибо всем! Dec 5, 2005

Спасибо всем, кто откликнулся!
Буду пробовать.
Извините, что сразу не ответила - только что вернулась с работы.
У меня сейчас запарка образовалась - для курсов приходится самой текст сканировать, вычитывать, а потом делать подстрочник. Глаза уже в кучку собираются. Я думала, что с ПДФ проще будет, ан нет....Ну, я всю информацию мужу передала - пусть теперь с программами колдует:)))))


 
Svetlana Touloub
Svetlana Touloub  Identity Verified
Local time: 15:10
Dutch to Russian
+ ...
TOPIC STARTER
О, а у меня, оказывается, новости Dec 5, 2005

О, а у меня, оказывается, новости - пока я на работе была, муж прогнал файл через Адобе, результат довольно неплохой - но.....Та часть, в которой текст был в колонках - оказался в Ворде в качестве картинки. То есть в текст войти не могу. Это примерно четвертая часть всего файла. Что... See more
О, а у меня, оказывается, новости - пока я на работе была, муж прогнал файл через Адобе, результат довольно неплохой - но.....Та часть, в которой текст был в колонках - оказался в Ворде в качестве картинки. То есть в текст войти не могу. Это примерно четвертая часть всего файла. Что можно сделать теперь?
То есть файл ПДФ теперь стал файлом Ворд, но часть отображается в "картинке", доступа к тексту нет.
Есть идеи?

Кстати, диакритика все равно "кривая" получилась, но получше, чем после прогона через Ридер...
Collapse


 
Igor Kreknin
Igor Kreknin  Identity Verified
Local time: 16:10
English to Russian
+ ...
Идея пока только одна: Dec 6, 2005

Svetlana Touloub wrote:
То есть файл ПДФ теперь стал файлом Ворд, но часть отображается в "картинке", доступа к тексту нет.
Есть идеи?


Это отсканированный фрагмент текста. Т.е. отсканировали текст, получили рисунок с текстом в виде изображения, этот рисунок и вставили в PDF.

Эти страницы необходимо распознать в FineReader'е как изображение и затем вставить на своё место в файл Word'а.

Т.е. в самом тяжелом случае, когда текст в PDF был сохранён в виде изображения (а не в виде обычного шрифтового текста), без FR всё же не обойтись.

[Edited at 2005-12-06 05:48]


 
Pages in topic:   [1 2] >


To report site rules violations or get help, contact a site moderator:


You can also contact site staff by submitting a support request »

PDF для работы с ТRADOS


Translation news in Russian Federation





Trados Business Manager Lite
Create customer quotes and invoices from within Trados Studio

Trados Business Manager Lite helps to simplify and speed up some of the daily tasks, such as invoicing and reporting, associated with running your freelance translation business.

More info »
Trados Studio 2022 Freelance
The leading translation software used by over 270,000 translators.

Designed with your feedback in mind, Trados Studio 2022 delivers an unrivalled, powerful desktop and cloud solution, empowering you to work in the most efficient and cost-effective way.

More info »