Pages in topic:   [1 2] >
PDF для работы с ТRADOS
Thread poster: Svetlana Touloub

Svetlana Touloub  Identity Verified
Local time: 15:21
Dutch to Russian
+ ...
Dec 5, 2005

Коллеги, первый раз столкнулась с тем, что надо работать с ПДФ-файлом. Прогнала его через Файн-Ридер - получилась "грязь".
Какие еще есть способы, чтобы получить нормального качества файл для дальнейшей работы с ним в Традосе?
Дополнительные программы роли не играют - только дайте название, а там разберусь и найду.
Текст на английском, есть немного диакритики.
Заранее всем спасибо!


Direct link Reply with quote
 

Alexander Onishko  Identity Verified
Local time: 16:21
Member (2007)
Russian to English
+ ...
а что значит - "прогнала через Finereader " ? Dec 5, 2005

у меня всегда хорошо распознаются pdf файлы

Direct link Reply with quote
 

Boris Kimel  Identity Verified
Russian Federation
Local time: 16:21
English to Russian
+ ...
Ручная работа Dec 5, 2005

Мне предоставляют по большей части обработанные руками вордовские документы - видимо, заказчик знает, где сделать это дешево и быстро. Перевод отправляется обратно на форматирование, которое почти идеально те же ребята делают за несколько часов (страниц так 50).

Последние версии FineReadera распознают хорошо, но форматирование надо убивать и делать заново. Если распознавать вообще не нужно (то есть в PDF'е есть текст, а не сканированные оригиналы), то можно воспользоваться программой Solid PDF Converter - www.solidpdf.com


Direct link Reply with quote
 

Svetlana Touloub  Identity Verified
Local time: 15:21
Dutch to Russian
+ ...
TOPIC STARTER
Файн-Ридер Dec 5, 2005

Прогнала через Файн-Ридер - просто запустила программу и включила распознование. Форматирование пошло все наперекосяк.
Это текст со скриншотами, затем есть несколько страниц текста в колонках - тут полный кошмар.Все разъехалось непонятно куда.
Есть и таблицы - они тоже "криво" получились.
В общем - начались страдания. Сразу хочу сказать - это не коммерческий заказ, перевод для коллег.Поэтому "обратно" никому послать не могу - придется все делать самой.


Direct link Reply with quote
 

Kirill Semenov  Identity Verified
Ukraine
Local time: 16:21
Member (2004)
English to Russian
+ ...
Для начала... Dec 5, 2005

Svetlana Touloub wrote:
Коллеги, первый раз столкнулась с тем, что надо работать с ПДФ-файлом.


Для начала можете просто попробовать в Акробате Select All, Ctrl+C, потом Ctrl+V в пустой Word-файл. Довольно часто получается. Если я правильно помню, может понадобиться переносить постранично.

Если у текста в PDF не очень сложная структура - например, просто текст в одну-две колонки, то вполне сгодится. Но если потом хотите работать в CAT, то, как Борис справедливо отметил, в любом случае придётся пройтись вручную, убрать лишние разделительные знаки.

А лично я пользуюсь ABBYY PDF Converter.


Direct link Reply with quote
 

Radian Yazynin  Identity Verified
Local time: 16:21
Member (2004)
English to Russian
+ ...
Не так то просто Dec 5, 2005

Kirill Semenov wrote:

Для начала можете просто попробовать в Акробате Select All, Ctrl+C, потом Ctrl+V в пустой Word-файл.


Это если текст там еще "жив" и не идет как графика. А потом при копировании текста в пустой Ворд ПДФ, не хороший такой, берет и "сцепляет слова" после копирования и получается типа "данноеописаниесоставлено". Можно и не заметить. Не все подряд, но все же муторно исправлять.

[Edited at 2005-12-05 17:14]


Direct link Reply with quote
 

Kirill Semenov  Identity Verified
Ukraine
Local time: 16:21
Member (2004)
English to Russian
+ ...
Я не говорю, что просто :) Dec 5, 2005

Radian Yazynin wrote:
Kirill Semenov wrote:
Для начала можете просто попробовать в Акробате Select All, Ctrl+C, потом Ctrl+V в пустой Word-файл.

Это если текст там еще "жив" и не идет как графика. А потом при копировании текста в пустой Ворд ПДФ, не хороший такой, берет и "сцепляет слова" после копирования и получается типа "данноеописаниесоставлено". Можно и не заметить. Не все подряд, но все же муторно исправлять.


Всё верно, но попробовать можно, это быстро. В половине случаев у меня лично получались вполне приемлемые .doc файлы. Ещё какое-то время повозиться со знаками параграфа - и порядок, можно втаскивать в CAT. Но я сразу сказал, что это при относительно простой структуре. В паре случаев текст у меня копировался, но состоял из кучи коротких фрагментов в разных местах PDF, так они просто скопировались в Word в диком беспорядке. Каждый кусочек отдельным параграфом, но в такой последовательности, что разобрать ничего нельзя было.

С тех пор, как ABBYY PDF Transformer появился, проблем стало намного меньше, хотя он подчас тоже жуткие штуки выдаёт.


Direct link Reply with quote
 

Vitali Stanisheuski  Identity Verified
Belarus
Local time: 16:21
Member (2005)
English to Belarusian
+ ...
Дополнительный теоретический совет Dec 5, 2005

К Fine Reader прилагается Form Filler - с его помощью можно заранее задать структуру документа и в соответствии с таковой текст будет растусовываться в соответствующие блоки при сканировании-распознавании.

Напр., страница с 2-мя колонками текста и узким промежутком. Иногда Fine Reader может сделать из этого одноколоночный текст (т.е. в каждой строке якобы длинный пробел посередине) или даже сделать 2-колоночным, но при наличии 2-х абзацев на одном уровне друг напротив друга может объединить их в один блок.
При использовании Form Filler можно задать 2 колонки и текст будет точно по этим 2-м колонкам.

К сожалению, практически я этого еще не делал - проблема стала неактуальна, а уж дальше и просто руки не дошли.


Direct link Reply with quote
 

Vitali Stanisheuski  Identity Verified
Belarus
Local time: 16:21
Member (2005)
English to Belarusian
+ ...
Кстати, тоже интересно Dec 5, 2005

Хотел бы узнать у коллег, пользующихся Конвертером и/или Транформером - не делают ли они из одного цельного абзаца набор нескольких однострочных абзацев, как это случается при сохранении в Ворд или при копировании-вставке (и даже иногда при сканировании-распознавании)? Это довольно-таки насущная проблема, особенно это критично при переводе с CAT-tools - невозможно ведь будет нормально работать, т.к. Trados будет считать получившиеся обрывки предложений сегментами.

Direct link Reply with quote
 

Igor Kreknin  Identity Verified
Local time: 16:21
English to Russian
+ ...
названия: Dec 5, 2005

Svetlana Touloub wrote:
только дайте название


В принципе, Adobe Acrobat 7.0 Professional сохраняет PDF прямо в MS Word:

Save AS >> Microsoft Word Document (*.doc)


Ещё здесь не упоминался конвертер PDF Converter
Professional 3 http://www.scansoft.co.uk/pdfconverter/professional/

Это конкурент упомянутого Solid PDF Converter.


FineReader желательно использовать именно последней 8-й версии. В этой версии ABBYY ввела новшество -- программа может не распознавать текст, а считывать его, если в PDF, конечно, он есть, т.е. в PDF не только изображение текста, но и сам текст (в шрифтовом формате).

Эта опция в меню FR8:
Сервис >> Опции >> 2. Распознать >>
и далее делаете выбор
- Извлечь текст из PDF документа
или
- Распознать PDF как изображение

Но скриншоты, конечно, это только изображение. Значит, здесь может помочь только графическое распознавание FineReader.

[Edited at 2005-12-05 18:55]


Direct link Reply with quote
 

mk_lab  Identity Verified
Ukraine
Local time: 16:21
Member (2004)
English to Russian
+ ...
Почти в тему Dec 5, 2005

Kirill Semenov wrote:
...это при относительно простой структуре.


У меня прямо сейчас какая-то дикая фантастика получается. Текст из PDF-файла при любом методе конвертации (простое копирование, Solid PDF Converter, PDF2Word..., а Fine Reader его почему-то "не съел"), преобразуется таким образом, что порядок букв в боксиках меняется на обратный, например "аммаргорп яашчул яамас - taborcA ebodA".

Наверняка файл был конвертирован в PDF из какого-то другого приложения. Возился-возился, да и плюнул - делаю все руками.


Direct link Reply with quote
 

Kirill Semenov  Identity Verified
Ukraine
Local time: 16:21
Member (2004)
English to Russian
+ ...
Иврит? :) Dec 5, 2005

mk_lab wrote:
У меня прямо сейчас какая-то дикая фантастика получается. Текст из PDF-файла при любом методе конвертации (простое копирование, Solid PDF Converter, PDF2Word..., а Fine Reader его почему-то "не съел"), преобразуется таким образом, что порядок букв в боксиках меняется на обратный, например "аммаргорп яашчул яамас - taborcA ebodA".


Всякая "ebodA" наводит на мысли, что PDF могли создать в Израиле. Мне приходится порой возиться с текстами, где иврит замешан, там такие крендели в Word бывают, что не знаешь, на какие клавиши давить. Одни параграфы в одну сторону, другие в другую, даже стрелочками курсор передвинуть - уже беда.


Direct link Reply with quote
 

Svetlana Touloub  Identity Verified
Local time: 15:21
Dutch to Russian
+ ...
TOPIC STARTER
Спасибо всем! Dec 5, 2005

Спасибо всем, кто откликнулся!
Буду пробовать.
Извините, что сразу не ответила - только что вернулась с работы.
У меня сейчас запарка образовалась - для курсов приходится самой текст сканировать, вычитывать, а потом делать подстрочник. Глаза уже в кучку собираются. Я думала, что с ПДФ проще будет, ан нет....Ну, я всю информацию мужу передала - пусть теперь с программами колдует:)))))


Direct link Reply with quote
 

Svetlana Touloub  Identity Verified
Local time: 15:21
Dutch to Russian
+ ...
TOPIC STARTER
О, а у меня, оказывается, новости Dec 5, 2005

О, а у меня, оказывается, новости - пока я на работе была, муж прогнал файл через Адобе, результат довольно неплохой - но.....Та часть, в которой текст был в колонках - оказался в Ворде в качестве картинки. То есть в текст войти не могу. Это примерно четвертая часть всего файла. Что можно сделать теперь?
То есть файл ПДФ теперь стал файлом Ворд, но часть отображается в "картинке", доступа к тексту нет.
Есть идеи?

Кстати, диакритика все равно "кривая" получилась, но получше, чем после прогона через Ридер...


Direct link Reply with quote
 

Igor Kreknin  Identity Verified
Local time: 16:21
English to Russian
+ ...
Идея пока только одна: Dec 6, 2005

Svetlana Touloub wrote:
То есть файл ПДФ теперь стал файлом Ворд, но часть отображается в "картинке", доступа к тексту нет.
Есть идеи?


Это отсканированный фрагмент текста. Т.е. отсканировали текст, получили рисунок с текстом в виде изображения, этот рисунок и вставили в PDF.

Эти страницы необходимо распознать в FineReader'е как изображение и затем вставить на своё место в файл Word'а.

Т.е. в самом тяжелом случае, когда текст в PDF был сохранён в виде изображения (а не в виде обычного шрифтового текста), без FR всё же не обойтись.

[Edited at 2005-12-06 05:48]


Direct link Reply with quote
 
Pages in topic:   [1 2] >


To report site rules violations or get help, contact a site moderator:


You can also contact site staff by submitting a support request »

PDF для работы с ТRADOS

Advanced search


Translation news in Russian Federation





PDF Translation - the Easy Way
TransPDF converts your PDFs to XLIFF ready for professional translation.

TransPDF converts your PDFs to XLIFF ready for professional translation. It also puts your translations back into the PDF to make new PDFs. Quicker and more accurate than hand-editing PDF. Includes free use of Infix PDF Editor with your translated PDFs.

More info »
Protemos translation business management system
Create your account in minutes, and start working! 3-month trial for agencies, and free for freelancers!

The system lets you keep client/vendor database, with contacts and rates, manage projects and assign jobs to vendors, issue invoices, track payments, store and manage project files, generate business reports on turnover profit per client/manager etc.

More info »



Forums
  • All of ProZ.com
  • Term search
  • Jobs
  • Forums
  • Multiple search