Pages in topic: [1 2] > |
PDF для работы с ТRADOS Thread poster: Svetlana Touloub
|
Коллеги, первый раз столкнулась с тем, что надо работать с ПДФ-файлом. Прогнала его через Файн-Ридер - получилась "грязь". Какие еще есть способы, чтобы получить нормального качества файл для дальнейшей работы с ним в Традосе? Дополнительные программы роли не играют - только дайте название, а там разберусь и найду. Текст на английском, есть немного диакритики. Заранее всем спасибо! | | |
а что значит - "прогнала через Finereader " ? | Dec 5, 2005 |
у меня всегда хорошо распознаются pdf файлы | | |
Boris Kimel Israel Local time: 16:10 English to Russian + ... Ручная работа | Dec 5, 2005 |
Мне предоставляют по большей части обработанные руками вордовские документы - видимо, заказчик знает, где сделать это дешево и быстро. Перевод отправляется обратно на форматирование, которое почти идеально те же ребята делают за несколько часов (страниц так 50). Посл... See more Мне предоставляют по большей части обработанные руками вордовские документы - видимо, заказчик знает, где сделать это дешево и быстро. Перевод отправляется обратно на форматирование, которое почти идеально те же ребята делают за несколько часов (страниц так 50). Последние версии FineReadera распознают хорошо, но форматирование надо убивать и делать заново. Если распознавать вообще не нужно (то есть в PDF'е есть текст, а не сканированные оригиналы), то можно воспользоваться программой Solid PDF Converter - www.solidpdf.com ▲ Collapse | | |
Прогнала через Файн-Ридер - просто запустила программу и включила распознование. Форматирование пошло все наперекосяк. Это текст со скриншотами, затем есть несколько страниц текста в колонках - тут полный кошмар.Все разъехалось непонятно куда. Есть и таблицы - они тоже "криво" получились. В общем - начались страдания. Сразу хочу сказать - это не коммерческий заказ, перевод для коллег.Поэтому "обратно" никому послать не могу - придется все делать самой. | |
|
|
Kirill Semenov Ukraine Local time: 16:10 Member (2004) English to Russian + ... Для начала... | Dec 5, 2005 |
Svetlana Touloub wrote: Коллеги, первый раз столкнулась с тем, что надо работать с ПДФ-файлом. Для начала можете просто попробовать в Акробате Select All, Ctrl+C, потом Ctrl+V в пустой Word-файл. Довольно часто получается. Если я правильно помню, может понадобиться переносить постранично. Если у текста в PDF не очень сложная структура - например, просто текст в одну-две колонки, то вполне сгодится. Но если потом хотите работать в CAT, то, как Борис справедливо отметил, в любом случае придётся пройтись вручную, убрать лишние разделительные знаки. А лично я пользуюсь ABBYY PDF Converter. | | |
Radian Yazynin Local time: 16:10 Member (2004) English to Russian + ... Не так то просто | Dec 5, 2005 |
Kirill Semenov wrote: Для начала можете просто попробовать в Акробате Select All, Ctrl+C, потом Ctrl+V в пустой Word-файл. Это если текст там еще "жив" и не идет как графика. А потом при копировании текста в пустой Ворд ПДФ, не хороший такой, берет и "сцепляет слова" после копирования и получается типа "данноеописаниесоставлено". Можно и не заметить. Не все подряд, но все же муторно исправлять.
[Edited at 2005-12-05 17:14] | | |
Kirill Semenov Ukraine Local time: 16:10 Member (2004) English to Russian + ... Я не говорю, что просто :) | Dec 5, 2005 |
Radian Yazynin wrote: Kirill Semenov wrote: Для начала можете просто попробовать в Акробате Select All, Ctrl+C, потом Ctrl+V в пустой Word-файл. Это если текст там еще "жив" и не идет как графика. А потом при копировании текста в пустой Ворд ПДФ, не хороший такой, берет и "сцепляет слова" после копирования и получается типа "данноеописаниесоставлено". Можно и не заметить. Не все подряд, но все же муторно исправлять. Всё верно, но попробовать можно, это быстро. В половине случаев у меня лично получались вполне приемлемые .doc файлы. Ещё какое-то время повозиться со знаками параграфа - и порядок, можно втаскивать в CAT. Но я сразу сказал, что это при относительно простой структуре. В паре случаев текст у меня копировался, но состоял из кучи коротких фрагментов в разных местах PDF, так они просто скопировались в Word в диком беспорядке. Каждый кусочек отдельным параграфом, но в такой последовательности, что разобрать ничего нельзя было. С тех пор, как ABBYY PDF Transformer появился, проблем стало намного меньше, хотя он подчас тоже жуткие штуки выдаёт. | | |
Vitali Stanisheuski Belarus Local time: 16:10 Member (2005) English to Russian + ... SITE LOCALIZER Дополнительный теоретический совет | Dec 5, 2005 |
К Fine Reader прилагается Form Filler - с его помощью можно заранее задать структуру документа и в соответствии с таковой текст будет растусовываться в соответствующие блоки при сканировании-распознавании. Напр., страница с 2-мя колонками текста и узким промежутком. Иногда Fine ... See more К Fine Reader прилагается Form Filler - с его помощью можно заранее задать структуру документа и в соответствии с таковой текст будет растусовываться в соответствующие блоки при сканировании-распознавании. Напр., страница с 2-мя колонками текста и узким промежутком. Иногда Fine Reader может сделать из этого одноколоночный текст (т.е. в каждой строке якобы длинный пробел посередине) или даже сделать 2-колоночным, но при наличии 2-х абзацев на одном уровне друг напротив друга может объединить их в один блок. При использовании Form Filler можно задать 2 колонки и текст будет точно по этим 2-м колонкам. К сожалению, практически я этого еще не делал - проблема стала неактуальна, а уж дальше и просто руки не дошли. ▲ Collapse | |
|
|
Vitali Stanisheuski Belarus Local time: 16:10 Member (2005) English to Russian + ... SITE LOCALIZER Кстати, тоже интересно | Dec 5, 2005 |
Хотел бы узнать у коллег, пользующихся Конвертером и/или Транформером - не делают ли они из одного цельного абзаца набор нескольких однострочных абзацев, как это случается при сохранении в Ворд или при копировании-вставке (и даже иногда при сканировании-распознавании)? Это довольно-таки насущная проблема, особенно это критично при переводе с CAT-tools - невозможно ведь будет нормально работать, т.к. Trados будет считать получившиеся обрывки предложений сегментами. | | |
Svetlana Touloub wrote: только дайте название В принципе, Adobe Acrobat 7.0 Professional сохраняет PDF прямо в MS Word: Save AS >> Microsoft Word Document (*.doc) Ещё здесь не упоминался конвертер PDF Converter Professional 3 http://www.scansoft.co.uk/pdfconverter/professional/ Это конкурент упомянутого Solid PDF Converter. FineReader желательно использовать именно последней 8-й версии. В этой версии ABBYY ввела новшество -- программа может не распознавать текст, а считывать его, если в PDF, конечно, он есть, т.е. в PDF не только изображение текста, но и сам текст (в шрифтовом формате). Эта опция в меню FR8: Сервис >> Опции >> 2. Распознать >> и далее делаете выбор - Извлечь текст из PDF документа или - Распознать PDF как изображение Но скриншоты, конечно, это только изображение. Значит, здесь может помочь только графическое распознавание FineReader.
[Edited at 2005-12-05 18:55] | | |
mk_lab Ukraine Local time: 16:10 Member (2004) English to Russian + ...
Kirill Semenov wrote: ...это при относительно простой структуре. У меня прямо сейчас какая-то дикая фантастика получается. Текст из PDF-файла при любом методе конвертации (простое копирование, Solid PDF Converter, PDF2Word..., а Fine Reader его почему-то "не съел"), преобразуется таким образом, что порядок букв в боксиках меняется на обратный, например "аммаргорп яашчул яамас - taborcA ebodA". Наверняка файл был конвертирован в PDF из какого-то другого приложения. Возился-возился, да и плюнул - делаю все руками. | | |
Kirill Semenov Ukraine Local time: 16:10 Member (2004) English to Russian + ...
mk_lab wrote: У меня прямо сейчас какая-то дикая фантастика получается. Текст из PDF-файла при любом методе конвертации (простое копирование, Solid PDF Converter, PDF2Word..., а Fine Reader его почему-то "не съел"), преобразуется таким образом, что порядок букв в боксиках меняется на обратный, например "аммаргорп яашчул яамас - taborcA ebodA". Всякая "ebodA" наводит на мысли, что PDF могли создать в Израиле. Мне приходится порой возиться с текстами, где иврит замешан, там такие крендели в Word бывают, что не знаешь, на какие клавиши давить. Одни параграфы в одну сторону, другие в другую, даже стрелочками курсор передвинуть - уже беда. | |
|
|
Спасибо всем! | Dec 5, 2005 |
Спасибо всем, кто откликнулся! Буду пробовать. Извините, что сразу не ответила - только что вернулась с работы. У меня сейчас запарка образовалась - для курсов приходится самой текст сканировать, вычитывать, а потом делать подстрочник. Глаза уже в кучку собираются. Я думала, что с ПДФ проще будет, ан нет....Ну, я всю информацию мужу передала - пусть теперь с программами колдует:))))) | | |
О, а у меня, оказывается, новости | Dec 5, 2005 |
О, а у меня, оказывается, новости - пока я на работе была, муж прогнал файл через Адобе, результат довольно неплохой - но.....Та часть, в которой текст был в колонках - оказался в Ворде в качестве картинки. То есть в текст войти не могу. Это примерно четвертая часть всего файла. Что... See more О, а у меня, оказывается, новости - пока я на работе была, муж прогнал файл через Адобе, результат довольно неплохой - но.....Та часть, в которой текст был в колонках - оказался в Ворде в качестве картинки. То есть в текст войти не могу. Это примерно четвертая часть всего файла. Что можно сделать теперь? То есть файл ПДФ теперь стал файлом Ворд, но часть отображается в "картинке", доступа к тексту нет. Есть идеи? Кстати, диакритика все равно "кривая" получилась, но получше, чем после прогона через Ридер... ▲ Collapse | | |
Идея пока только одна: | Dec 6, 2005 |
Svetlana Touloub wrote: То есть файл ПДФ теперь стал файлом Ворд, но часть отображается в "картинке", доступа к тексту нет. Есть идеи? Это отсканированный фрагмент текста. Т.е. отсканировали текст, получили рисунок с текстом в виде изображения, этот рисунок и вставили в PDF. Эти страницы необходимо распознать в FineReader'е как изображение и затем вставить на своё место в файл Word'а. Т.е. в самом тяжелом случае, когда текст в PDF был сохранён в виде изображения (а не в виде обычного шрифтового текста), без FR всё же не обойтись.
[Edited at 2005-12-06 05:48] | | |
Pages in topic: [1 2] > |