Hledám kvalitní konvertor .pdf na soubor pro WinAlign, který zvládá i češtinu
Thread poster: Stepanka

Stepanka  Identity Verified
Czech Republic
Local time: 06:11
Czech to German
+ ...
Sep 18, 2013

Krásný večer všem kolegům,

prosím Vás o radu, zda máte někdo zkušenost s kvalitním konvertorem souborů z .pdf na jakýkoliv typ souboru, podporovaný programem WinAlign. Jedná se o celkem velký soubor, zkouším všechny dříve osvědčené online konvertory, které jinak bezvadně fungují, ale nedaří se mi. Vždycky jsou v textu místo písmen s diakritikou zástupné znaky.

Díky předem za radu
Štěpánka


Direct link Reply with quote
 

Zbynek Taborsky  Identity Verified
Czech Republic
Local time: 06:11
English to Czech
+ ...
ABBYY PDF Transformer Sep 18, 2013

Hezký večer Štěpánko,

pro konverzi PDF souborů (ale i jako virtuální PDF tiskárnu) používám program ABBYY PDF Transformer.


Direct link Reply with quote
 

Stepanka  Identity Verified
Czech Republic
Local time: 06:11
Czech to German
+ ...
TOPIC STARTER
Moc děkuji za radu, Zbyňku, používáš placenou verzi, Sep 18, 2013

nebo stačí free-verze?

Direct link Reply with quote
 

Milan Condak  Identity Verified
Local time: 06:11
English to Czech
Asi placený SW Sep 18, 2013

Stepanka wrote:

prosím Vás o radu, zda máte někdo zkušenost s kvalitním konvertorem souborů z .pdf na jakýkoliv typ souboru,


Dobrý večer,

Pro OCR anglického textu, pokud nefunguje extrakce textu, používám SW z

http://www.pdfocr.net/

Program jsem si stáhl v den, kdy byla rozdávaná licence zdarma. Funguje v MS Windows.

Když individuálně školím uživatele Wordfastu, kontroluji s nimi jejich verzi MS Office. Součástí MS Office bývají Nástroje sady Microsoft Office a v nich "Imaging...". České "Imaging" podporují češtinu. Výsledek je TXT nebo HTM. Naposled jsem měl v MS Office 2003. Nyní používám levnější verzi MS Office 2007, ve kterých Imaging není.

OCR je i součástí Wordfastu Anywhere, www.freetm.com . Když jsem testoval, tak drobné české písmo nebylo rozpoznáno. FineReader si s tím ale poradil.

Kdo potřebuje dělat OCR pravidelně, měl by si koupit některý z placených programů. Uživatelé asi doporučí svůj nástroj.

Milan


Direct link Reply with quote
 

Stepanka  Identity Verified
Czech Republic
Local time: 06:11
Czech to German
+ ...
TOPIC STARTER
Milane, moc děkuji za obsáhlé vysvětlení i náměty, Sep 18, 2013

budu zkoušet, co se osvědčí, dám poté vědět. Bude to ale určitě nějakou dobu trvat.

Krásný večer
Štěpánka


Direct link Reply with quote
 

Zbynek Taborsky  Identity Verified
Czech Republic
Local time: 06:11
English to Czech
+ ...
ABBYY PDF Transformer Sep 18, 2013

Stepanka wrote:

nebo stačí free-verze?


Já jsem program koupil, používám ho často na naskenované smlouvy atd.

Bezplatná verze je, pokud si dobře pamatuju, omezená počtem stránek.


Direct link Reply with quote
 

Milan Condak  Identity Verified
Local time: 06:11
English to Czech
Někdy to jde i bez OCR a bez WinAlign Sep 26, 2013

Stepanka wrote:

Vždycky jsou v textu místo písmen s diakritikou zástupné znaky.



Překladovou paměť je možno snadno vytvořit ze dvou nebo více PDF, pokud v každém souboru PDF je text v jednom jazyce.

http://www.condak.net/tools/align-sentence/lf-align3-5/cs/00.html

Na 8. maratonu strojového překladu jsem dostal publikaci Čeština v digitálním věku.

Soubor jsem našel i na internetu ( http://www.meta-net.eu/whitepapers/e-book/czech.pdf ).

Soubor jsem stáhl a vytvořil jsem z anglického a českého textu překladovou paměť.

Zvládl jsem to i bez OCR a bez WinAlign, ale s podobným problémem.

Většina profesionálních CAT používá na konverzi PDF do MS Wordu stejný software. Já jsem použil Wordfast Pro.

Problémy činily

- anglické znaky "Th", místo "The" jenom "e", dále "fi" a podobně.

- dalším problémem byl text ve dvou sloupcích na některých stránkách;
za prvním řádkem levého sloupce následoval první řádek pravého sloupce;
tato potíž se projevila ve všech třech výskytech textu: oba sloupce česky, oba sloupce anglicky, jeden sloupec česky a druhý anglicky.

Mohl jsem si stáhnout FineReader. Bez licence umožňuje konvertovat 50 stránek a uložit jednu stránku.
Můj soubor je ale delší. Vyzkoušel jsem více bezplatných nástrojů. K tématu se ještě vrátím.

Mohou se majitelé s licencí některého OCR SW vyjádřit, jak se ji podaří udělat převod souboru "czech.pdf"? Jak snadno oddělí anglický a český text před následným přiřazením?

Milan


Direct link Reply with quote
 

Stepanka  Identity Verified
Czech Republic
Local time: 06:11
Czech to German
+ ...
TOPIC STARTER
WinAlign se podařil Sep 26, 2013

Použila jsem konverzi z placeného PDF OCR do .rtf, kterou mi poskytl Zbyněk - JEŠTĚ JENOU MOC DĚKUJI -, kterou ale WinAlign také nechtěl chroupat a převedla ji na radu vynikající podpory ZStudia do .doc. Pak už bylo vše naprosto v pohodě.

Díky i za předchozí příspěvek, Milane, také je velmi inspirativní.

Přeji Vám všem krásný den a hodně úspěchů
Štěpánka


Direct link Reply with quote
 

Milan Condak  Identity Verified
Local time: 06:11
English to Czech
Prezentace několika metod konverze Oct 14, 2013

Milan Condak wrote:
Soubor jsem stáhl a vytvořil jsem z anglického a českého textu překladovou paměť.

Zvládl jsem to i bez OCR a bez WinAlign, ale s podobným problémem.

Já jsem použil Wordfast Pro.



Kolega Martin Janda udělal konverzi ve Finereaderu, já jsem přidal ukázku překládání PDF v OmegaT a dokončil jsem prezentaci.

http://www.condak.net/lekce/pdf-txt/cs/00.html

Konverze PDF do TXT nebo DOC

Vytvoření TMX z PDF

Překlad PDF v OmegaT

Milan


Direct link Reply with quote
 


There is no moderator assigned specifically to this forum.
To report site rules violations or get help, please contact site staff »


Hledám kvalitní konvertor .pdf na soubor pro WinAlign, který zvládá i češtinu

Advanced search






TM-Town
Manage your TMs and Terms ... and boost your translation business

Are you ready for something fresh in the industry? TM-Town is a unique new site for you -- the freelance translator -- to store, manage and share translation memories (TMs) and glossaries...and potentially meet new clients on the basis of your prior work.

More info »
SDL MultiTerm 2017
Guarantee a unified, consistent and high-quality translation with terminology software by the industry leaders.

SDL MultiTerm 2017 allows translators to create one central location to store and manage multilingual terminology, and with SDL MultiTerm Extract 2017 you can automatically create term lists from your existing documentation to save time.

More info »



Forums
  • All of ProZ.com
  • Term search
  • Jobs
  • Forums
  • Multiple search