Hledám kvalitní konvertor .pdf na soubor pro WinAlign, který zvládá i češtinu
Thread poster: Stepanka

Stepanka  Identity Verified
Czech Republic
Local time: 09:15
Czech to German
+ ...
Sep 18, 2013

Krásný večer všem kolegům,

prosím Vás o radu, zda máte někdo zkušenost s kvalitním konvertorem souborů z .pdf na jakýkoliv typ souboru, podporovaný programem WinAlign. Jedná se o celkem velký soubor, zkouším všechny dříve osvědčené online konvertory, které jinak bezvadně fungují, ale nedaří se mi. Vždycky jsou v textu místo písmen s diakritikou zástupné znaky.

Díky předem za radu
Štěpánka


 

Zbynek Taborsky  Identity Verified
Czech Republic
Local time: 09:15
English to Czech
+ ...
ABBYY PDF Transformer Sep 18, 2013

Hezký večer Štěpánko,

pro konverzi PDF souborů (ale i jako virtuální PDF tiskárnu) používám program ABBYY PDF Transformer.


 

Stepanka  Identity Verified
Czech Republic
Local time: 09:15
Czech to German
+ ...
TOPIC STARTER
Moc děkuji za radu, Zbyňku, používáš placenou verzi, Sep 18, 2013

nebo stačí free-verze?

 

Milan Condak  Identity Verified
Local time: 09:15
English to Czech
Asi placený SW Sep 18, 2013

Stepanka wrote:

prosím Vás o radu, zda máte někdo zkušenost s kvalitním konvertorem souborů z .pdf na jakýkoliv typ souboru,


Dobrý večer,

Pro OCR anglického textu, pokud nefunguje extrakce textu, používám SW z

http://www.pdfocr.net/

Program jsem si stáhl v den, kdy byla rozdávaná licence zdarma. Funguje v MS Windows.

Když individuálně školím uživatele Wordfastu, kontroluji s nimi jejich verzi MS Office. Součástí MS Office bývají Nástroje sady Microsoft Office a v nich "Imaging...". České "Imaging" podporují češtinu. Výsledek je TXT nebo HTM. Naposled jsem měl v MS Office 2003. Nyní používám levnější verzi MS Office 2007, ve kterých Imaging není.

OCR je i součástí Wordfastu Anywhere, www.freetm.com . Když jsem testoval, tak drobné české písmo nebylo rozpoznáno. FineReader si s tím ale poradil.

Kdo potřebuje dělat OCR pravidelně, měl by si koupit některý z placených programů. Uživatelé asi doporučí svůj nástroj.

Milan


 

Stepanka  Identity Verified
Czech Republic
Local time: 09:15
Czech to German
+ ...
TOPIC STARTER
Milane, moc děkuji za obsáhlé vysvětlení i náměty, Sep 18, 2013

budu zkoušet, co se osvědčí, dám poté vědět. Bude to ale určitě nějakou dobu trvat.

Krásný večer
Štěpánka


 

Zbynek Taborsky  Identity Verified
Czech Republic
Local time: 09:15
English to Czech
+ ...
ABBYY PDF Transformer Sep 18, 2013

Stepanka wrote:

nebo stačí free-verze?


Já jsem program koupil, používám ho často na naskenované smlouvy atd.

Bezplatná verze je, pokud si dobře pamatuju, omezená počtem stránek.


 

Milan Condak  Identity Verified
Local time: 09:15
English to Czech
Někdy to jde i bez OCR a bez WinAlign Sep 26, 2013

Stepanka wrote:

Vždycky jsou v textu místo písmen s diakritikou zástupné znaky.



Překladovou paměť je možno snadno vytvořit ze dvou nebo více PDF, pokud v každém souboru PDF je text v jednom jazyce.

http://www.condak.net/tools/align-sentence/lf-align3-5/cs/00.html

Na 8. maratonu strojového překladu jsem dostal publikaci Čeština v digitálním věku.

Soubor jsem našel i na internetu ( http://www.meta-net.eu/whitepapers/e-book/czech.pdf ).

Soubor jsem stáhl a vytvořil jsem z anglického a českého textu překladovou paměť.

Zvládl jsem to i bez OCR a bez WinAlign, ale s podobným problémem.

Většina profesionálních CAT používá na konverzi PDF do MS Wordu stejný software. Já jsem použil Wordfast Pro.

Problémy činily

- anglické znaky "Th", místo "The" jenom "e", dále "fi" a podobně.

- dalším problémem byl text ve dvou sloupcích na některých stránkách;
za prvním řádkem levého sloupce následoval první řádek pravého sloupce;
tato potíž se projevila ve všech třech výskytech textu: oba sloupce česky, oba sloupce anglicky, jeden sloupec česky a druhý anglicky.

Mohl jsem si stáhnout FineReader. Bez licence umožňuje konvertovat 50 stránek a uložit jednu stránku.
Můj soubor je ale delší. Vyzkoušel jsem více bezplatných nástrojů. K tématu se ještě vrátím.

Mohou se majitelé s licencí některého OCR SW vyjádřit, jak se ji podaří udělat převod souboru "czech.pdf"? Jak snadno oddělí anglický a český text před následným přiřazením?

Milan


 

Stepanka  Identity Verified
Czech Republic
Local time: 09:15
Czech to German
+ ...
TOPIC STARTER
WinAlign se podařil Sep 26, 2013

Použila jsem konverzi z placeného PDF OCR do .rtf, kterou mi poskytl Zbyněk - JEŠTĚ JENOU MOC DĚKUJI -, kterou ale WinAlign také nechtěl chroupat a převedla ji na radu vynikající podpory ZStudia do .doc. Pak už bylo vše naprosto v pohodě.

Díky i za předchozí příspěvek, Milane, také je velmi inspirativní.

Přeji Vám všem krásný den a hodně úspěchůicon_smile.gif
Štěpánka


 

Milan Condak  Identity Verified
Local time: 09:15
English to Czech
Prezentace několika metod konverze Oct 14, 2013

Milan Condak wrote:
Soubor jsem stáhl a vytvořil jsem z anglického a českého textu překladovou paměť.

Zvládl jsem to i bez OCR a bez WinAlign, ale s podobným problémem.

Já jsem použil Wordfast Pro.



Kolega Martin Janda udělal konverzi ve Finereaderu, já jsem přidal ukázku překládání PDF v OmegaT a dokončil jsem prezentaci.

http://www.condak.net/lekce/pdf-txt/cs/00.html

Konverze PDF do TXT nebo DOC

Vytvoření TMX z PDF

Překlad PDF v OmegaT

Milan


 


There is no moderator assigned specifically to this forum.
To report site rules violations or get help, please contact site staff »


Hledám kvalitní konvertor .pdf na soubor pro WinAlign, který zvládá i češtinu

Advanced search






BaccS – Business Accounting Software
Modern desktop project management for freelance translators

BaccS makes it easy for translators to manage their projects, schedule tasks, create invoices, and view highly customizable reports. User-friendly, ProZ.com integration, community-driven development – a few reasons BaccS is trusted by translators!

More info »
PerfectIt consistency checker
Faster Checking, Greater Accuracy

PerfectIt helps deliver error-free documents. It improves consistency, ensures quality and helps to enforce style guides. It’s a powerful tool for pro users, and comes with the assurance of a 30-day money back guarantee.

More info »



Forums
  • All of ProZ.com
  • Term search
  • Jobs
  • Forums
  • Multiple search