Aktualizované soubory DGT
Thread poster: Milan Condak

Milan Condak  Identity Verified
Local time: 06:33
English to Czech
Mar 2, 2014

Na stránce

http://ipsc.jrc.ec.europa.eu/?id=197#c2744

najdete odkazy a informace o databázích, ze kterých je možno extrahovat dvojjazyčné TMX

DGT - vydání 2007
DGT-TM-vydání 2011
Velikost souborů1.96GB
počet českých překladových jednotek 890.025
počet českých překladových jednotek 1.985.152

DGT-TM
... See more
Na stránce

http://ipsc.jrc.ec.europa.eu/?id=197#c2744

najdete odkazy a informace o databázích, ze kterých je možno extrahovat dvojjazyčné TMX

DGT - vydání 2007
DGT-TM-vydání 2011
Velikost souborů1.96GB
počet českých překladových jednotek 890.025
počet českých překladových jednotek 1.985.152

DGT-TM-vydání 2012
Velikost souborů 354 MB
počet českých překladových jednotek 283.826

DGT-TM-vydání 2013
Velikost souborů 568 MB
počet českých překladových jednotek 478.709

Moje předchozí prezentace o podobných zdrojích:

Využití vícejazyčného tezauru Eurovocu jako slovníky nebo glosáře, 3.5.2013

http://www.condak.net/cat_other/omegat/2013-05-03/cs/00.html

TM v PC Translatoru 2012, 26.11.2011

http://www.condak.net/tmx/tm-pctrans/cs/00.html

Milan
Collapse


 

Milan Condak  Identity Verified
Local time: 06:33
English to Czech
TOPIC STARTER
Drobné potíže Mar 4, 2014

Milan Condak wrote:

DGT-TM-vydání 2012



V duchu tradice Tradosu je používán kód češtiny CS-01 místo správného kódu CS-CZ.
Druhá malá potíž se týká výskytu velkého písmena "Ě".
Program Virtaal TMX neotevřel, chybu hlásil i WfConverter.
Pokud nepůjde otevřít ani v CAT nástrojích, tak v textovém editoru "Ě" nahradím obyčejným "E".

Dodatek:
Naimportoval jsem úspěšně do PC Translatoru 2012 čtyři TMX, v jazykovém páru EN-CS.
Bylo to 283.826 překladových jednotek. Odstranil jsem 73.335 duplicitních a mám 210.491 jedinečných překladových jednotek.

CAT, kterým nebude vadit kód CS-01, nebudou mít problém TMX načíst.

Milan

[Edited at 2014-03-04 11:35 GMT]


 

Milan Condak  Identity Verified
Local time: 06:33
English to Czech
TOPIC STARTER
Extrakce DGT-TM-vydání 2013 Mar 4, 2014

Milan Condak wrote:

DGT-TM-vydání 2013

počet českých překladových jednotek 478.709



Vyextrahoval jsem 478.709 EN-CS překladových jednotek, smazal jsem 119.773 duplicitních překladových jednotek, mám 358.936 jedinečných překladových jednotek.

Milan


 

Milan Condak  Identity Verified
Local time: 06:33
English to Czech
TOPIC STARTER
DGT-TM-release 2017 May 8, 2017

Už se zase těšíme na velikonoce, copak nám asi nadělí?

Od roku 2011 nabízí Spojené výzkumné středisko Evropské komise pravidelně ke stažení přiřazená data ve formě vícejazyčných zazipovaných TMX, ze kterých je možno extrahovat dvojjazyčné TMX.

https://ec.europa.eu/jrc/en/language-technologies/dgt-translation-memory
... See more
Už se zase těšíme na velikonoce, copak nám asi nadělí?

Od roku 2011 nabízí Spojené výzkumné středisko Evropské komise pravidelně ke stažení přiřazená data ve formě vícejazyčných zazipovaných TMX, ze kterých je možno extrahovat dvojjazyčné TMX.

https://ec.europa.eu/jrc/en/language-technologies/dgt-translation-memory


Release Data VOL Size

2007 12 1.080 MB
2011 Vol 2004-2010 25 1.960 MB
2012 Vol 2011 4 354 MB
2013 Vol 2012 6 568 MB
2014 Vol 2013 7 657 MB
2015 Vol 2014 3 283 MB
2016 Vol 2015 7 642 MB
2017 Vol 2016 9 848 MB

Data jsem si opět zpracoval. Vytvořil jsem si jazykové páry s češtinou. Smazal jsem redundantní překladové jednotky. Nejvíce překladových jednotek měl anglicko-český jazykový pár, bylo jich 608 tisíc, redundantních překladových jednotek bylo 141 tisíc. (Nejmenší TMX je keltsko-česká.) Hotovou TMX je možné využít v CAT, v PC Translatoru, v nástrojích na vytváření terminologie, nebo na "krmení" statistických překladačů. Pravděpodobně i neuronových sítí, o kterých zatím nevím téměř nic.

Milan
Collapse


 

Milan Condak  Identity Verified
Local time: 06:33
English to Czech
TOPIC STARTER
DGT 2018 VOL 2017 May 4, 2018

Milan Condak wrote:

Release Data VOL Size
2017 Vol 2016 9 848 MB


Data za rok 2017 jsou ve dvou souborech, velikost je poloviční proti předchozímu roku.

Milan


 

Milan Condak  Identity Verified
Local time: 06:33
English to Czech
TOPIC STARTER
2019 Vol 2018 a prezentace zpracování May 30

Společné výzkumné středisko EK vydává po ukončení roku sady zazipovaných TMX.
Prezentace ukazuje seznam souborů a možnost využít WfConverter, pokud nepoužíváte SDL Studio Trados.

Překladové jednotky obsahují Celexové číslo (kód dokumentu v systému Eur-Lex), které se při konverzi ztratí.
Kdo si vytváří TMX sám, může mít Celexové číslo v každé překladové jednotce.
Jak najít jednoduše CELEX (dokumenty), ve kterých je výraz
... See more
Společné výzkumné středisko EK vydává po ukončení roku sady zazipovaných TMX.
Prezentace ukazuje seznam souborů a možnost využít WfConverter, pokud nepoužíváte SDL Studio Trados.

Překladové jednotky obsahují Celexové číslo (kód dokumentu v systému Eur-Lex), které se při konverzi ztratí.
Kdo si vytváří TMX sám, může mít Celexové číslo v každé překladové jednotce.
Jak najít jednoduše CELEX (dokumenty), ve kterých je výraz, který hledáte?
Vyzkoušejte https://juremy.com .

Jde to i bez Juremy, přímo v Eur-lexu.
Hledal jsem "Agrofert" a našel jsem jej 59 krát. Z nejnovějšího jsem vytvořil TMX, která obsahuje Celexové číslo.

http://www.condak.cz/nove/2019-05/27/cs/00.html

DGT-TM a WfConverter

CELEX: Juremy a LF Aligner

01 DGT Translation Memory
02 WfConverter a SK-CS
03 WfConvertor a EN-CS
04 Import 3 TMX do PC Translatoru
05 Juremy.com a CELEX

Milan
Collapse


 

Milan Condak  Identity Verified
Local time: 06:33
English to Czech
TOPIC STARTER
Velikost souborů DGT-TM-release 2019 Oct 9



Dne 27. května 2019 jsem uvedl velikost souborů na stránce .../dgt-translation-memory

http://www.condak.cz/nove/2019-05/27/cs/01.html

DGT-TM-release 2018
74 Vol_2017_1.zip 254 MB
75 Vol_2017_2.zip 173 MB
Total size 427 MB
----------------------
DGT-TM-release 2019
76 Vol_2018_1.zip 261 MB
77 Vol_2018_2.zip 262 MB
78 Vol_2018_3.zip 88 MB
Total size 611 MB

Napsal jim, vyměnil jsem si asi 5 emailů a i dnes 9.10.2019 web ".../dgt-translation-memory" uvádí chybné neopravené údaje:

DGT-TM-release 2019 Size
Vol_2018_1.zip 254 MB
Vol_2018_2.zip 173 MB
Vol_2018_3.zip 173 MB
Total size 427 MB

Hlavně, že data jsou v pořádku je možné je stáhnout.

Milan


 


There is no moderator assigned specifically to this forum.
To report site rules violations or get help, please contact site staff »


Aktualizované soubory DGT

Advanced search






PerfectIt consistency checker
Faster Checking, Greater Accuracy

PerfectIt helps deliver error-free documents. It improves consistency, ensures quality and helps to enforce style guides. It’s a powerful tool for pro users, and comes with the assurance of a 30-day money back guarantee.

More info »
SDL MultiTerm 2019
Guarantee a unified, consistent and high-quality translation with terminology software by the industry leaders.

SDL MultiTerm 2019 allows translators to create one central location to store and manage multilingual terminology, and with SDL MultiTerm Extract 2019 you can automatically create term lists from your existing documentation to save time.

More info »



Forums
  • All of ProZ.com
  • Term search
  • Jobs
  • Forums
  • Multiple search