Aktualizované soubory DGT
Thread poster: Milan Condak

Milan Condak  Identity Verified
Local time: 23:07
English to Czech
Mar 2, 2014

Na stránce

http://ipsc.jrc.ec.europa.eu/?id=197#c2744

najdete odkazy a informace o databázích, ze kterých je možno extrahovat dvojjazyčné TMX

DGT - vydání 2007
DGT-TM-vydání 2011
Velikost souborů1.96GB
počet českých překladových jednotek 890.025
počet českých překladových jednotek 1.985.152

DGT-TM-vydání 2012
Velikost souborů 354 MB
počet českých překladových jednotek 283.826

DGT-TM-vydání 2013
Velikost souborů 568 MB
počet českých překladových jednotek 478.709

Moje předchozí prezentace o podobných zdrojích:

Využití vícejazyčného tezauru Eurovocu jako slovníky nebo glosáře, 3.5.2013

http://www.condak.net/cat_other/omegat/2013-05-03/cs/00.html

TM v PC Translatoru 2012, 26.11.2011

http://www.condak.net/tmx/tm-pctrans/cs/00.html

Milan


 

Milan Condak  Identity Verified
Local time: 23:07
English to Czech
TOPIC STARTER
Drobné potíže Mar 4, 2014

Milan Condak wrote:

DGT-TM-vydání 2012



V duchu tradice Tradosu je používán kód češtiny CS-01 místo správného kódu CS-CZ.
Druhá malá potíž se týká výskytu velkého písmena "Ě".
Program Virtaal TMX neotevřel, chybu hlásil i WfConverter.
Pokud nepůjde otevřít ani v CAT nástrojích, tak v textovém editoru "Ě" nahradím obyčejným "E".

Dodatek:
Naimportoval jsem úspěšně do PC Translatoru 2012 čtyři TMX, v jazykovém páru EN-CS.
Bylo to 283.826 překladových jednotek. Odstranil jsem 73.335 duplicitních a mám 210.491 jedinečných překladových jednotek.

CAT, kterým nebude vadit kód CS-01, nebudou mít problém TMX načíst.

Milan

[Edited at 2014-03-04 11:35 GMT]


 

Milan Condak  Identity Verified
Local time: 23:07
English to Czech
TOPIC STARTER
Extrakce DGT-TM-vydání 2013 Mar 4, 2014

Milan Condak wrote:

DGT-TM-vydání 2013

počet českých překladových jednotek 478.709



Vyextrahoval jsem 478.709 EN-CS překladových jednotek, smazal jsem 119.773 duplicitních překladových jednotek, mám 358.936 jedinečných překladových jednotek.

Milan


 

Milan Condak  Identity Verified
Local time: 23:07
English to Czech
TOPIC STARTER
DGT-TM-release 2017 May 8, 2017

Už se zase těšíme na velikonoce, copak nám asi nadělí?

Od roku 2011 nabízí Spojené výzkumné středisko Evropské komise pravidelně ke stažení přiřazená data ve formě vícejazyčných zazipovaných TMX, ze kterých je možno extrahovat dvojjazyčné TMX.

https://ec.europa.eu/jrc/en/language-technologies/dgt-translation-memory


Release Data VOL Size

2007 12 1.080 MB
2011 Vol 2004-2010 25 1.960 MB
2012 Vol 2011 4 354 MB
2013 Vol 2012 6 568 MB
2014 Vol 2013 7 657 MB
2015 Vol 2014 3 283 MB
2016 Vol 2015 7 642 MB
2017 Vol 2016 9 848 MB

Data jsem si opět zpracoval. Vytvořil jsem si jazykové páry s češtinou. Smazal jsem redundantní překladové jednotky. Nejvíce překladových jednotek měl anglicko-český jazykový pár, bylo jich 608 tisíc, redundantních překladových jednotek bylo 141 tisíc. (Nejmenší TMX je keltsko-česká.) Hotovou TMX je možné využít v CAT, v PC Translatoru, v nástrojích na vytváření terminologie, nebo na "krmení" statistických překladačů. Pravděpodobně i neuronových sítí, o kterých zatím nevím téměř nic.

Milan


 

Milan Condak  Identity Verified
Local time: 23:07
English to Czech
TOPIC STARTER
DGT 2018 VOL 2017 May 4

Milan Condak wrote:

Release Data VOL Size
2017 Vol 2016 9 848 MB


Data za rok 2017 jsou ve dvou souborech, velikost je poloviční proti předchozímu roku.

Milan


 


There is no moderator assigned specifically to this forum.
To report site rules violations or get help, please contact site staff »


Aktualizované soubory DGT

Advanced search






TM-Town
Manage your TMs and Terms ... and boost your translation business

Are you ready for something fresh in the industry? TM-Town is a unique new site for you -- the freelance translator -- to store, manage and share translation memories (TMs) and glossaries...and potentially meet new clients on the basis of your prior work.

More info »
Déjà Vu X3
Try it, Love it

Find out why Déjà Vu is today the most flexible, customizable and user-friendly tool on the market. See the brand new features in action: *Completely redesigned user interface *Live Preview *Inline spell checking *Inline

More info »



Forums
  • All of ProZ.com
  • Term search
  • Jobs
  • Forums
  • Multiple search