Databáze IATE může být stažena jako TBX
Thread poster: Milan Condak

Milan Condak  Identity Verified
Local time: 09:22
English to Czech
Mar 27, 2015

InterActive Terminology for Europe

Příspěvek
(Part of) the IATE database can now be downloaded as a massive TBX!
Thread poster: Michael Beijer ze dne 10. července 2014

http://www.proz.com/forum/translator_resources/271879-part_of_the_iate_database_can_now_be_downloaded_as_a_massive_tbx.html

obsahuje odkaz na stránku

Download IATE and the IATE extraction tool IATExtract.jar

popisující databázi a SW, které je možno stáhnout

http://iate.europa.eu/tbxPageDownload.do

You can download the file by clicking on the link below.
IATE_download_27012015.zip (Publication date: 27/01/2015)

Statistics
The download file contains 1.3 million entries, 8 million terms in 24 official EU languages.
Language Number of terms

Czech 28865
(Podle tabulky má méně výrazů než čeština pouze chorvatština.)

Poslední příspěvek na ProZ.com je starší než lednová databáze.

http://www.proz.com/forum/translator_resources/271879-
part_of_the_iate_database_can_now_be_downloaded_as_a_massive_tbx-page3.html

Very useful Oct 20, 2014
-
V červenci 2014 jsem si stáhl zazipovaný soubor.
Vyextrahoval jsem dvojici CS a EN. Soubor TBX má velikost 17,1 MB. Soubor jsem otevřel v
programu Xbench a vyexportoval jsem jsem z něj textový soubor EN-CS v kódování UTF-8.
Červencový soubor má 19642 českých výrazů.
V programu LF-Editor jsem smazal všechny sloupce, kromě prvních dvou. TXT soubor má velikost 1,3 MB. Glosář mohu použít například v OmegaT.

Milan


 

Milan Condak  Identity Verified
Local time: 09:22
English to Czech
TOPIC STARTER
Databáze z listopadu 2016 Feb 23, 2017

Milan Condak wrote:

Very useful Oct 20, 2014
-
V červenci 2014 jsem si stáhl zazipovaný soubor.
Vyextrahoval jsem dvojici CS a EN. Soubor TBX má velikost 17,1 MB. Soubor jsem otevřel v
programu Xbench a vyexportoval jsem jsem z něj textový soubor EN-CS v kódování UTF-8.
Červencový soubor má 19642 českých výrazů.
V programu LF-Editor jsem smazal všechny sloupce, kromě prvních dvou. TXT soubor má velikost 1,3 MB. Glosář mohu použít například v OmegaT.

Milan


Letos jsem vyzkoušel import TBX do demoverze Wordfastu 4 a editaci textového souboru ve Wordfastu Classic. V OmegaT jsem využíval TBX jako glosář nebo jako slovník StarDict.

Během pěti dnů jsem udělal pět prezentací.

Rekapitulace prezentací o TBX, IATE, EuroVocu a nástrojích Wordfast a OmegaT

http://www.condak.cz/nove/2017-02/21/cs/03.html

Otázka zní: co je vhodné PEMT, MT, slovník, glosář nebo TM?

Můj názor: nejlepší je zdroje konfrontovat a použít terminologii zákazníka. Když je zákazníkem orgán EU jsou k dispozici překladové paměti nebo vícejazyčné náhledy (například DGT, eur-lex nebo IATE) nebo text v cílovém jazyce.

Pro prezentaci jsem překládal soubor PDF: Minimální platy v EU

http://ec.europa.eu/eurostat/documents/2995521/7860532/3-10022017-AP-EN.pdf

V prezentaci jsem se zmínil o překladu "national". Jiný příklad je "United Kingdom": My Memory (Google Translate) překládá jako Velká Británie, EU, například v tiskových zprávách, překládá jako "Spojené království". Takový termín je nutné vložit do glosáře a nesprávný překlad do blacklistu.

Terminologie je to, co je definované a závazné. IATE je sbírka možných překladů a výklady významu výrazů a rozpis zkratek = pouhé návrhy.

Milan
http://www.condak.cz/nove/


 

Milan Condak  Identity Verified
Local time: 09:22
English to Czech
TOPIC STARTER
Databáze ze srpna 2017 Sep 28, 2017

Milan Condak wrote:

InterActive Terminology for Europe

Vyextrahoval jsem dvojici CS a EN. Soubor TBX má velikost 17,1 MB. Soubor jsem otevřel v
programu Xbench a vyexportoval jsem jsem z něj textový soubor EN-CS v kódování UTF-8.
Červencový soubor má 19.642 českých výrazů.
V programu LF-Editor jsem smazal všechny sloupce, kromě prvních dvou. TXT soubor má velikost 1,3 MB.



Dnes je státní svátek a tak jsem porovnal dvě informace a opět jsem udělal vlastní pokus.

1. Na stránkách (5,6,7 a 8) jsou k zakoupení glosáře a termbáze pro různé CAT nástroje.

https://www.tm-town.com/terminology-marketplace?button=&marketplace_language_pair=All&page=6&search=&seller=428&utf8=✓

Czech to English IATE terminology package
63,769 Term Concepts | 0 sales Czech to English
€5.50
general

Bilingual files extracted from the European Union’s IATE Termbase and formatted for various CAT-tools.
===
2. Na stránce IATE je zdroj všech dat

http://iate.europa.eu/tbxPageDownload.do

You can download the file by clicking on the link below.

IATE_download.zip (Publication date: 18/08/2017)

Statistics
The download file contains 1.3 million entries, 8 million terms in 24 official EU languages.

3. Porovnal jsem uvedené údaje. Levý sloupec IATE uvádí 38.845 českých termínů. Pravý sloupec TM-town uvádí páry čeština plus další jazyk. Pokud je počet českých výrazů 38.845, tak údaje v pravém sloupci, které jsou větší než 38.845 jsou velmi nepravděpodobné.

Language Number of terms
IATE TM-town za 5,50 €

Czech to XX
Bulgarian 41.321 34.313
Czech 38.845
Danish 57.3267 50.641
German 944.297 54.071
Greek 492.120 44.578
English 1.305.010 63.769
Spanish 582.572 49.042
Estonian 47.545 36.100
Finnish 325.975 47.121
French 1.231.278 55.187
Irish 68.990 31.357
Croatian 19.063 15.133
Hungarian 45.090 34.746
Italian 658.604 50.207
Lithuanian 48.848 36.772
Latvian 42.413 34.302
Maltese 55.499 39.836
Dutch 657.496 49.760
Polish 72.413 42.435
Portuguese 484.414 45.816
Romanian 49.942 37.383
Slovak 45.593 37.383
Slovenian 53.290 38.595
Swedish 304.231 40.643
Latin 62.602

Multilinugal 5.540
All 8.256.258
==
4. Extrakce aglicko-české terminologie

Stažený zip má velikost 127,136 356 MB.

a) extrahovaný TBX s češtinou a angličtinou má velikost 25.538 MB
b) do programu Xbench jsem načetl TBX a vyexportoval jsem TMX; soubory mají 29.062 položek
c) do programu TM Lookup jsem naimportoval TMX a vyexportoval soubor TXT v kódování UTF-8; textový soubor má velikost 1,679 MB

Tož tak. Abych přidal trochu moravského folklóru.

Milan


 

Milan Condak  Identity Verified
Local time: 09:22
English to Czech
TOPIC STARTER
Aktualizace souboru IATE z 30.1.2018 Feb 1

Milan Condak wrote:

Language Number of terms

Bulgarian 41.321 34.313
Czech 38.845
English 1.305.010 63.769
Polish 72.413 42.435
...

a) extrahovaný TBX s češtinou a angličtinou má velikost 25.538 MB
b) do programu Xbench jsem načetl TBX a vyexportoval jsem TMX; soubory mají 29.062 položek



Polský slovník v OmegaT

http://www.condak.cz/nove/2018-01/31/cs/00.html

01 IATE - česko-polský soubor TBX
02 TMLookUp, import TMX, export TXT
03 StarDict Editor
04 Glosář a slovník v OmegaT

Milan


 


There is no moderator assigned specifically to this forum.
To report site rules violations or get help, please contact site staff »


Databáze IATE může být stažena jako TBX

Advanced search






PerfectIt consistency checker
Faster Checking, Greater Accuracy

PerfectIt helps deliver error-free documents. It improves consistency, ensures quality and helps to enforce style guides. It’s a powerful tool for pro users, and comes with the assurance of a 30-day money back guarantee.

More info »
WordFinder Unlimited
For clarity and excellence

WordFinder is the leading dictionary service that gives you the words you want anywhere, anytime. Access 260+ dictionaries from the world's leading dictionary publishers in virtually any device. Find the right word anywhere, anytime - online or offline.

More info »



Forums
  • All of ProZ.com
  • Term search
  • Jobs
  • Forums
  • Multiple search