Statisticky extrahované slovníky z databáze DGT
Thread poster: Milan Condak

Milan Condak  Identity Verified
Local time: 02:19
English to Czech
Jul 14, 2014

V rámci projektu TaaS, který koncem června 2014 obsahoval 87 tisíc českých slov a je dostupný přes web https://demo.taas-project.eu/

existuje i možnost si slovníky stáhnout

http://www.taas-project.eu/index.php?page=alias-3

Prozatím jsou na webu jenom jazykové páry EN-xx (obsahují i opačný směr xx-EN). Kromě zdrojových dat je k dispozici 6 statisticky vyčištěných slovníků.

čistící metoda počet slovních dvojic EN-CS

LLR 157 tisíc
Pivot 349 tisíc
Transliteration 267 tisíc

V jednom sloupci je zdrojový termín, jeho pravděpodobný překlad a koeficient pravděpodobnosti. Mezi výrazy je vždy mezera. Hlavní nevýhodou je, že jde o párování jednoslovných výrazů, takže jedno anglické slovo je přeloženo do více českých tokenů (gramatických tvarů) a anglické slovo je bez kontextu (předložek, členů apod.).

Podle přiloženého referátu ve formátu PDF existují i jazykové páry FR-XX a DE-XX. Budou ke stažení později. Referát uvádí jako nejúčinnější metodu čištění "ruční čištění", to ale vyžaduje jazykové znalosti a je časově náročné.

Stáhnout je možné také ověřenou terminologii = IATE, pro češtinu v ní je pouze 26.202 výrazů

http://iate.europa.eu/tbxPageDownload.do

diskuze k tématu je zde

http://www.proz.com/forum/translator_resources/271879-part_of_the_iate_database_can_now_be_downloaded_as_a_massive_tbx.html

a také v jných jazycích.

Milan

[Upraveno: 2014-07-14 19:42 GMT]


 

Milan Condak  Identity Verified
Local time: 02:19
English to Czech
TOPIC STARTER
Prezentace o využití dat Jul 27, 2014

Milan Condak wrote:

Prozatím jsou na webu jenom jazykové páry EN-xx (obsahují i opačný směr xx-EN).



Udělal jsem prezentaci

www.condak.cz/archiv-net/2014-07/25/cs/00.html

Ukazuje jak je možno využít bezplatně stažená data, zatím ale pouze v kombinaci s angličtinou.

Jedna stránka je věnovaná křížovému importu.

http://www.condak.cz/archiv-net/2014-07/25/cs/03.html

Toto téma není nyní dále rozpracováno.

Milan


 


There is no moderator assigned specifically to this forum.
To report site rules violations or get help, please contact site staff »


Statisticky extrahované slovníky z databáze DGT

Advanced search






Protemos translation business management system
Create your account in minutes, and start working! 3-month trial for agencies, and free for freelancers!

The system lets you keep client/vendor database, with contacts and rates, manage projects and assign jobs to vendors, issue invoices, track payments, store and manage project files, generate business reports on turnover profit per client/manager etc.

More info »
SDL Trados Studio 2019 Freelance
The leading translation software used by over 250,000 translators.

SDL Trados Studio 2019 has evolved to bring translators a brand new experience. Designed with user experience at its core, Studio 2019 transforms how new users get up and running and helps experienced users make the most of the powerful features.

More info »



Forums
  • All of ProZ.com
  • Term search
  • Jobs
  • Forums
  • Multiple search