Statisticky extrahované slovníky z databáze DGT
Thread poster: Milan Condak
Milan Condak
Milan Condak  Identity Verified
Local time: 16:04
English to Czech
Jul 14, 2014

V rámci projektu TaaS, který koncem června 2014 obsahoval 87 tisíc českých slov a je dostupný přes web https://demo.taas-project.eu/

existuje i možnost si slovníky stáhnout

http://www.taas-project.eu/index.php?page=alias-3

Prozatím jsou na webu jeno
... See more
V rámci projektu TaaS, který koncem června 2014 obsahoval 87 tisíc českých slov a je dostupný přes web https://demo.taas-project.eu/

existuje i možnost si slovníky stáhnout

http://www.taas-project.eu/index.php?page=alias-3

Prozatím jsou na webu jenom jazykové páry EN-xx (obsahují i opačný směr xx-EN). Kromě zdrojových dat je k dispozici 6 statisticky vyčištěných slovníků.

čistící metoda počet slovních dvojic EN-CS

LLR 157 tisíc
Pivot 349 tisíc
Transliteration 267 tisíc

V jednom sloupci je zdrojový termín, jeho pravděpodobný překlad a koeficient pravděpodobnosti. Mezi výrazy je vždy mezera. Hlavní nevýhodou je, že jde o párování jednoslovných výrazů, takže jedno anglické slovo je přeloženo do více českých tokenů (gramatických tvarů) a anglické slovo je bez kontextu (předložek, členů apod.).

Podle přiloženého referátu ve formátu PDF existují i jazykové páry FR-XX a DE-XX. Budou ke stažení později. Referát uvádí jako nejúčinnější metodu čištění "ruční čištění", to ale vyžaduje jazykové znalosti a je časově náročné.

Stáhnout je možné také ověřenou terminologii = IATE, pro češtinu v ní je pouze 26.202 výrazů

http://iate.europa.eu/tbxPageDownload.do

diskuze k tématu je zde

http://www.proz.com/forum/translator_resources/271879-part_of_the_iate_database_can_now_be_downloaded_as_a_massive_tbx.html

a také v jných jazycích.

Milan

[Upraveno: 2014-07-14 19:42 GMT]
Collapse


 
Milan Condak
Milan Condak  Identity Verified
Local time: 16:04
English to Czech
TOPIC STARTER
Prezentace o využití dat Jul 27, 2014

Milan Condak wrote:

Prozatím jsou na webu jenom jazykové páry EN-xx (obsahují i opačný směr xx-EN).



Udělal jsem prezentaci

www.condak.cz/archiv-net/2014-07/25/cs/00.html

Ukazuje jak je možno využít bezplatně stažená data, zatím ale pouze v kombinaci s angličtinou.

Jedna stránka je věnovaná křížovému importu.

http://www.condak.cz/archiv-net/2014-07/25/cs/03.html

Toto téma není nyní dále rozpracováno.

Milan


 


There is no moderator assigned specifically to this forum.
To report site rules violations or get help, please contact site staff »


Statisticky extrahované slovníky z databáze DGT






Protemos translation business management system
Create your account in minutes, and start working! 3-month trial for agencies, and free for freelancers!

The system lets you keep client/vendor database, with contacts and rates, manage projects and assign jobs to vendors, issue invoices, track payments, store and manage project files, generate business reports on turnover profit per client/manager etc.

More info »
Trados Business Manager Lite
Create customer quotes and invoices from within Trados Studio

Trados Business Manager Lite helps to simplify and speed up some of the daily tasks, such as invoicing and reporting, associated with running your freelance translation business.

More info »