Creare un database dai glossari MS
Thread poster: Joris Bogaert

Joris Bogaert  Identity Verified
Italy
Local time: 09:55
Italian to Dutch
+ ...
Nov 15, 2006

Un po’ di tempo fa, ho scaricato i famosi glossari Microsoft, in 2 versioni: italiano e olandese.
Pensavo che un giorno potessero essere utili per creare un database da usare con funzione 'read' in un CAT.
Adesso, vorrei creare un database IT-NL (quindi evitando l'inglese, se possibile) da questi glossari.
Ciascuna versione contiene molti documenti, tutti con estensione .csv, quindi apribili con Excel.

Riporto un esempio della visualizzazione in Excel:

Download Complete,,Download completato,,TXB,,Windows,Windows Media Player 10

Quindi: termine source,, termine target,, (per cosa sta TXB?),, Software 'madre', Nome e versione del software

Vorrei sapere se qualcuno ha mai creato un database (da usare poi con un CAT) da questi glossari. Teoricamente, basterebbe allineare i due files identici; ma non so se c'è un modo più o meno semplice per ottenere il risultato voluto. Non l'ho mai fatto così. Conviene prima crearne due (ovvero EN-IT e EN-NL)?
Cosa potete consigliarmi e come dovrei procedere? Magari usando il CAT DVX.

Grazie!


[Edited at 2006-11-15 16:51]

[Edited at 2006-11-15 16:52]


Direct link Reply with quote
 

Maurizio Valente  Identity Verified
Italy
English to Italian
+ ...
E' una faccenda complicata Nov 15, 2006

Ciao Joris.
Io ci avevo provato con il Francese - Italiano, ottenuto dall'inglese- francese e dall'inglese-italiano.

Il primo problema è che non c'era corrispondenza tra i file, ossia, dato un file csv en-it, non c'era l'equivalente en-fr (altrimenti sarebbe abbastanza semplice).

Non so com'è la situazione per l'en-it e l'en-nl. Prova a vedere...


Joris Bogaert wrote:

Un po’ di tempo fa, ho scaricato i famosi glossari Microsoft, in 2 versioni: italiano e olandese.
Pensavo che un giorno potessero essere utili per creare un database da usare con funzione 'read' in un CAT.
Adesso, vorrei creare un database IT-NL (quindi evitando l'inglese, se possibile) da questi glossari.
Ciascuna versione contiene molti documenti, tutti con estensione .csv, quindi apribili con Excel.

Riporto un esempio della visualizzazione in Excel:

Download Complete,,Download completato,,TXB,,Windows,Windows Media Player 10

Quindi: termine source,, termine target,, (per cosa sta TXB?),, Software 'madre', Nome e versione del software

Vorrei sapere se qualcuno ha mai creato un database (da usare poi con un CAT) da questi glossari. Teoricamente, basterebbe allineare i due files identici; ma non so se c'è un modo più o meno semplice per ottenere il risultato voluto. Non l'ho mai fatto così. Conviene prima crearne due (ovvero EN-IT e EN-NL)?
Cosa potete consigliarmi e come dovrei procedere? Magari usando il CAT DVX.

Grazie!


[Edited at 2006-11-15 16:51]

[Edited at 2006-11-15 16:52]


[Edited at 2006-11-15 18:38]


Direct link Reply with quote
 

Leonardo Musumeci  Identity Verified
Italy
Local time: 09:55
English to Italian
+ ...
csv converter della heartsome Nov 15, 2006

Joris Bogaert wrote:

Un po’ di tempo fa, ho scaricato i famosi glossari Microsoft, in 2 versioni: italiano e olandese.
Pensavo che un giorno potessero essere utili per creare un database da usare con funzione 'read' in un CAT.
Adesso, vorrei creare un database IT-NL (quindi evitando l'inglese, se possibile) da questi glossari.
Ciascuna versione contiene molti documenti, tutti con estensione .csv, quindi apribili con Excel.

Riporto un esempio della visualizzazione in Excel:

Download Complete,,Download completato,,TXB,,Windows,Windows Media Player 10

Quindi: termine source,, termine target,, (per cosa sta TXB?),, Software 'madre', Nome e versione del software

Vorrei sapere se qualcuno ha mai creato un database (da usare poi con un CAT) da questi glossari. Teoricamente, basterebbe allineare i due files identici; ma non so se c'è un modo più o meno semplice per ottenere il risultato voluto. Non l'ho mai fatto così. Conviene prima crearne due (ovvero EN-IT e EN-NL)?
Cosa potete consigliarmi e come dovrei procedere? Magari usando il CAT DVX.

Grazie!


Ciao Joris,

Per creare un database dei glossari, non so...non ho mai provato (essendo in csv si potrebbe usare Access, per comodità, poi però bisognerebbe convertire il formato .mdb di Access in un formato leggibile da un Cat...od usare un cat che legga direttamente il formato .mdb)

Il cat dvx non lo conosco, se usi Omegat però, c'è un software in java, gratuito, di Heartsome che converte il formato csv in tmx (csv converter : http://www.heartsome.org/EN/csvconverter.html ) senza dover creare necessariamente un database....

Perchè vorresti creare un database e non "semplicemente" (visto il problema, suggerito da Maurizio, della corrispondenza dei formati dei glossari) un glossario

[Edited at 2006-11-15 18:05]


Direct link Reply with quote
 
Stefan de Boeck  Identity Verified
Belgium
Local time: 09:55
English to Dutch
+ ...
MS Nov 15, 2006

Joris Bogaert wrote:
Vorrei sapere se...

Dear Joris,

You can download the readymade Excel version (en/du/it) from here.

It’s easily turned into a Multiterm termbase; starting from its Excel format you’re still free to change it into something more suitable for whatever it is that you are using.

If you should decide you need the Multiterm XML after all, send me a kind note and reassurances. This has to happen in secret.

Kind regards,

Stefan


Direct link Reply with quote
 

Joris Bogaert  Identity Verified
Italy
Local time: 09:55
Italian to Dutch
+ ...
TOPIC STARTER
Grazie & bedankt Nov 15, 2006

Grazie Maurizio, Leonardo & bedankt Saitch!

Grazie per i vostri aiuti, in particolare Saitch per il file pronto all'uso messo a disposizione!
Ne farò buon uso

Migliori saluti,

Joris


Direct link Reply with quote
 

Maurizio Valente  Identity Verified
Italy
English to Italian
+ ...
OK, ma alcune precisazioni Nov 16, 2006

Scusate ma non mi ci raccapezzo.

Joris, tu vuoi costruire un glossario o una TM?

Premetto che per glossario intendo un database in cui il source (o il target) è costituito da una o più parole che assieme non formano una frase. Mentre la TM, beh lo sanno tutti che cos'è una TM e che cosa sono le regole di segmentazione.

Per quello che mi ricordo io, i cosiddetti glossari Microsoft sono un database di frasi. L'esempio che fai tu:

Download Complete,,Download completato,,TXB,,Windows,Windows Media Player 10

è quello di una stringa di due parole. Nello stesso file io però trovo anche (ad esempio):

Select the protocol above, and then click Configure.,,"Selezionare il protocollo, quindi scegliere Configura.",,"TXB",,"Windows","Windows Media Player 9.0"

E ci sono naturalmente anche frasi più complesse.

Il file che gentilmente ti ha messo a disposizione saitch, in tre lingue, è un glossario, e quindi può servire per creare un database di tipo "Terminology" in DejaVu o un db Multiterm. Non so come l'abbia creato.

Se invece vogliamo costruire una TM "incrociata" (olandese italiano) da un db Microsoft inglese- olandese e un altro db Microsoft inglese-italiano, il problema è più complesso.

Supponendo infatti di avere per l'inglese-olandese n file csv e di avere per l'inglese-italiano m file csv, occorrerebbe verificare se n = m o quanto meno se ad ognuno degli n file del primo insieme corrisponde uno degli m file del secondo insieme, nel senso che a una riga del tipo

double-click,,dubbelklikken,,TXB,,Windows,Windows Media Player 10
corrisponde sempre una riga
double-click,,fare doppio clic,,TXB,,Windows,Windows Media Player 10
Se così fosse potresti allineare in Excel, incollando i file equivalenti, ossia creando righe

double-clicktabdubbelklikkentabTXBtabWindows,Windows Media Player 10tabdouble-clicktabfare doppio clictabTXBtabWindows,Windows Media Player 10
Purtroppo, almeno per il caso dell'inglese-francese e dell'inglese-italiano queste due assunzioni non sono vere.

Se a qualcuno interessa, posso dare sulle indicazioni su come fare a crearla malgrado ciò. Ma è un lavoraccio.


Direct link Reply with quote
 

Joris Bogaert  Identity Verified
Italy
Local time: 09:55
Italian to Dutch
+ ...
TOPIC STARTER
Mi spiego Nov 16, 2006

In realtà, non avevo le idee chiare su quello che era possibile/fattibile ottenere da questi glossari MS, quindi ho usato il termine 'database' (per database intendevo qualsiasi 'raccolta', quindi TM, DTB o lessico). Cercavo semplicemente di sapere se potessero essere utili in qualche modo.

Da quello che mi hai detto, Maurizio, ho capito che (per creare una TM IT-NL) la cosa era piuttosto complicata, e preferisco rimandare il lavoraccio ad un momento più tranquillo. Infatti, i files EN-IT & EN-NL da mettere a confronto non sono pochi. Intanto mi prendo il glossario e vedo quanto mi può essere utile. Tu che hai fatto il lavoro per le coppie EN-FR & EN-IT, distillandone una TM FR-IT, dici che il gioco vale la candela?


Direct link Reply with quote
 

Maurizio Valente  Identity Verified
Italy
English to Italian
+ ...
Il gioco vale la candela? Nov 16, 2006

Ciao Joris
Beh, ovviamente, dipende da quanti lavori di informatica fai in quella combinazione linguistica. Io però non ho detto di esserci riuscito. Ma credo di avere una procedura che funzionerebbe. Solo che richiederebbe un computer dedicato, oppure un supercomputer, perché certe operazioni sono molto lunghe (pensa ad es. all'importazione in DejaVu). Ciao


Joris Bogaert wrote:

In realtà, non avevo le idee chiare su quello che era possibile/fattibile ottenere da questi glossari MS, quindi ho usato il termine 'database' (per database intendevo qualsiasi 'raccolta', quindi TM, DTB o lessico). Cercavo semplicemente di sapere se potessero essere utili in qualche modo.

Da quello che mi hai detto, Maurizio, ho capito che (per creare una TM IT-NL) la cosa era piuttosto complicata, e preferisco rimandare il lavoraccio ad un momento più tranquillo. Infatti, i files EN-IT & EN-NL da mettere a confronto non sono pochi. Intanto mi prendo il glossario e vedo quanto mi può essere utile. Tu che hai fatto il lavoro per le coppie EN-FR & EN-IT, distillandone una TM FR-IT, dici che il gioco vale la candela?





Direct link Reply with quote
 

lanave  Identity Verified
Italy
Local time: 09:55
French to Italian
+ ...
Domanda Nov 21, 2006

Visto che si parla di intervenire su glossari, potreste consigliarmi un buono strumento per la redazione o l'estrapolazione di glossari?

Direct link Reply with quote
 

Joris Bogaert  Identity Verified
Italy
Local time: 09:55
Italian to Dutch
+ ...
TOPIC STARTER
Nuovo topic? Nov 22, 2006

Ciao Anna,

Non saprei darti una risposta valida, ma credo sia meglio aprire un nuovo 'topic', altrimenti si rischia non solo di finire fuori tema, ma anche di non ottenere alcuna risposta alla tua domanda.



[Edited at 2006-11-22 13:05]


Direct link Reply with quote
 


To report site rules violations or get help, contact a site moderator:


You can also contact site staff by submitting a support request »

Creare un database dai glossari MS

Advanced search






CafeTran Espresso
You've never met a CAT tool this clever!

Translate faster & easier, using a sophisticated CAT tool built by a translator / developer. Accept jobs from clients who use SDL Trados, MemoQ, Wordfast & major CAT tools. Download and start using CafeTran Espresso -- for free

More info »
PerfectIt consistency checker
Faster Checking, Greater Accuracy

PerfectIt helps deliver error-free documents. It improves consistency, ensures quality and helps to enforce style guides. It’s a powerful tool for pro users, and comes with the assurance of a 30-day money back guarantee.

More info »



Forums
  • All of ProZ.com
  • Term search
  • Jobs
  • Forums
  • Multiple search