Segmentare in file di test .doc... "digerire come fosse del DNA"
Thread poster: Brg-translation

Brg-translation
Italy
Local time: 19:09
English to Italian
Mar 13, 2009

Ciao a tutti.. la mia è una richiesta bizzarra...

Vorrei "segmentare" un file di testo in modo che venga scomposto nei suoi costituenti, come si fa con il DNA sottoposto a digestione enzimatica per intenderci, avrei bisogno di ottenere in file composto da tutti i segmenti in cui la lunghezza viene definita dal numero di parole. Tutto ciò per poi confrontarli e estrarre i segmenti ripetuti, ammetto di non essere un genio di Trados, ma per quando io abbia smanettato i "segmenti sono troppo grandi" e troppo ordinati,

Per capirci la frase

I sali idrosolubili come i sali dei metalli alcalini e/o i sali dei metalli alcalino terrosi sono poco costosi, di immediata reperibilità e facilmente incorporabili dei nei sistemi catalitici quando viene messa in pratica la presente invenzione.

dovrebbe diventare qualcosa come

I sali idrosolubili
idrosolubili come i sali
come i sali dei

Impostando la lunghezza minima e massima a 3

Può sembrare un'idea folle ma ho provato personalmente a spezzettare un testo di 20 cartelle e creare un libreria di segmenti ripetuti (prendendo quelli con un senso compiuto) e, successivamente grazie all'uso combianto di più software ho applicato il tutto a un testo analogo (testo 2).

Lo stesso lavoro fatto con trados, salvando le TM dal testo 1 tradotto con winallign, 1 mi da dato 1 match al 100% e 3 fuzzy al 75%.. niente altro

Con questo metodo, grazie ai segmenti ricavati dal testo 1, ho tradotto in circa 6 minuti di elaborazione il 60% del testo 2

Inoltre applicandolo a un testo 3 per il quale trados, con la TM derivata dal testo 1, non aveva nemmeno un match ho tradotto il 45% del testo in 4 minuti.

Il tutto è spiegato a grandi linee..spero di aver reso l'idea cmq


Direct link Reply with quote
 
noordung
Local time: 19:09
Slovenian to Italian
+ ...
Certamente... Mar 13, 2009

...con il linguaggio PERL (http://it.wikipedia.org/wiki/Perl), che è molto potente e adattissimo alla manipolazione di testi: si può manipolare a piacimento qualsiasi stringa o file di testo, il suo punto di forza sono le cosiddette espressioni regolari...però non ho capito esattamente la procedura di segmentazione. Inoltre il tutto è leggermente macchinoso: copiare tutto il testo in un file txt (senza formattazione, of course), avviare il file con lo script, attendere il risultato (un altro file txt), aprire il file creato dallo script e, con un Copia&Incolla, trasferire il testo segmentato in un qualsiasi wordprocessor.
Comunque è fattibile , basta capire per bene il meccanismo, l'algoritmo, le regole (p.es., come mai la seconda riga contiene 4 parole, di cui 1 della riga precedente; devono essere considerate come parole anche gli articoli; come ci si deve comportare davanti ai segni d'interpunzione [, ; :] ecc.)


Direct link Reply with quote
 


To report site rules violations or get help, contact a site moderator:


You can also contact site staff by submitting a support request »

Segmentare in file di test .doc... "digerire come fosse del DNA"

Advanced search






Protemos translation business management system
Create your account in minutes, and start working! 3-month trial for agencies, and free for freelancers!

The system lets you keep client/vendor database, with contacts and rates, manage projects and assign jobs to vendors, issue invoices, track payments, store and manage project files, generate business reports on turnover profit per client/manager etc.

More info »
SDL MultiTerm 2017
Guarantee a unified, consistent and high-quality translation with terminology software by the industry leaders.

SDL MultiTerm 2017 allows translators to create one central location to store and manage multilingual terminology, and with SDL MultiTerm Extract 2017 you can automatically create term lists from your existing documentation to save time.

More info »



Forums
  • All of ProZ.com
  • Term search
  • Jobs
  • Forums
  • Multiple search