ground truth

Spanish translation: marco o base real/de referencia (número real/verídico de palabras habladas/pronunciadas)

GLOSSARY ENTRY (DERIVED FROM QUESTION BELOW)
English term or phrase:ground truth
Spanish translation:marco o base real/de referencia (número real/verídico de palabras habladas/pronunciadas)
Entered by: abe(L)solano

19:58 Mar 25, 2022
English to Spanish translations [PRO]
Tech/Engineering - Computers: Software
English term or phrase: ground truth
WER measures how well the machine has performed in transcribing what speakers said.
The same audio that the machine learning (ML) model has transcribed is given to human labelers to provide a ground truth for the transcription.

Thank you in advance for your help!
Rocío Ruffini
Argentina
Local time: 17:23
marco real o verdadero (número real/verdadero de palabras habladas/pronunciadas)
Explanation:
Veo que estás traduciendo el blog de Webex, y pensé que "ground truth" podía ser una alegoría o metáfora pero no, es un concepto sólido (se define como el número real/verdadero de palabras pronunciadas/habladas), ya que después del extracto que has puesto, en el blog se lee:

Word error rate (WER) is calculated by dividing the number of errors by the total number of words. To calculate the WER, start by adding up the substitutions, insertions, and deletions that occur in a sequence of recognized words. Divide that number by the total number of words according to the ground truth. The result is the WER. To put it in a simple formula, Word Error Rate = (Substitutions + Insertions + Deletions) / Number of Words Spoken.

Busqué un poco pero este es un campo muy especializado. De momento creo que la expresión
marco real o verdadero
puede ayudarte en la traducción de esta parte. En mi encabezado iba a poner "marco real o verdadero" o "dimensión real o verdadera" pero creo que me gusta mucho más "marco real/verdadero".

Fíjate como quedaría tu texto:

1) "... is given to human labelers to provide a ground truth for the transcription."
"... la transcripción se le proporciona a etiquetadores humanos para darle a la transcripción un marco real/verdadero"
2) "Divide that number by the total number of words according to the ground truth. The result is the WER."
"Hay que dividir ese número por el número de palabras total de acuerdo con el marco real/verdadero. El resultado es el WER (tasa/ratio de errores de palabra)".

Te pongo dos refs. especializadas del área donde hablan de la tasa de errores de palabra, un concepto clave aquí (aunque no encontré algo que se pareciera a "ground truth")

https://e-archivo.uc3m.es/bitstream/handle/10016/574/Pelaez ...
Capítulo II. Reconocimiento a partir de voz codificada
La tesis explica el WER de otra forma

https://e-archivo.uc3m.es/bitstream/handle/10016/15597/PFC_D...
Hablan bastante del WER y también dan la fórmula para calcularlo (pág. 41):
De este modo, las inserciones, borrados y sustituciones tienen el mismo
valor en la función que calcula el WER y su cálculo se realiza según la fórmula:
Donde
- S es el número de sustituciones
- B es el total de palabras borradas
- I es el sumatorio de inserciones
- N es el total de palabras que tiene el texto de referencia

En Proz solo encontré esta entrada de 'ground truth' parecida ('datos reales', en medicina). Las demás traducciones de ground truth = "terreno real" se aplican en ingeniería petrolera, topografía, etc. pero creo que "terreno real" no queda bien aquí. Mejor "Marco real".
https://www.proz.com/kudoz/english-to-spanish/medical-genera...

Saludos

--------------------------------------------------
Note added at 1 hora (2022-03-25 21:33:18 GMT)
--------------------------------------------------

Después de ver la respuesta de Jennifer, tal vez otra opción sea
Marco de referencia.
"... la transcripción se le proporciona a etiquetadores humanos para darle a la transcripción un marco de referencia".
""Hay que dividir ese número por el número de palabras total de acuerdo con el marco de referencia."

Aunque de empírico en mi opinión no tiene nada, son cifras/números concretos de palabras.
Selected response from:

abe(L)solano
France
Grading comment
4 KudoZ points were awarded for this answer



Summary of answers provided
4referente empírico
Jennifer Levey
4marco real o verdadero (número real/verdadero de palabras habladas/pronunciadas)
abe(L)solano
3 +1base fiable/verdadera/real; transcripción verídica
O G V


  

Answers


1 hr   confidence: Answerer confidence 4/5Answerer confidence 4/5
referente empírico


Explanation:
In this context a 'ground truth' is a quality reference which is derived empirically from the observations of qualified human beings. Transcriptions produced by AI/ML systems are, in contrast, essentially statistical.

"As adjectives the difference between empirical and statistical. is that empirical is pertaining to or based on experience while statistical is of or pertaining to statistics."
https://wikidiff.com/statistical/empirical#:~:text=As adject...

"Referentes empíricos son los datos o aspectos de la realidad (fenómenos) que se observan y se analizan en la búsqueda de la verdad. Las evidencias son datos empíricos que se captan por medio de los sentidos."
http://crecea.uag.mx/investiga/doctos/referente.pdf



Jennifer Levey
Chile
Local time: 16:23
Native speaker of: Native in EnglishEnglish
PRO pts in category: 36
Login to enter a peer comment (or grade)

1 hr   confidence: Answerer confidence 4/5Answerer confidence 4/5
marco real o verdadero (número real/verdadero de palabras habladas/pronunciadas)


Explanation:
Veo que estás traduciendo el blog de Webex, y pensé que "ground truth" podía ser una alegoría o metáfora pero no, es un concepto sólido (se define como el número real/verdadero de palabras pronunciadas/habladas), ya que después del extracto que has puesto, en el blog se lee:

Word error rate (WER) is calculated by dividing the number of errors by the total number of words. To calculate the WER, start by adding up the substitutions, insertions, and deletions that occur in a sequence of recognized words. Divide that number by the total number of words according to the ground truth. The result is the WER. To put it in a simple formula, Word Error Rate = (Substitutions + Insertions + Deletions) / Number of Words Spoken.

Busqué un poco pero este es un campo muy especializado. De momento creo que la expresión
marco real o verdadero
puede ayudarte en la traducción de esta parte. En mi encabezado iba a poner "marco real o verdadero" o "dimensión real o verdadera" pero creo que me gusta mucho más "marco real/verdadero".

Fíjate como quedaría tu texto:

1) "... is given to human labelers to provide a ground truth for the transcription."
"... la transcripción se le proporciona a etiquetadores humanos para darle a la transcripción un marco real/verdadero"
2) "Divide that number by the total number of words according to the ground truth. The result is the WER."
"Hay que dividir ese número por el número de palabras total de acuerdo con el marco real/verdadero. El resultado es el WER (tasa/ratio de errores de palabra)".

Te pongo dos refs. especializadas del área donde hablan de la tasa de errores de palabra, un concepto clave aquí (aunque no encontré algo que se pareciera a "ground truth")

https://e-archivo.uc3m.es/bitstream/handle/10016/574/Pelaez ...
Capítulo II. Reconocimiento a partir de voz codificada
La tesis explica el WER de otra forma

https://e-archivo.uc3m.es/bitstream/handle/10016/15597/PFC_D...
Hablan bastante del WER y también dan la fórmula para calcularlo (pág. 41):
De este modo, las inserciones, borrados y sustituciones tienen el mismo
valor en la función que calcula el WER y su cálculo se realiza según la fórmula:
Donde
- S es el número de sustituciones
- B es el total de palabras borradas
- I es el sumatorio de inserciones
- N es el total de palabras que tiene el texto de referencia

En Proz solo encontré esta entrada de 'ground truth' parecida ('datos reales', en medicina). Las demás traducciones de ground truth = "terreno real" se aplican en ingeniería petrolera, topografía, etc. pero creo que "terreno real" no queda bien aquí. Mejor "Marco real".
https://www.proz.com/kudoz/english-to-spanish/medical-genera...

Saludos

--------------------------------------------------
Note added at 1 hora (2022-03-25 21:33:18 GMT)
--------------------------------------------------

Después de ver la respuesta de Jennifer, tal vez otra opción sea
Marco de referencia.
"... la transcripción se le proporciona a etiquetadores humanos para darle a la transcripción un marco de referencia".
""Hay que dividir ese número por el número de palabras total de acuerdo con el marco de referencia."

Aunque de empírico en mi opinión no tiene nada, son cifras/números concretos de palabras.

abe(L)solano
France
Native speaker of: Native in SpanishSpanish
PRO pts in category: 8
Login to enter a peer comment (or grade)

2 hrs   confidence: Answerer confidence 3/5Answerer confidence 3/5 peer agreement (net): +1
base fiable/verdadera/real; transcripción verídica


Explanation:
opciones que reflejan con claridad el proceso

Una transcripción (o un punto) de partida que resulta creíble

De nuevo borrador tb

O G V
Spain
Native speaker of: Native in SpanishSpanish
PRO pts in category: 16

Peer comments on this answer (and responses from the answerer)
agree  Louis Ladebauche: Los audios de ML pasan a los labelers o a los reviewers para que compruebe y confirmen que está correcto.
12 hrs
Login to enter a peer comment (or grade)



Login or register (free and only takes a few minutes) to participate in this question.

You will also have access to many other tools and opportunities designed for those who have language-related jobs (or are passionate about them). Participation is free and the site has a strict confidentiality policy.

KudoZ™ translation help

The KudoZ network provides a framework for translators and others to assist each other with translations or explanations of terms and short phrases.


See also:
Term search
  • All of ProZ.com
  • Term search
  • Jobs
  • Forums
  • Multiple search