An introduction to automatic translation II Spa
Introducción a la Traducción Automática II
Densidad léxica
La distinción entre lenguajes de especialidad y lengua común tiene relación con otras dos nociones importantes, la de granularidad, también de Melby, y la de densidad léxica de Laviosa (1998). La definición de granularidad se basa en el tamaño de las unidades léxicas en las que se puede segmentar un texto. Los textos de granularidad más gruesa son los que contienen combinaciones mayores de palabras: fórmulas, frases hechas, nombres propios, términos compuestos. La densidad de un texto es inversamente proporcional a la granularidad. A mayor densidad, menor granularidad. Los textos que muestran una densidad alta son generalmente de ámbitos de especialidad. Muchas normas y órdenes de las que se publican en los boletines oficiales son de granularidad 1 y densidad 100, ya que se componen de una única fórmula administrativa (como la concesión de una licencia para construir una casa, por ejemplo).
Podemos decir en resumen que
• el lenguaje de especialidad tiene mayor densidad y es más apropiado para la TA;
• la lengua común tiene menor densidad y es menos apropiada para la TA.
La noción de granularidad tiene que ver con un problema muy conocido en teoría de la traducción, que es la segmentación de los textos en unidades de traducción (Bennett, 1994). Es importante distinguir las unidades por su extensión, es decir, por el número de palabras que las forman, y por su cohesión, o posibilidad de interpretarlas conjuntamente o por separado:
Categorías morfosintácticas: la unidad básica en todos los sistemas de traducción automática suele ser la palabra (o lexía simple). Las categorías morfosintácticas permiten establecer abstracciones sobre las palabras y son la base de las gramáticas de estructura sintagmática:
Subcategorías: dentro de cada categoría se da una gran variedad de comportamientos, la mayoría divergentes entre una lengua y otra. Los patrones de subcategorización permiten plasmar estas divergencias: subj(x) likes obj(y) / subj(y) gusta obj(x).
Colocaciones: categorías y subcategorías muestran con frecuencia “hábitos de colocación sintagmática” particulares: fast waltz, rapid movement, quick action, speedy recovery. Lexías complejas (palabras compuestas): combinaciones de palabras que lexicalizan: comida rápida/ fast food; movimientos oculares rápidos/ rapid eye movement (REM).
Locuciones: grupos preposicionales o conjuntivos fijos: after all/ när allt kommeromkring, still / a pesar de todo.
Giros idiomáticos: son grupos sintagmáticos con flexibilidad sintáctica: Estaba más loca que una cabra/ She was as nutty as a fruitcake.
Fórmulas: incluye proverbios, Más vale pájaro en mano que ciento volando; títulos de obras, películas Monthy Pyton and the Holy Grail / Los caballeros de la mesa cuadrada; y otros elementos fijos del discurso, como este extracto de una escritura inglesa To do all such other things as are incidental or conductive to the above objects or any of them.
Esta clasificación, que se propone en Abaitua (2001), incluye unidades que son entenderse a partir de los significados parciales, y otras de mayor cohesión (d-g). Un sistema de traducción automática debe ser capaz de reconocer las unidades mayores primero, antes de tratar cada palabra por separado.
Distancia lingüística y cultural
Un tercer aspecto que va a incidir de manera fundamental en la dificultad de traducir por medios mecánicos es la distancia lingüística y cultural entre lenguas. Esta dimensión, que es clave para acertar en el diseño de un traductor mecánico, paradójicamente no ha sido tenida en cuenta hasta épocas recientes. Hoy sólo podemos entender que proyectos como EUROTRA fallaran tan estrepitosamente por la ingenuidad de sus diseñadores, que no fueron capaces de reconocer esta dimensión, o por la desmesurada fe en su metodología (es decir, por su arrogancia científica). Al cabo de los años parece inexplicable que no hubieran sido capaces de construir si no un único sistema, al menos dos subsistemas hábiles, adaptados a cada una de las dos grandes familias lingüísticas europeas representadas en la Unión: la latina (italiano, francés, español y portugués) y la germana (alemán, holandés e inglés). El griego y el danés quedaban fuera, pero podrían haberse adaptado con más o menos dificultad a los subsistemas latino y germánico respectivamente.
La cercanía entre las lenguas latinas es tan grande, que un sistema simple de traducción sintagma por sintagma hubiera dado resultados aceptables muy rápidamente. Problemas tan importantes como el orden de las palabras, la ambigüedad estructural y lógica, o la adecuación de registro habrían sido minimizados por su proximidad lingüística. Esta misma razón es la que ha permitido obtener tan buenos y rápidos resultados en los sistemas de traducción del español al catalán y al gallego. La estrategia de traducción al euskara tiene que ser necesariamente mucho más elaborada, porque las diferencias estructurales entre las gramáticas de las lenguas latinas y la del euskara, en lo referente a los aspectos citados, son muy importantes.
Pero al problema de la distancia lingüística hay que sumar la distancia cultural. Las gramáticas del euskara y del japonés tienen muchos puntos de coincidencia, pero esto no quiere decir que se pueda obtener un sistema con la misma facilidad con la que se obtiene para el gallego y el español. El principal problema para traducir del y al japonés estriba en lo exótico de sus convenciones culturales, sobre todo en aquellas que se manifiestan en la lengua. Las estrategias de comunicación en esta lengua oriental son muy distintas si se las compara con las de las lenguas europeas; no sólo se complica el número de registros y estilos, sino que los giros y expresiones más sencillas de decir las cosas cambian también. Al traducir del y al japonés hay que tener en cuenta más cuestiones que las meramente gramaticales. Las traducciones con base sintáctica producen la mayoría de las veces textos no sólo inadecuados,
sino casi siempre totalmente incomprensibles.