Lucenitos’s Weblog

Just another WordPress.com weblog

Diccionarios electrónicos

A finales de la década de los ochenta, y como consecuencia de los avances tecnológicos, aparecen los diccionarios electrónicos entendidos como “diccionarios en soporte magnético”. Estos diccionarios, que no dejan de tener su interés y su utilidad, son, en realidad, una digitalización del diccionario, a la que se añade una lematización automática que permita la búsqueda de artículos. Se trata, en último término, de un facsímil en soporte digital que permite búsquedas y aplicaciones informáticas básicas. Aunque la diferencia con los actuales diccionarios electrónicos es muy grande, sin embargo, es interesante seguir utilizando digitalización de imágenes para la publicación de diccionarios antiguos o de imposible localización en el mercado e, incluso, en la mayoría de las bibliotecas no especializadas. Buena muestra de ello es la reciente publicación en DVD del Nuevo Tesoro Lexicográfico de la lengua española (2001) de gran interés puesto que permite la consulta de sesenta y seis diccionarios fundamentales de la lexicografía española, desde el Vocabulario de Nebrija a la 21.a edición del Diccionario de la Real Academia Española (DRAE).

Paralelamente a estos diccionarios digitales se construyeron herramientas lingüísticas, fundamentalmente de corrección ortográfica y, posteriormente, gramatical, que pronto se consolidaron con el nombre de diccionarios. Estas herramientas aparecen incorporadas en las aplicaciones de procesamiento de textos como parte de las ayudas que ofrecen estas aplicaciones para la corrección automática de textos. En sentido estricto, es evidente que no se trata de verdaderos diccionarios sino de nomenclaturas no lematizadas más o menos extensas, cuya implantación no deja lugar a dudas. Actualmente, en el inicio del siglo XXI, un diccionario electrónico supera la capacidad informativa del diccionario en soporte tradicional y, por supuesto, de los diccionarios digitales o de los diccionarios incluidos en los procesadores de texto. El diccionario electrónico es, en las versiones actuales, una aplicación informática que integra una base de datos léxica que puede ser muy rica en formatos (texto, imagen, sonido o vídeo) y contenidos, con un conjunto de herramientas para su consulta, visualización en un entorno atractivo y de fácil utilización, e, incluso, impresión en papel.

Desde el punto de vista de los usuarios, el diccionario electrónico permite una consulta más rápida y flexible de la información, ocupa menos espacio y es totalmente accesible desde cualquier ordenador y en cualquier momento y lugar (PCP 1998). Sin embargo, a pesar de todos los cambios, es indudable que sigue manteniendo su naturaleza original de obra de consulta y resolución de dudas. Lo que no está tan claro es si, realmente, supone un avance respecto del diccionario tradicional y si responde o podría responder a las expectativas del usuario actual.

Fuente:http://elies.rediris.es/elies24/pampillon_cap1.htm

Anuncios

junio 18, 2009 Posted by | rdf0809 | Deja un comentario

Historia de la traducción automática

La aspiración de obtener artilugios mecánicos que sirvan para superar las barreras lingüísticas viene de antiguo. En el siglo XVII se habla de la utilización de diccionarios mecánicos (basados en códigos numéricos universales) para superar las barreras del lenguaje, dentro de un movimiento a favor de la creación de una “lengua universal” no ambigua, basada en principios lógicos y símbolos icónicos, que permitiese comunicarse a toda la humanidad. Este empeño precede por bastante tiempo a la propia existencia del ordenador. Por ello, se puede entender que desde el momento en que un ordenador estuvo disponible en la década de 1940, la traducción automática pasó a convertirse inmediatamente en una de las aplicaciones estrella de la informática.

El mundo salía de una guerra mundial que en el plano científico había incentivado el desarrollo de métodos computacionales para descifrar mensajes en clave. A Weaver se le atribuye haber dicho “cuando veo un artículo escrito en ruso me digo, esto en realidad está en inglés, aunque codificado con extraños símbolos. ¡Vamos a descodificarlo ahora mismo!” (citado por Barr y Feigenbaum, 1981). No hace falta decir que tanto los ordenadores como las técnicas de programación de aquellos años eran muy rudimentarias (se programaba mediante el cableado de tableros en lenguaje máquina), por lo que las posibilidades reales de probar los métodos eran mínimas.

Desde entonces, ha dado tiempo a realizar numerosos experimentos, pequeños y grandes, así como inversiones institucionales e industriales sustanciosas. Un referente obligado para conocer con más detalle la evolución de la traducción automática es el académico británico John Hutchins, cuya bibliografía puede, por suerte, ser consultada libremente en Internet. En el artículo principal se sigue el esquema simplificado de Johnatan Slocum, que aborda la historia de la TA por décadas.

Fuente:http://es.wikipedia.org/wiki/Traducci%C3%B3n_autom%C3%A1tica

junio 18, 2009 Posted by | rdf0809 | Deja un comentario

Traducción automática

La traducción automática (TA), también llamada MT (del inglés Machine Translation), es un área de la lingüística computacional que investiga el uso de software para traducir texto o habla de un lenguaje natural a otro. En un nivel básico, la traducción por computadora realiza una sustitución simple de las palabras atómicas de un lenguaje natural por las de otro. Por medio del uso de corpora lingüísticos se pueden intentar traducciones más complejas, lo que permite un manejo más apropiado de las diferencias en la tipología linguística, el reconocimiento de frases, la traducción de expresiones idiomáticas y el aislamiento de anomalías.

En las últimas décadas ha habido un fuerte impulso en el uso de técnicas estadísticas para el desarrollo de sistemas de traducción automática. Para la aplicación de estas técnicas a un par de lenguas dado, se requiere la diponibilidad de un corpus paralelo para dicho par. Mediante este corpus se estiman parámetros de sendos modelos estadísticos que establecen la probabilidad con la que ciertas palabras son susceptibles de traducirse por otras, así como las posiciones más probables que tienden a ocupar las palabras de la lengua destino en función de las palabras correspondientes de la frase origen. El atractivo de estas técnicas radica en que el desarrollo de un sistema para un par de lenguas dado puede hacerse de manera muy automática, con una muy reducida necesidad de trabajo experto por parte de especialistas en lingüística.

La intervención humana puede mejorar la calidad de la salida: por ejemplo, algunos sistemas pueden traducir con mayor exactitud si el [usuario] ha identificado previamente las palabras que corresponden a nombres propios. Con la ayuda de estas técnicas, la traducción por computadora ha mostrado ser un auxiliar útil para los [traductores] humanos. Sin embargo, y aún cuando en algunos casos pueden producir resultados utilizables «tal cual», los sistemas actuales son incapaces de producir resultados de la misma calidad que un traductor humano, particularmente cuando el texto a traducir usa [lenguaje coloquial] o familiar.

En esta dirección, recientemente están cobrando especial interés las técnicas estadísticas de traducción asistida basadas en una aproximación interactiva-predictiva, en la que el computador y el traductor humano trabajan en estrecha colaboración mutua. Tomando como base el texto fuente a traducir, el sistema ofrece sugerencias sobre posibles traducciones a la lengua destino. Si alguna de estas sugerencias es aceptable, el usuario la selecciona y, en caso contrario, corrige lo necesario hasta obtener un fragmento correcto. A partir de este fragmento, el sistema produce mejores predicciones. El proceso continúa de esta manera hasta obtener una traducción completamente aceptable por el usuario. Según las evaluaciones realizadas con usuarios reales en el proyecto TransType-2, este proceso permite reducir considerablemte el tiempo y esfuerzo necesarios para obtener traducciones de calidad.

Fuente:http://es.wikipedia.org/wiki/Traducci%C3%B3n_autom%C3%A1tica

junio 18, 2009 Posted by | rdf0809, Uncategorized | Deja un comentario

Recursos lingüísticos digitales

Hoy en día existen una gran variedad de recursos lingüísticos digitales que ayudan al usuario a realizar todo tipo de tareas: desde buscar el significado de una palabra en cualquier idioma a traducir un texto de una lengua a otra en unos segundos. Se podría decir que casi todo es posible, sin embargo, hay que evitar el peligro de dejarse llevar por estas facilidades y no perder de vista el trabajo intelectual. Es evidente que la traducción simultánea de un texto dará muchas pistas al usuario acerca de lo que se describe en el texto pero nunca realizará (por lo menos hoy por hoy) una traducción exacta. Para llevar a cabo una tarea adecuada habrá que trabajar sobre el texto traducido intentando acercarse lo máximo posible a su significado esencial.

Los recursos son herramientas, los recursos son medios, no hay que olvidar que el fin último nunca deja de lado el trabajo intelectual, el trabajo primitivo entre el sujeto y el objeto.

junio 18, 2009 Posted by | rdf0809, Uncategorized | Deja un comentario

American National Corpus

It is natural to think that if there exist a British National corpus, there will be an American one. The importance of American English has reached the level of consideration of the Brtish English. Nowadays it could be argued that there are two standard English: the British English and the American one.

The American National Corpus (ANC) project is creating a massive electronic collection of American English, including texts of all genres and transcripts of spoken data produced from 1990 onward. The ANC will provide the most comprehensive picture of American English ever created, and will serve as a resource for education, linguistic and lexicographic research, and technology development.

When completed, the ANC will contain a core corpus of at least 100 million words, comparable across genres to the British National Corpus (BNC). The corpus will also include an “opportunistic” component of potentially several hundreds of millions of words, chosen to provide both the broadest and largest selection of texts (and, where available, annotations) possible.

source:http://americannationalcorpus.org/

junio 18, 2009 Posted by | rdf0809, Uncategorized | Deja un comentario

What is the British National Corpus?

The British National Corpus (BNC) is a 100 million word collection of samples of written and spoken language from a wide range of sources, designed to represent a wide cross-section of British English from the later part of the 20th century, both spoken and written. The latest edition is the BNC XML Edition, released in 2007.

The written part of the BNC (90%) includes, for example, extracts from regional and national newspapers, specialist periodicals and journals for all ages and interests, academic books and popular fiction, published and unpublished letters and memoranda, school and university essays, among many other kinds of text. The spoken part (10%) consists of orthographic transcriptions of unscripted informal conversations (recorded by volunteers selected from different age, region and social classes in a demographically balanced way) and spoken language collected in different contexts, ranging from formal business or government meetings to radio shows and phone-ins.

The corpus is encoded according to the Guidelines of the Text Encoding Initiative (TEI) to represent both the output from CLAWS (automatic part-of-speech tagger) and a variety of other structural properties of texts (e.g. headings, paragraphs, lists etc.). Full classification, contextual and bibliographic information is also included with each text in the form of a TEI-conformant header.

To sum up it could be said that this BBC is very helpul in order to understand the meaning of a word by having a great number of different contexts to compare its meaning.

Source:http://www.natcorp.ox.ac.uk/corpus/index.xml

junio 17, 2009 Posted by | rdf0809, Uncategorized | Deja un comentario