viernes, 30 de abril de 2010

Lingüística computacional (II)






(El capítulo anterior de esta serie puede leerse
aquí )


Para que el lenguaje pueda ser procesado por un ordenador de manera mecánica es necesario plasmar el funcionamiento de un idioma en un modelo formal que pueda ser manejado por una máquina. La lingüística computacional, por tanto, debe desarrollar modelos del lenguaje que permitan decidir cómo se forman las oraciones, cuáles están bien creadas, si su significado es correcto, etc. Y, además, estos modelos deben ser matemáticos, tratables por algoritmos de cálculo.

Hay dos grandes tipos de modelos del lenguaje:

a) Modelos algebraicos o axiomáticos en los que el idioma se representa por medio de símbolos que pueden ser combinados y analizados de acuerdo a la teoría de conjuntos y la lógica algebraica. Estos modelos contienen un conjunto de elementos sobre los que aplicar los cálculos (que, en primera instancia, podríamos identificar con las palabras del idioma), un conjunto de restricciones que establecen qué combinaciones de los elementos son admisibles (por ejemplo, que un sustantivo y un adjetivo deben concordar en género y número) y un conjunto de reglas que pueden aplicarse sobre los elementos y las restricciones (por ejemplo, que una frase posible es determinante+sustantivo+verbo+adjetivo) de modo que se generen oraciones válidas.

Un modelo de este tipo intenta plasmar la estructura lógica del lenguaje.

b) Modelos estadísticos en los que no se pretende una representación precisa del idioma sino que se analiza la frecuencia estadística de la aparición en el mismo de ciertas palabras, combinación de ellas, cada morfena, cada sintagma, cada categoría sintáctica, cada significado en caso de ambigüedades, etc. Si la base de datos sobre la que actúa un modelo de este tipo es suficientemente grande será muy probable que pueda encontrarse una oración o que pueda completarse otra a partir de ciertos componentes.

Las aplicaciones comerciales existentes, especialmente en el caso de los traductores computerizados, se basan más en modelos estadísticos mientras que los desarrollos del lenguaje en el ámbito de la inteligencia artificial y la búsqueda del ordenador hablante se basan en los algebraicos. Y en la creación automática de literatura es muy posible que esta aproximación sea también más posibilista.


Los modelos algebraicos

Vimos anteriormente que, simplificando, un modelo algebraico contiene tres partes fundamentales: el conjunto de símbolos, el conjunto de restricciones y el conjunto de reglas.

El conjunto de elementos es el diccionario sobre el que queremos actuar. Si se trata de una aplicación genérica, ese conjunto será el total de palabras de una idioma. Por el contrario, si se busca un programa especializado en un campo determinado (por ejemplo, un algoritmo que interactúe en el diagnóstico médico), ese corpus se reducirá a ese nicho específico, lo que simplificará el tratamiento.

Dentro del conjunto de elementos pueden existir subconjuntos complementarios. Por ejemplo, si además de comprender expresiones y crearlas en pantalla, la máquina debe escucharlas y hablarlas, entonces deberemos tener una base de datos fonética.

El conjunto de reglas incluirá todas aquellas formas admisibles en la construcción de frases. Así, en castellano, una regla que habría que introducir en el algoritmo sería:

SN -> (DET) + N

Ecuación que puede leerse como Un sintagma nominal se compone de un determinante opcional y un nombre.

Con esta regla se pueden formalizar enunciados como El caballo. El componente entre paréntesis significa que puede ser opcional. En el sintagma nominal anterior, sólo el sustantivo es obligatorio.

Pero también podemos fijar reglas como:

SN -> (DET)+ N+ (ADJ) para, por ejemplo, El caballo blanco

O bien:

SN -> (DET)+ (ADJ) +N+ (ADJ) para, por ejemplo, El bonito caballo blanco

En la fase de análisis, usualmente muy laboriosa, es preciso determinar todas las reglas posibles y las excepciones (que no son sino reglas adicionales).


Seguir leyendo aquí.

Entrada publicada por Félix Remírez


Share/Save/Bookmark

No hay comentarios:

Publicar un comentario

Related Posts Plugin for WordPress, Blogger...