Implantar el llenguatge natural

Implanting natural language. Since the work of Chomsky “Syntactic Structure”(1957) Computational Linguistics has become an area of interest in Artificial Intelligence. It Deals with the modelling of human language useage, and the problems it handles are studied within very different disciplines.

Podem imaginar una tertúlia on humans i robots discuteixen sobre algun tema de l’entorn en què es desenvolupen? És clar que això és només ficció! I no ciència-ficció! Però sent com és ficció, es tracta d’un objectiu atractiu que mereix l’atenció del camp de la intel·ligència artificial.

El problema se centra en el processament de llenguatges naturals i s’hi fa referència, en general, en termes de “lingüística computacional”. Naix per motius militars amb mires a desxifrar els missatges captats dels exèrcits enemics i se centra en el problema de la traducció automàtica.

L’aparició de les gramàtiques generatives catapulta l’interès per aquesta tasca de molts investigadors pertanyents a àmbits de la ciència molt diversos, de manera que avui és un problema multidisciplinar del qual poden ocupar-se –i s’ocupen– la lingüística, la lògica, la psicologia cognitiva, l’enginyeria, la matemàtica, l’epistemologia, etc.

Sense cap gènere de dubtes, el tractament de textos és una secció de la lingüística computacional amb què tots ens trobem molt familiaritzats. Es tracta en aquest cas del llenguatge escrit, que no passa de ser tractat més que com un banc de dades que ha de ser implantat a l’ordinador de manera que siga possible un intercanvi d’accions amb l’usuari dirigit a crear i imprimir documents del llenguatge natural. Aquest banc de dades de documents lingüístics precisa d’una organització que facilite manipular-los per permetre a l’ésser humà el disseny, per exemple, de capítols, la inserció dels textos parcials als llocs adequats, el disseny estètic de l’organització de l’escrit, la supressió, el transport de fragments o la inserció de segments d’altres textos o il·lustracions per a acabar en la seua impressió material.

En fi, el progrés tècnic proporciona avui una interfície tal que podem tenir en pantalla un avançament fidel del text que tindrem imprès, amb l’al·licient que encara no té per què ser el document definitiu. Per la seua banda, el llançament de nous mitjans de comunicació amb intervenció dels ordinadors ha afavorit implantar mecanismes en què el llenguatge natural –expressions del llenguatge natural– exerceix un paper determinant en la materialització de la comunicació entre humans. La incorporació del llenguatge oral al tractament de textos és un objectiu encara no assolit. Les investigacions fonològiques possibilitaran en breu un millor i més còmode accés als mitjans informàtics a sectors amb serioses dificultats per a recórrer a aquests mitjans. Això succeirà quan la interfície permeta a l’ordinador sentir i parlar, com els humans.

«Serà difícil que algú dubte que es pot dissenyar una eina que permeta a un escriptor, quan escriu una frase, examinar-ne les variants que li presente l’ordinador amb termes equivalents»

Encara que aquesta empresa implica molts problemes, no hi ha lloc per a l’escèptic; serà difícil que algú dubte que es pot dissenyar una eina que permeta a un escriptor, quan escriu una frase, examinar-ne les variants que li presente l’ordinador amb termes equivalents recolzant-se en un diccionari de sinònims perquè decidesca si manté la fórmula original o si prefereix alguna de les altres; per exemple, per la simple raó que un determinat vocable està sent ja prolixament utilitzat en el text que el precedeix segons el recompte que el programa pot anar realitzant.

Les dificultats que a aquest nivell –el nivell del tractament de textos– trobem s’incorporen, per descomptat, a altres nivells en què, diguem-ne, es troba involucrada la intel·ligència en un grau major. Un d’aquests casos seria el de la traducció de textos d’una llengua a una altra. Encara que tediós, és possible confeccionar els diccionaris d’aquestes dues llengües. Fins i tot establir l’eventual correspondència entre els termes. Però una frase, com tots sabem, no es redueix a una col·lecció de termes. Té, a més, una estructura que no resulta evident, al mateix temps que és possible que llenguatges diferents no compartesquen estructures.

És corrent que en una llengua un terme tinga accepcions diferents. Pot pertànyer a categories gramaticals distintes (“roda” és un substantiu, però també un verb). El que implica que un fragment lingüístic pot ser interpretat sota estructures gramaticals diferents (la qual cosa seria un inconvenient menor si la llengua receptora comptara per al dit terme amb un altre exactament en les mateixes circumstàncies). I fins i tot és també possible que una frase amb una estructura determinada puga respondre a estructures profundes diferents: “Estic preparat per a l’operació”, ho diu el metge o el pacient?

És clar que en les expressions mateixes no es contenen els elements necessaris per a decidir-se en un sentit o en un altre. I hauríem de preguntar-nos com resol l’ésser humà aquestes ambigüitats quan sorgeixen en la comunicació amb els seus congèneres. En ocasions pel context en què es produeixen; altres vegades pel coneixement que el receptor té de l’entorn social de l’emissor o de l’àmbit a què es refereix la informació. És notori que en aquests casos, en menor o en major grau, ens referim al coneixement que el receptor tinga, a partir del qual haurà d’inferir o deduir quina és l’estructura profunda més probable que corresponga a l’emissió.

Resulta evident que aquests criteris excedeixen els límits en què usualment treballa el lingüista. Potser hauríem de recórrer a models de psicologia cognitiva. Però on són, aquests models que descriuen el funcionament del coneixement humà pel que fa al llenguatge? Han de ser models dissenyats amb precisió perquè puguen ser computats, encara que siguen, això sí, models estadístics i probabilístics, borrosos.

«Hi ha conductes lingüístiques que poden ser simulades. Parcel·les del llenguatge en què pot intervenir la màquina en auxili de l’home»

Potser que ens trobem entre els qui no veuen cap raó perquè en un futur l’ordinador no “comprenga” el llenguatge natural com un humà. I és factible que siguem detractors d’aquesta idea. Però en el que sí que crec jo que estaríem tots d’acord és que hi ha conductes lingüístiques que poden ser simulades. Parcel·les del llenguatge en què pot intervenir la màquina en auxili de l’home. I si els models formals de la conducta humana a imitar encara no existeixen, el repte resulta ser una invitació temptadora per al psicòleg cognitivista i per a l’enginyer del coneixement, que no poden deixar de costat les propostes lingüístiques especialitzades.

Però tornem a les nostres paraules inicials. La nostra ficció pretén que el robot, a més de rebre els inputs i emmagatzemar-los en un banc de dades, siga capaç d’elaborar informació, transmetre-la i ampliar la informació que ja haja estat elaborada. Dit així sembla simple. Però hi ha molts problemes. Per exemple, d’índole filosòfica. On comença el coneixement? En els sentits o a la ment? Està l’experiència impregnada de teoria? Caldrà determinar, a més, quins són o poden ser els mecanismes que fan que un sistema amb capacitat de coneixement conega; és a dir, es decidesca a conèixer.

Per descomptat, es tracta d’un problema prescindible. Podem ser els humans –beneficiaris de la dita conducta– els qui impulsem que aquesta es produesca. I en comptes de dissenyar instruments dirigits al coneixement en general els dissenyarem amb fins específics.
Dotar de sensors els ordinadors és un problema d’enginyeria. Però serà necessari també dissenyar un sistema de categories en què es distribuesquen els inputs i experimenten una primera organització. A qui o quins correspon fer-ho? A més, haurem de dissenyar sistemes de representació que el mateix sistema intel·ligent (no nosaltres) siga capaç de conèixer i sobre el qual puga actuar. Perquè no es pretén (de moment almenys) construir sistemes intel·ligents que s’autoorganitzen, sinó sistemes que simulen conducta intel·ligent humana. En aquest cas conducta lingüística.

En segon lloc s’haurà d’implantar el lèxic del llenguatge ordinari en qüestió (o llenguatges), les regles gramaticals de la seua construcció i els sistemes de parsing (recerca d’estructures apropiades per a una cadena lingüística donada) per a poder procedir a la seua semantització. Serà al seu torn necessari dissenyar estratègies d’eliminació de les ambigüitats, possiblement investigant el procediment humà per a resoldre-les. En bona mesura haurem de recórrer al coneixement ja adquirit, a partir del qual inferim coneixement nou.

Són problemes de coneixement en què s’embarquen equips d’investigadors lògics. No sols raonament deductiu, sinó també probabilístic. O tècniques com la circumscripció o l’abducció per a la generació d’hipòtesis a partir de dades no connectades amb una teoria.

La situació en la computació del llenguatge no és gens falaguera. Dista molt de ser satisfactòria. El problema més greu és que encara no sabem com és que parlem i entenem el que parlem. Urgeix crear models formals que hipotèticament responguen als mecanismes naturals del parlant.
La seua implantació en un ordinador permet testar aquestes hipòtesis, corregir i millorar-les i fins i tot descobrir mitjançant analogies formals estructures no advertides ni sospitades en l’exercici de la parla.

Si la parla és una conducta intel·ligent, se n’han d’estudiar els aspectes computacionals. Si és una funció del sistema parlant hi sorgeixen problemes que escapen als estudis en què tradicionalment treballen els lingüistes. Sense que això necessàriament signifique negar competència en aquests als esmentats especialistes, cal reconèixer que també se n’ocupen estudiosos d’altres àmbits.

En la parla hi ha problemes de representació de la informació, de memòria o emmagatzemament i de creació de nova informació. No poden ser explotables els resultats obtinguts per la biologia en aquest camp? Hi ha problemes de comunicació i de reconeixement de la informació que transporta la parla. No sols hi ha llenguatge. La seua computació també comporta dificultats en què s’hauran de prendre decisions amb criteris probabilístics sobre bases estadístiques, caldrà dissenyar models formals i matemàtics que donaran lloc a models que puguen ser implantats a l’ordinador mitjançant programes que cal crear. Ni filòsofs, ni lingüistes, ni matemàtics, ni psicòlegs, ni enginyers, ni lògics, ni biòlegs, ni, en general, els qui vegen en els actes de parla participació de la disciplina en què treballen no haurien de renunciar a la seua comesa en aquest àmbit d’investigació. Un dels atractius d’aquest camp ha de ser precisament el seu caràcter multidisciplinar.

Les investigacions aïllades en cada sector han de ser, per descomptat, molt importants. Però no hem d’oblidar que pretenen ser integrades en una única comesa, i per això difícilment els aspectes involucrats resisteixen una anàlisi independent dels altres. Cada problema resolt, però, en qualsevol d’ells tindrà aplicació immediata quasi amb tota seguretat en benefici dels usuaris. Però sens dubte una resolució conjunta d’un aspecte tocant a totes les seues dimensions constituirà un estudi més fi i fructífer que no les solucions individuals relatives a les seues dimensions aïllades.

© Mètode 2003 - 39. Del crit a la paraula - Tardor 2003

Departament de Lògica i Filosofia de la Ciència, Universitat de València.