Processament del llenguatge natural

El processament del llenguatge natural^[1] (PLN; o NLP del seu nom en anglès, Natural Language Processing) és la disciplina informàtica que s'encarrega de tractar computacionalment les llengües naturals, o els llenguatges humans.^[2]

El PLN va néixer a finals de la dècada dels 40, però els intents de fer traducció automàtica entre anglès i rus (per part dels Estats Units, arran de la Guerra Freda) no van tenir èxit, ja que s'utilitzaven models lingüístics molt simples, i la potència dels ordinadors era molt escassa. Durant les dècades dels seixanta i setanta, amb objectius més humils, s'aconseguiren importants avenços en la implementació d'interfícies d'accés a dades en llenguatge natural. Ja a partir dels anys vuitanta, gràcies a la potència en augment dels ordinadors —així com l'adopció de teories lingüístiques més complexes—, s'estan aconseguint resultats importants en diverses àrees, com per exemple la traducció automàtica.

Principals aplicacions del PLN[modifica]

Les principals aplicacions o àrees de treball del PLN actualment són la recuperació de la informació, l'extracció de la informació, la cerca de respostes, la traducció automàtica, la generació de resums, i el reconeixement de la parla.

Tasques del PLN[modifica]

Generalment, el PLN tracta l'anàlisi lèxica, l'anàlisi morfològica, l'Anàlisi sintàctica, i la interpretació semàntica per tal d'aconseguir els seus objectius, encara que la majoria de les aplicacions se centren en algunes d'elles i no les tracten totes amb profunditat.

L'ambigüitat, el problema del PLN[modifica]

Els llenguatges humans són tots ambigus. Aquesta ambigüitat, que els humans sabem tractar i resoldre de manera inconscient la majoria de vegades, es presenta de diferents maneres:

En l'àmbit lèxic, ja que una paraula pot tenir diferents significats. Trobem dins d'aquesta ambigüitat la lèxica pura, que es dona en casos de polisèmia (una paraula amb més d'un significat) i, segons alguns autors, l'ambigüitat lèxica categorial (homonímies - paraules distintes que s'escriuen igual).

A escala referencial, la resolució d'anàfores, que implica determinar a quina entitat de les que s'han anomenat prèviament en el discurs es referencia mitjançant pronoms, oracions subordinades, etc. Alguns autors consideren aquest tipus d'ambigüitat una ambigüitat lèxica, mentre que altres la consideren una classe d'ambigüitat diferenciada, a un nivell superior.

Estructuralment, quan una mateixa frase pot tenir dos arbres d'anàlisi sintàctica diferents. Alguns autors inclouen en aquesta classe —o almenys com a ambigüitat mixta lèxica-estructural— les homonímies.

En l'àmbit pragmàtic, ja que moltes vegades una frase no vol dir allò que sembla que diu. Metàfores, ironies, etc. afecten la interpretació del discurs.

Per poder treballar amb llenguatges naturals, el PLN ha de resoldre totes aquestes ambigüitats, recorrent moltes vegades a una representació interna que elimini aquesta ambigüitat.

Aproximacions[modifica]

Aproximació estadística[modifica]

A finals de la dècada de 1980 i mitjans de la dècada de 1990, l'aproximació estadística va posar fi al període d'hivern de la intel·ligència artificial, que va ser causat per la ineficiència dels enfocaments basats en regles.^[3]^[4]

Xarxes neuronals[modifica]

El principal desavantatge dels mètodes estadístics és que requereixen un desenvolupament complex de funcions. Des del 2015 l'aproximació estadística va ser substituïda per l'aproximació de xarxes neuronals, que utilitza embeddings de paraules per capturar les propietats semàntiques de les paraules.

Les tasques intermèdies (per exemple, l'etiquetatge de parts del discurs i l'anàlisi de dependències) ja no eren necessàries.

Tendències generals i (possibles) direccions futures[modifica]

Les connexions amb la lingüística cognitiva formen part de l'herència històrica del PLN, però després del gir estadístic de la dècada de 1990, s'hi recorria menys.^[5]^[6] Tot i així, els enfocaments per al desenvolupament de models cognitius per crear marcs operativitzables tècnicament es van aplicar en el context de diversos marcs, com la gramàtica cognitiva,^[7] la gramàtica funcional,^[8] la gramàtica de construcció, la psicolingüística computacional i la neurociència cognitiva (per exemple, ACT-R). De la mateixa manera, les idees del PLN cognitiu són inherents als models neuronals del PLN multimodal (encara que poques vegades es fan explícites)^[9] i els desenvolupaments en el camp de la intel·ligència artificial, en particular les eines i tecnologies que utilitzen enfocaments amb l'ús de grans models de llenguatge^[10]^[11] i els desenvolupaments en el camp de la intel·ligència artificial, en particular les eines i tecnologies que utilitzen enfocaments amb l'ús de grans models de llenguatge. Les noves direccions en la intel·ligència artificial general es basen en el principi de l'energia lliure^[12] del neurobiòleg britànic i teòric del University College London Karl J. Friston.

Vegeu també[modifica]

Referències[modifica]

↑ «processament del llenguatge natural». Cercaterm. TERMCAT, Centre de Terminologia.
↑ Fundació Bofill (llicència CC-BY). Els algorismes a examen: Per què la IA a l'educació?, 2023. ISBN 978-84-124829-8-0 [Consulta: 26 març 2023]. Arxivat 2023-01-04 a Wayback Machine.
↑ «How the Statistical Revolution Changes (Computational) Linguistics». aclanthology.org. [Consulta: 23 maig 2024].
↑ «Four revolutions». languagelog.ldc.upenn.edu. [Consulta: 23 maig 2024].
↑ «The Evolution Of Natural Language Processing And Its Impact On AI». www.forbes.com. [Consulta: 23 maig 2024].
↑ «The Evolution of NLP: Past, Present, and Future». www.peppercontent.io. [Consulta: 23 maig 2024].
↑ «US patent 9269353». worldwide.espacenet.com. [Consulta: 23 maig 2024].
↑ «Universal Conceptual Cognitive Annotation (UCCA)». universalconceptualcognitiveannotation.github.io. [Consulta: 23 maig 2024].
↑ «Introduction to Chunks and Rules». www.w3.org. [Consulta: 23 maig 2024].
↑ «Grounded Compositional Semantics for Finding and Describing Images with Sentences». direct.mit.edu. [Consulta: 23 maig 2024].
↑ «Understanding the Anatomies of LLM Prompts: How To Structure Your Prompts To Get Better LLM Responses». www.codesmith.io. [Consulta: 23 maig 2024].
↑ «Active Inference: The Free Energy Principle in Mind, Brain, and Behavior». books.google.com. [Consulta: 23 maig 2024].

A Wikimedia Commons hi ha contingut multimèdia relatiu a: Processament del llenguatge natural

[1] «processament del llenguatge natural». Cercaterm. TERMCAT, Centre de Terminologia.

[2] Fundació Bofill (llicència CC-BY). Els algorismes a examen: Per què la IA a l'educació?, 2023. ISBN 978-84-124829-8-0 [Consulta: 26 març 2023]. Arxivat 2023-01-04 a Wayback Machine.

[3] «How the Statistical Revolution Changes (Computational) Linguistics». aclanthology.org. [Consulta: 23 maig 2024].

[4] «Four revolutions». languagelog.ldc.upenn.edu. [Consulta: 23 maig 2024].

[5] «The Evolution Of Natural Language Processing And Its Impact On AI». www.forbes.com. [Consulta: 23 maig 2024].

[6] «The Evolution of NLP: Past, Present, and Future». www.peppercontent.io. [Consulta: 23 maig 2024].

[7] «US patent 9269353». worldwide.espacenet.com. [Consulta: 23 maig 2024].

[8] «Universal Conceptual Cognitive Annotation (UCCA)». universalconceptualcognitiveannotation.github.io. [Consulta: 23 maig 2024].

[9] «Introduction to Chunks and Rules». www.w3.org. [Consulta: 23 maig 2024].

[10] «Grounded Compositional Semantics for Finding and Describing Images with Sentences». direct.mit.edu. [Consulta: 23 maig 2024].

[11] «Understanding the Anatomies of LLM Prompts: How To Structure Your Prompts To Get Better LLM Responses». www.codesmith.io. [Consulta: 23 maig 2024].

[12] «Active Inference: The Free Energy Principle in Mind, Brain, and Behavior». books.google.com. [Consulta: 23 maig 2024].

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

Registres d'autoritat	LCCN (1) NDL (1) NKC (1)
Bases d'informació	GEC (1)