Use this identifier to quote or link this document: http://hdl.handle.net/2072/97306

Paraphrasing : scope and typology : a computational approach
Vila Rigat, Marta
Agència de Gestió d'Ajuts Universitaris i de Recerca; Martí Antonin, M. Antònia
This PhD project aims to study paraphrasing, initially understood as the different ways in which the same content is expressed linguistically. We will go into that concept in depth trying to define and delimit its scope more accurately. In that sense, we also aim to discover which kind of structures and phenomena it covers. Although there exist some paraphrasing typologies, the great majority of them only apply to English, and focus on lexical and syntactic transformations. Our intention is to go further into this subject and propose a paraphrasing typology for Spanish and Catalan combining lexical, syntactic, semantic and pragmatic knowledge. We apply a bottom-up methodology trying to collect evidence of this phenomenon from the data. For this purpose, we are initially using the Spanish Wikipedia as our corpus. The internal structure of this encyclopedia makes it a good resource for extracting paraphrasing examples for our investigation. This empirical approach will be complemented with the use of linguistic knowledge, and by comparing and contrasting our results to previously proposed paraphrasing typologies in order to enlarge the possible paraphrasing forms found in our corpus. The fact that the same content can be expressed in many different ways presents a major challenge for Natural Language Processing (NLP) applications. Thus, research on paraphrasing has recently been attracting increasing attention in the fields of NLP and Computational Linguistics. The results obtained in this investigation would be of great interest in many of these applications.
Aquest projecte de tesi pretén estudiar la paràfrasi, entesa inicialment com les diferents maneres amb què un mateix contingut s'expressa lingüísticament. Amb aquest objectiu, s'aprofundirà  en el concepte de paràfrasi, i s'intentarà  definir i delimitar de manera precisa el seu abast. En aquest sentit, també es pretén veure quins tipus d'estructures i fenòmens cobreix. Tot i que existeixen diverses tipologies de paràfrasi, la majoria d'aquelles parteixen de la llengua anglesa i se centren en transformacions lèxiques sintàctiques. La intenció d'aquest projecte és anar més enllà  i proposar una tipologia de paràfrasis pel castellà  i pel català  tot combinant coneixement lèxic, sintàctic, semàntic i pragmàtic. Inicialment, s'està  utilitzant com a corpus la Wikipedia en castellà . L'estructura interna d'aquesta enciclopèdia la converteix en una excel·lent font de recursos per tal d'extreure exemples de paràfrasi. Aquesta aproximació empírica serà complementada amb l'aplicació de coneixement lingüístic i la comparació dels nostres resultats amb les tipologies de paràfrasi existents, per tal d'ampliar els tipus de paràfrasi recollits en el nostre corpus. El fet que un mateix contingut pugui ser expressat de maneres diferents constitueix tot un repte per les aplicacions de Processament del Llenguatge Natural (PLN). Així, la paràfrasi s'ha convertit en els últims anys en un dels objectes d'estudi del PLN i la Lingüí­stica Computacional. Els resultats obtinguts en aquesta investigació seran de gran utilitat per moltes de les aplicacions de PLN.
2011-01-17
81 - Lingüística i llengües
Tractament del llenguatge natural (Informàtica)
Paràfrasi
Aquest document està subjecte a una llicència d'ús de Creative Commons, amb la qual es permet copiar, distribuir i comunicar públicament l'obra sempre que se'n citin l'autor original i l’Agència i no se'n faci cap ús comercial ni obra derivada, tal com queda estipulat en la llicència d'ús (http://creativecommons.org/licenses/by-nc-nd/2.5/es/)
17 p.
Report
Els ajuts de l'AGAUR;2009FIB00690
         

Full text files in this document

Files Size Format
2009FIB00690_Vila Rigat.pdf 251.5 KB PDF

Show full item record

 

Coordination

 

Supporters