Tres doctorands de la UPC-ESEIAAT, premiats per un algoritme que identifica neologismes

ADAN analitza els textos des del punt de vista morfològic, sintàctic i semàntic, a la cerca de neologismes i estrangerismes

Els doctorands de l’ESEIAAT Pol Fontanes, del Lightning Research Group (LRG) de la UPC, i Víctor Martínez i Eva María Urbano, ambdós del grup de recerca Motion Control and Industrial Applications (MCIA), han estat guardonats pel seu projecte Algoritmo de Detección Automática de Neologismos (ADAN) de la UPC. El premi obtingut, dotat amb 1.500 euros, l’han guanyat a la hakaton ’Neologismos y tecnicismos en el ámbito energético y mediambiental, organitzada el passat mes de maig per la Real Academia de la Lengua Española i la Fundación Endesa , en la qual van participar, via telemàtica, més de 400 persones. El repte, que forma part del projecte Lengua Española e Inteligencia Artificial (LEIA) de la RAE, consistia a proposar en un temps de 24 hores idees i projectes d’intel·ligència artificial per a l’estudi de neologismes i tecnicismes en el sector energètic i mediambiental.

Els treballs dels participants havien de resoldre qüestions com ara quines són les paraules d’ús més recent en el sector?,  quins tecnicismes s’utilitzen?, “ quines han passat ja a l’ús mes general?,  quins estrangerismes són els més freqüents?, existeixen alternatives en espanyol a aquests estrangerismes? La proposta d’un algoritme de detecció automàtica de neologismes (ADAN, per les seves sigles), dels estudiants de doctorat Pol Fontanes, Víctor Martínez i Eva María Urbano, de l’ESEIAAT,  ha obtingut el segon premi de la hackató.

ADAN, com funciona?

El sistema ADAN es basa en la utilització d’algoritmes d’intel·ligència artificial i big data per processar texts i identificar les paraules susceptibles de ser neologismes. Per aconseguir-ho, ADAN fa ús de tècniques anomenades de Natural Language Processing (NLP) amb les que és capaç d’analitzar morfològicament, sintàctica i semàntica els texts en busca dels neologismes i estrangerismes, els significats dels quals són inferits pel context en cas de ser desconeguts.

ADAN treballa sobre un corpus de les publicacions científiques en espanyol més recents en l’àmbit de l’energia i el medi ambient, així com els articles científics divulgatius i publicats a la premsa especialitzada del sector. D’aquesta manera, el sistema capta l’aparició d’aquests nous termes tan aviat com aquests entren en ús tot realitzant també la traçabilitat de la freqüència de les seves aparicions. Tal com explica Eva Maria Urbano, “els algoritmes que hem utilitzat es recolzen en consultes a bases de coneixement i eines de traducció, que dedueixen si les paraules identificades inicialment com a neologismes són ja àmpliament acceptades com una paraula de llengua espanyola o, ben al  contrari, es tracta d’anglicismes o tecnicismes, dels quals s’han de proposar alternatives en espanyol o bé analitzar el seu significat segons el context.”

El jurat de la hackató  ha valorat el grau de finalització, l‘originalitat, l’exhaustivitat, l’automaticitat i la dificultat tècnica de les eines del projecte, així com la viabilitat, el disseny i la usabilitat de les mateixes . En paraules de Santiago Muñoz Machado, director de la RAE: “els neologismes són  un assumpte important, perquè envaeixen amb molta velocitat el terreny de les ciències i les noves tecnologies […] Cada dia les màquines parlen més i hi ha un nombre major de màquines que parlen i fan servir un idioma que no és necessàriament el que ha normativitzat la RAE, sinó que és l’idioma que han determinat el seus fabricants.”

Els doctorands de l’ESEIAAT Pol Fontanes, Víctor Martínez i Eva María Urbano | ESEIAAT

Nou comentari