Può un computer capire il significato di un testo? Questa domanda sta alla base di moltissime applicazioni che usiamo tutti i giorni, prima fra tutte il celeberrimo motore di Google. La domanda, che galleggia nel mare della ricerca sull’intelligenza artificiale, può portare a esperimenti che hanno per ora lo scopo di migliorare alcuni aspetti della nostra vita sul web. Uno di questi è l’accesso facile alle informazioni.
Due ricercatrici dell’Università Concordia hanno sviluppato un software che potrebbe capire il significato di un blog. Leila Kosseim, professore associato presso la Facoltà di Ingegneria e Informatica e una studentessa recentemente dottorata, Shamima Mithun, hanno sviluppato un sistema chiamato BlogSum che ha applicazioni potenzialmente enormi.
Il programma permetterebbe, ad esempio ad un’organizzazione, di porre una domanda e poi capire, attraverso le discussioni on line, che cosa risponderebbero la maggior parte delle persone. Il sistema perciò sarebbe in grado di misurare anche le preferenze dei consumatori o le intenzioni degli elettori.
“Enormi quantità di testi elettronici sono diventati facilmente disponibili su Internet, ma le persone possono essere sopraffatte, e hanno bisogno di aiuto per trovare il contenuto nascosto nella massa di informazioni”, spiega Kosseim, uno dei ricercatori presso il Laboratorio di Linguistica Computazionale (CLAC lab).
L’analisi del linguaggio non è affatto semplice per un computer. Analizzare un articolo o un blog, o un forum, significa dover intendere il significato globale, un’intenzione, al di là del significato delle singole parole. E deve superare anche le difficoltà legate agli errori di ortografia e di grammatica. Secondo i ricercatori, uno strumento del genere dovrebbe affrontare prima di tutto due problemi specifici: l’irrilevanza per la domanda ( cioè escludere tutto ciò che non ha a che fare con la domanda), e l’incoerenza del discorso ( cioè le frasi in cui l’intenzione dello scrittore non sono chiare).
Il software BlogSum, secondo le ricercatrici, ha affrontato queste sfide con efficienza dimostrabile. Il software è stato testato secondo scale basate su tentativi precedenti simili ed ha ottenuto risultati superiori. Inoltre è stato valutato anche da esseri umani come superiore ai suoi “predecessori”. Blogsum riesce dunque a scartare i contenuti che non sono pertinenti e che non sono chiari, a metterli insieme e riassumerli in modo che siano facilmente fruibili.
Questo studio è un esempio di Natural Language Processing (NLP), in cui l’Università Concordia, attraverso il laboratorio Clac, è leader. Il NPL si trova all’intersezione fra l’intelligenza artificiale e la linguistica, intesa nel senso di aiutare i computer ad individuare il contenuto del linguaggio umano.
“Il campo di elaborazione del linguaggio naturale sta cominciando a diventare fondamentale per l’informatica, con molte applicazioni di uso quotidiano – per i motori di ricerca, che trovano i documenti più rilevanti e gli smartphone che diventano sempre più intelligenti “, ha concluso Kosseim.