Wisdom: Unità di Modena

Unità di ricerca: Università di Modena e Reggio Emilia

Dipartimento di Ingegneria dell'Informazione

Programma di Ricerca dell'Unità (modello B)

Coordinatore Scientifico del Programma di Ricerca

Prof.ssa Bergamaschi Sonia

Dipartimento di INGEGNERIA DELL'INFORMAZIONE
Facoltà di INGEGNERIA
Università degli Studi di MODENA e REGGIO EMILIA

via Vignolese, 905 - 41100 Modena Italy
Tel :+39 059 2056132
Fax :+39 059 2056129

E-mail: bergamaschi.sonia@unimo.it
Home page: http://www.dbgroup.unimo.it/Bergamaschi.html

Partecipanti al programma dell'Unità di Ricerca

Partecipante	Dipartimento	Qualifica
BERGAMASCHI SONIA	Dip. Ingegneria dell'Informazione	Prof. Ordinario
VINCINI MAURIZIO	Dip. Ingegneria dell'Informazione	Ricercatore
TIBERIO PAOLO	Dip. Ingegneria dell'Informazione	Prof. Ordinario
GUERRA FRANCESCO	Dip. Ingegneria dell'Informazione	Personale a contratto
MISELLI DANIELE	Dip. Ingegneria dell'Informazione	Personale a contratto
BENASSI ROBERTA	Dip. Ingegneria dell'Informazione	Dottoranda
MARTOGLIA RICCARDO	Dip. Ingegneria dell'Informazione	Dottorando
CORNI ALBERTO	Dip. Ingegneria dell'Informazione	Analista
MONTANARI DANIELE	Dip. Ingegneria dell'Informazione	Project Manager
RONCHETTI ENRICO	Dip. Ingegneria dell'Informazione	Dottorando
BRUSCHI STEFANIA	Dip. Ingegneria dell'Informazione	Personale a contratto
ORSINI MIRKO	Dip. Ingegneria dell'Informazione	Programmatore
PO LAURA	Dip. Ingegneria dell'Informazione	Dottoranda
SASSATELLI SIMONA	Dip. Ingegneria dell'Informazione	Dottoranda

Titolo specifico del programma svolto dall'unità di ricerca

Generazione e mapping di ontologie ed elaborazione di interrogazioni distribuite su siti web

Descrizione del programma e dei compiti dell'Unità di Ricerca

L'Unita' di Modena lavorerà a tutti e tre i temi del progetto. All’interno del TEMA1 si occupera' delle problematiche connesse alla creazione ed estensione di una ontologia di dominio;
Nell’ambito del TEMA 2 collaborera' alla definizione di una architettura di riferimento per la scoperta e la gestione di mapping semantici tra ontologie; relativamente al TEMA 3 studierà e svilupperà, in collaborazione con l'unità di Bologna, la traduzione (riscrittura) automatica di query formulate su una data ontologia rispetto alle altre ontologie; studierà e svilupperà tecniche per la definizione di condizioni di join tra le sorgenti locali per definire coppie di classi che fanno riferimento allo stesso oggetto del mondo reale.
Infine, congiuntamente a tutte le altre Unità si lavorerà alla realizzazione dei prodotti comuni.
In particolare, nella prima fase l'attività congiunta ha come obiettivo la definizione dell'architettura metodologica e funzionale di riferimento per l'intero progetto (prodotto D0.R1).
D0.R1 Rapporto sull'architettura metodologica e funzionale di riferimento (BO, MO, RM, TN)
Durante la seconda fase si procederà alla definizione delle interfacce dei componenti per il prototipo integrato (prodotto D0.R2).
D0.R2 Specifiche delle interfacce dei componenti del prototipo integrato (BO, MO, RM, TN)
Infine nella terza fase del progetto si collaborerà con le altre Unità all'integrazione
dei prototipi realizzati durante il progetto.
D0.P1 Prototipo integrato di sistema (BO, MO, RM, TN)
L'attività specifica di ricerca dell'unità di Modena prevede l'articolazione seguente.

TEMA 1

1.1 – Definizione di un linguaggio di Ontologia con aspetti/concetti estensionali
Il linguaggio di ontologia che l’unità di Modena contribuirà a definire si baserà sul linguaggio ODLI3, sviluppato in precedenza dall'unità nell'ambito del sistema MOMIS, reso compatibile con gli standard W3C. L’unità si concentrerà sul problema di rendere tale linguaggio sufficientemente espressivo per poter esprimere: mapping fra ontologie eterogenee indipendentemente sviluppate in modo da facilitare il compito di riscrittura di query; concetti estensionali in modo da facilitare il compito di reperimento di sorgenti
utili all'esecuzione di una query.
1.2 – Aggiunta di una nuova sorgente informativa ad una Ontologia di Dominio
A partire dal sistema MOMIS, l’unità di Modena studierà il problema dell’evoluzione della GVV e dell’ontologia di riferimento dovuta all’integrazione di una nuova sorgente informativa.
Infatti, una modifica in uno o più concetti dell’ontologia può causare diverse inconsistenze sia in concetti collegati, sia in altre ontologie che sono collegate alla prima attraverso i mapping. L’approccio che si perseguirà mira ad integrare la descrizione di una nuova sorgente informativa all’interno di una ontologia esistente utilizzando un processo semi-automatico, basato sul lessico, che calcolerà le affinità tra elementi della descrizione da inserire e l’ontologia esistente. Un elemento verrà aggiunto all’ontologia solo nel caso in cui non siano presenti elementi affini. L’ontologia dovrebbe crescere in modo monotono, minimizzando le modifiche all’esistente, evitando le inconsistenze interne e riducendo il rischio di inconsistenze dovute ai mapping con altre ontologie (si rendono espliciti nuovi elementi dell’ontologia, mentre quelli preesistenti mantengono lo stesso significato).
1.3 – Individuazione di una nuova sorgente informativa relativa ad un’Ontologia di Dominio
L’unità di Modena collaborerà allo studio e allo sviluppo di strumenti di natura semantica in grado di migliorare l’efficacia delle tecniche attualmente utilizzate dai motori di ricerca keyword-based, come ad esempio Google. La ricerca di nuove sorgenti Web sarà coadiuvata da tecniche di comprensione del linguaggio naturale, alcune delle quali sono già implementate in TUCUXI (Benassi, 2004). Lo scopo è quello di ottenere una rappresentazione sintetica dei significati espressi in un testo e di mantenere le relazioni semantiche fra termini. L’idoneità della sorgente sarà valutata grazie ad una misura di similarità semantica fra ontologia e catene lessicali che verrà sviluppata nell’ambito del TEMA 2.

FASE 1
Si valuteranno, in collaborazione con tutte le altre unità, in modo critico le proposte di standard e linguaggi emergenti per la definizione ed il trattamento delle ontologie con particolare riferimento al problema dell’evoluzione delle ontologie.

PRODOTTI
D1.R1: Analisi Critica dei linguaggi e standard emergenti per le ontologie (BO, MO, ROMA, TN)

FASE 2
Si definirà un linguaggio per la definizione ed il trattamento delle ontologie con particolare riferimento alla descrizione dell’evoluzione delle ontologie. L’attività sarà svolta in collaborazione con le unità di BO e TN e verrà sviluppato un prototipo per l’aggiunta di una nuova sorgente informativa alla Ontologia di dominio.
Inoltre si produrrà un’analisi critica delle tecniche esistenti per l’estrazione delle catene lessicali.

PRODOTTI
D1.R2: Definizione del linguaggio per la specifica di una ontologia di dominio (BO, MO, TN)
D1.R4: Analisi critica delle tecniche esistenti per l’estrazione delle catene lessicali (MO)
D1.P1: Prototipo per l’aggiunta di una nuova sorgente informativa alla Ontologia di Dominio (MO)

FASE 3
Si studierà l’implementazione di nuovi algoritmi per l’estrazione delle catene lessicali. A partire dall’analisi critica delle tecniche esistenti, si individueranno le caratteristiche che i nuovi algoritmi dovranno presentare, in relazione a tre aspetti ritenuti di maggiore interesse: il primo riguarda il tipo di documenti trattati nell’ambito del progetto (pagine Web); il secondo è inerente alla complessità computazionale ed in particolare si definiranno algoritmi di complessità lineare; il terzo è relativo all’ accuratezza che la rappresentazione sintetica e semantica dei documenti dovrà garantire. A tale riguardo, si porrà particolare attenzione alla
disambiguazione dei termini (word sense disambiguation) come fase preliminare alla costruzione di catene lessicali correttamente rappresentative delle sorgenti analizzate. Il prototipo realizzato estenderà in maniera significativa le funzionalità di TUCUXI (Benassi, 2004) e completerà RoadRunner (sviluppato dall’unità di Roma), migliorandone la capacità di assegnare semantica alle informazioni estratte da siti data intensive.

PRODOTTI
D1.R6 Definizione di tecniche per associare semantica allo schema di un sito data-intensive basate su catene lessicali (RM, MO)
D1.P2 Prototipo per l’estrazione di catene lessicali da siti web (MO)

TEMA 2

L’attività sarà rivolta alla definizione di linguaggi, tecniche ed algoritmi che esprimano mapping tra diverse ontologie. All’interno del progetto saranno definiti algoritmi di matching fra le sorgenti coinvolte che tengano conto delle tematiche dettagliate nel seguito.
I sistemi che usano vincoli derivati dal lessico cercano di sfruttare in via prioritaria i nomi degli elementi degli schemi per trovare elementi simili. La similarità dei nomi degli elementi degli schemi può essere individuata in differenti modi tra i quali ricordiamo: l’uguaglianza dei nomi, l’uguaglianza del nome canonico che si ottiene dopo un’operazione di pre-processing, l’uguaglianza degli ipernimi, l’uguaglianza di nomi sulla base di indicazione fornita dall'utente. È necessario osservare che non sempre l'uguaglianza tra due nomi (o tra due ipernimi) si può ricondurre a un mero confronto meccanico fra stringhe. A nomi possono corrispondere
significati differenti (polisemia) e viceversa nomi differenti possono avere lo stesso significato (sinonimia). Per generare tali tipi di relazioni lessicali è quindi fondamentale fare riferimento a ontologie lessicali che cataloghino i vocaboli sulla base del significato e in questo modo possano effettuare i corretti raffronti.
Si può osservare che in alcune circostanze i nomi associati agli elementi degli schemi di alcune basi di dati non sono semanticamente rilevanti. In questi casi è opportuno utilizzare delle tecniche ausiliare per estrarre semantica dall'analisi dei dati e/o tecniche che consentono di analizzare e sfruttare i commenti espressi in linguaggio naturale dal progettista della sorgente.
Altri vincoli possono essere ricavati dall'analisi di schemi: ad esempio l'uguaglianza può essere ricavata basandosi sull'equivalenza dei tipi di dato e sul dominio delle chiavi, sulla cardinalità delle relazioni e sulle relazioni is-a. Altre relazioni possono essere ricavate da una analisi specifica basata sul modello logico dei dati. Infine, sulla base dell’estrazione della rappresentazione
sintetica delle sorgenti tramite la tecnica delle catene lessicali, l’unità di Modena studierà e svilupperà misure di similarità semantica per quantificare l’attinenza delle sorgenti rispetto all’ontologia di dominio di riferimento come evoluzione di quelle presentate in (Budanitsky, 2001). Tali misure dovranno considerare due diversi aspetti: il primo relativo al matching “esatto” di significati/concetti, il secondo inerente alla similarità e alle relazioni semantiche fra concetti.

FASE 1
Verranno analizzati in modo critico i principali algoritmi di matching presenti in letteratura, considerando con attenzione quelli che prevedono tecniche per la risoluzione dei conflitti tra le varie rappresentazioni e le proposte di standard per il mapping tra ontologie.

PRODOTTI
D2.R1: Analisi Critica di linguaggi e tecniche di mapping (MO, TN)

FASE 2
Si concorrerà alla definizione di un linguaggio per il mapping e di un algoritmo di matching che proponga in modo automatico mapping basati sulla similarità semantica.

PRODOTTI
D2.R2: Definizione del linguaggio per la specifica di mapping semantici (MO, TN)
D2.R3: Valutazione empirica di misure di similarità semantica (MO)

FASE 3
L’attività svolta durante la fase 3 sarà rivolta all’estrazione della rappresentazione sintetica delle sorgenti tramite la tecnica delle catene lessicali. In particolare, verranno valutati gli algoritmi di cui al D1.R6 secondo vari parametri, tra i quali alcuni di natura tecnologica (robustezza del processo estrattivo, complessità computazionale,…) altri di natura qualitativa (espressività delle catene lessicali come metodologia descrittiva delle sorgenti, possibilità di estensione in ambito multilinguistico, efficacia delle tecniche proposte in relazione all’assegnazione di semantica ai dati estratti tramite RoadRunner). Verranno studiate e svilupperemo misure di similarità semantica fra le catene lessicali e l’ontologia di riferimento stessa. Tali misure dovranno considerare due diversi aspetti: il primo relativo al matching “esatto” di significati/concetti, il secondo inerente alla semantic relatedness fra concetti (Budanitsky, 2001). Ad esempio, le misure di similarità semantica dovranno considerare diversamente il caso in cui l’ontologia di riferimento e la sorgente, tramite le catene lessicali, condividono il concetto di libro ed il caso in cui la seconda non contenga il concetto di libro ma esprima il concetto di volume.

PRODOTTI
D2.P1 Prototipo della piattaforma per la generazione/gestione automatica di mapping tra ontologie di domino eterogenee (MO, TN)

TEMA 3

Un primo obiettivo specifico è quello di mettere a punto tecniche e strumenti per la traduzione (riscrittura) automatica di una query, formulata con riferimento a una ontologia di dominio locale, in forme che siano adeguate anche rispetto alle altre ontologie disponibili nell’ambiente distribuito. Tale processo è chiaramente necessario nell’ottica di rispondere nel modo più efficace e completo possibile alle query poste dagli utenti, sfruttando così appieno le potenzialità delle informazioni messe a disposizione dalle sorgenti dati. Non è infatti plausibile pensare che tutte le informazioni utili a soddisfare il fabbisogno informativo dell’utente che esegue un’interrogazione provengano dalla sorgente rispetto alla quale la query è stata formulata; piuttosto, occorre cercare di sfruttare tutte le sorgenti utili, interrogando quindi anche quelle che sono integrate in ontologie diverse da quella su cui è posta la query originaria. Lo scopo è quindi quello di ottenere delle tecniche che, sfruttando le informazioni sulla semantica dei singoli concetti descritti nelle ontologie di riferimento e il contesto in cui sono inseriti, riscrivano la query verso le altre ontologie, in una forma che sia il più possibile equivalente a quella originaria.
Un secondo obiettivo è relativo allo studio di tecniche per la creazione della Istanza Globale della GVV. Tale istanza, viene calcolata sulla base delle estensioni delle sorgenti locali, unicamente in fase di risoluzione delle interrogazioni e sulla base dei seguenti elementi: il mapping tra la GVV e le sorgenti locali, l’identificazione degli oggetti delle sorgenti locali che rappresentano gli stessi oggetti del mondo reale (Join Map) e l’operazione di full-disjunction che permette di sintetizzare un unico risultato per ogni oggetto instanziato in piu' sorgenti. L’attività di ricerca sarà rivolta allo studio di tecniche per la definizione semiautomatica delle Join Map e all’estensione dell’operazione di full-disjunction. In particolare, verranno sviluppate soluzioni che sono valide sia sotto l’ipotesi di "omogeneità semantica", cioè valori uguali per attributi locali comuni in differenti sorgenti e relativi allo stesso oggetto reale, che nel caso generale.

FASE 1
La prima fase prevedrà un’analisi critica delle tecniche di riscrittura delle query basate su ontologie (deliverable D3.R1).

PRODOTTI
D3.R1: Analisi critica di linguaggi di interrogazione e tecniche di riscrittura basati su ontologie (BO, MO, TN)

FASE 2
Verrà scelto l’approccio per la riscrittura di query, unitamente a una serie di tecniche propedeutiche ad una riscrittura il più possibile efficace. In particolare, i mapping semantici tra le ontologie costituiranno una importante base di partenza per poter riscrivere una data query originariamente espressa con riferimento a una ontologia locale. L’idea alla base sarà quella di partire da tali mapping per quantificare le similarità tra i diversi concetti descritti nelle ontologie di riferimento. Le tecniche per valutare la similarità tra i concetti coinvolti non sono proprie della fase di riscrittura in sé ma ne costituiscono una fondamentale fase
preliminare e propedeutica. Tali tecniche dovranno essere studiate in modo che non si limitino all’utilizzo delle informazioni semantiche legate al significato dei vari concetti presenti nelle ontologie, ma che tengano anche conto del contesto (struttura) in cui tali concetti sono inseriti, ispirandosi ad altri approcci presentati recentemente (Garcia-Molina et al., 2002). Le similarità individuate mediante tali approcci verranno quindi sfruttate per la fase di riscrittura verso le altre ontologie, che sarà in grado tanto di riadattare la struttura della query quanto di riscriverne in modo consistente i valori. Tali similarità verranno inoltre utilizzate per valutare e quantificare la verosimiglianza tra le query ottenute tramite riscrittura e quella originaria. Per ottenere una risposta completa e minimale ad una query verrà applicato ed esteso il metodo della full-disjunction.

PRODOTTI
D3.R3: Definizione del linguaggio di interrogazione e delle tecniche di riscrittura basate su ontologie (BO, MO, TN)

FASE 3
La FASE 3 vedrà l’effettiva implementazione delle tecniche di riscrittura proposte all’interno un prototipo per la formulazione di interrogazioni.

PRODOTTI
D3.P1 Prototipo per la formulazione di interrogazioni (BO, MO).