L'Unita' di Modena lavorerà
a tutti e tre i temi del progetto. All’interno del TEMA1
si occupera' delle problematiche connesse alla creazione ed
estensione di una ontologia di dominio;
Nell’ambito del TEMA 2 collaborera' alla definizione di
una architettura di riferimento per la scoperta e la gestione
di mapping semantici tra ontologie; relativamente al TEMA 3
studierà e svilupperà, in collaborazione con l'unità
di Bologna, la traduzione (riscrittura) automatica di query
formulate su una data ontologia rispetto alle altre ontologie;
studierà e svilupperà tecniche per la definizione
di condizioni di join tra le sorgenti locali per definire coppie
di classi che fanno riferimento allo stesso oggetto del mondo
reale.
Infine, congiuntamente a tutte le altre Unità si lavorerà
alla realizzazione dei prodotti comuni.
In particolare, nella prima fase l'attività congiunta
ha come obiettivo la definizione dell'architettura metodologica
e funzionale di riferimento per l'intero progetto (prodotto
D0.R1).
D0.R1 Rapporto sull'architettura metodologica e funzionale di
riferimento (BO, MO, RM, TN)
Durante la seconda fase si procederà alla definizione
delle interfacce dei componenti per il prototipo integrato (prodotto
D0.R2).
D0.R2 Specifiche delle interfacce dei componenti del prototipo
integrato (BO, MO, RM, TN)
Infine nella terza fase del progetto si collaborerà con
le altre Unità all'integrazione
dei prototipi realizzati durante il progetto.
D0.P1 Prototipo integrato di sistema (BO, MO, RM, TN)
L'attività specifica di ricerca dell'unità di
Modena prevede l'articolazione seguente.
TEMA
1
1.1 – Definizione di un linguaggio
di Ontologia con aspetti/concetti estensionali
Il linguaggio di ontologia che l’unità di Modena
contribuirà a definire si baserà sul linguaggio
ODLI3, sviluppato in precedenza dall'unità nell'ambito
del sistema MOMIS, reso compatibile con gli standard W3C. L’unità
si concentrerà sul problema di rendere tale linguaggio
sufficientemente espressivo per poter esprimere: mapping fra
ontologie eterogenee indipendentemente sviluppate in modo da
facilitare il compito di riscrittura di query; concetti estensionali
in modo da facilitare il compito di reperimento di sorgenti
utili all'esecuzione di una query.
1.2 – Aggiunta di una nuova sorgente
informativa ad una Ontologia di Dominio
A partire dal sistema MOMIS, l’unità di Modena
studierà il problema dell’evoluzione della GVV
e dell’ontologia di riferimento dovuta all’integrazione
di una nuova sorgente informativa.
Infatti, una modifica in uno o più concetti dell’ontologia
può causare diverse inconsistenze sia in concetti collegati,
sia in altre ontologie che sono collegate alla prima attraverso
i mapping. L’approccio che si perseguirà mira ad
integrare la descrizione di una nuova sorgente informativa all’interno
di una ontologia esistente utilizzando un processo semi-automatico,
basato sul lessico, che calcolerà le affinità
tra elementi della descrizione da inserire e l’ontologia
esistente. Un elemento verrà aggiunto all’ontologia
solo nel caso in cui non siano presenti elementi affini. L’ontologia
dovrebbe crescere in modo monotono, minimizzando le modifiche
all’esistente, evitando le inconsistenze interne e riducendo
il rischio di inconsistenze dovute ai mapping con altre ontologie
(si rendono espliciti nuovi elementi dell’ontologia, mentre
quelli preesistenti mantengono lo stesso significato).
1.3 – Individuazione di una nuova
sorgente informativa relativa ad un’Ontologia di Dominio
L’unità di Modena collaborerà allo studio
e allo sviluppo di strumenti di natura semantica in grado di
migliorare l’efficacia delle tecniche attualmente utilizzate
dai motori di ricerca keyword-based, come ad esempio Google.
La ricerca di nuove sorgenti Web sarà coadiuvata da tecniche
di comprensione del linguaggio naturale, alcune delle quali
sono già implementate in TUCUXI (Benassi, 2004). Lo scopo
è quello di ottenere una rappresentazione sintetica dei
significati espressi in un testo e di mantenere le relazioni
semantiche fra termini. L’idoneità della sorgente
sarà valutata grazie ad una misura di similarità
semantica fra ontologia e catene lessicali che verrà
sviluppata nell’ambito del TEMA 2.
FASE 1
Si valuteranno, in collaborazione con tutte le altre unità,
in modo critico le proposte di standard e linguaggi emergenti
per la definizione ed il trattamento delle ontologie con particolare
riferimento al problema dell’evoluzione delle ontologie.
PRODOTTI
D1.R1: Analisi Critica dei linguaggi e standard emergenti per
le ontologie (BO, MO, ROMA, TN)
FASE 2
Si definirà un linguaggio per la definizione ed il trattamento
delle ontologie con particolare riferimento alla descrizione
dell’evoluzione delle ontologie. L’attività
sarà svolta in collaborazione con le unità di
BO e TN e verrà sviluppato un prototipo per l’aggiunta
di una nuova sorgente informativa alla Ontologia di dominio.
Inoltre si produrrà un’analisi critica delle tecniche
esistenti per l’estrazione delle catene lessicali.
PRODOTTI
D1.R2: Definizione del linguaggio per la specifica di una ontologia
di dominio (BO, MO, TN)
D1.R4: Analisi critica delle tecniche esistenti per l’estrazione
delle catene lessicali (MO)
D1.P1: Prototipo per l’aggiunta di una nuova sorgente
informativa alla Ontologia di Dominio (MO)
FASE 3
Si studierà l’implementazione di nuovi algoritmi
per l’estrazione delle catene lessicali. A partire dall’analisi
critica delle tecniche esistenti, si individueranno le caratteristiche
che i nuovi algoritmi dovranno presentare, in relazione a tre
aspetti ritenuti di maggiore interesse: il primo riguarda il
tipo di documenti trattati nell’ambito del progetto (pagine
Web); il secondo è inerente alla complessità computazionale
ed in particolare si definiranno algoritmi di complessità
lineare; il terzo è relativo all’ accuratezza che
la rappresentazione sintetica e semantica dei documenti dovrà
garantire. A tale riguardo, si porrà particolare attenzione
alla
disambiguazione dei termini (word sense disambiguation) come
fase preliminare alla costruzione di catene lessicali correttamente
rappresentative delle sorgenti analizzate. Il prototipo realizzato
estenderà in maniera significativa le funzionalità
di TUCUXI (Benassi, 2004) e completerà RoadRunner (sviluppato
dall’unità di Roma), migliorandone la capacità
di assegnare semantica alle informazioni estratte da siti data
intensive.
PRODOTTI
D1.R6 Definizione di tecniche per associare semantica allo schema
di un sito data-intensive basate su catene lessicali (RM, MO)
D1.P2 Prototipo per l’estrazione di catene lessicali da
siti web (MO)
TEMA
2
L’attività sarà rivolta alla definizione
di linguaggi, tecniche ed algoritmi che esprimano mapping tra
diverse ontologie. All’interno del progetto saranno definiti
algoritmi di matching fra le sorgenti coinvolte che tengano
conto delle tematiche dettagliate nel seguito.
I sistemi che usano vincoli derivati dal lessico cercano di
sfruttare in via prioritaria i nomi degli elementi degli schemi
per trovare elementi simili. La similarità dei nomi degli
elementi degli schemi può essere individuata in differenti
modi tra i quali ricordiamo: l’uguaglianza dei nomi, l’uguaglianza
del nome canonico che si ottiene dopo un’operazione di
pre-processing, l’uguaglianza degli ipernimi, l’uguaglianza
di nomi sulla base di indicazione fornita dall'utente. È
necessario osservare che non sempre l'uguaglianza tra due nomi
(o tra due ipernimi) si può ricondurre a un mero confronto
meccanico fra stringhe. A nomi possono corrispondere
significati differenti (polisemia) e viceversa nomi differenti
possono avere lo stesso significato (sinonimia). Per generare
tali tipi di relazioni lessicali è quindi fondamentale
fare riferimento a ontologie lessicali che cataloghino i vocaboli
sulla base del significato e in questo modo possano effettuare
i corretti raffronti.
Si può osservare che in alcune circostanze i nomi associati
agli elementi degli schemi di alcune basi di dati non sono semanticamente
rilevanti. In questi casi è opportuno utilizzare delle
tecniche ausiliare per estrarre semantica dall'analisi dei dati
e/o tecniche che consentono di analizzare e sfruttare i commenti
espressi in linguaggio naturale dal progettista della sorgente.
Altri vincoli possono essere ricavati dall'analisi di schemi:
ad esempio l'uguaglianza può essere ricavata basandosi
sull'equivalenza dei tipi di dato e sul dominio delle chiavi,
sulla cardinalità delle relazioni e sulle relazioni is-a.
Altre relazioni possono essere ricavate da una analisi specifica
basata sul modello logico dei dati. Infine, sulla base dell’estrazione
della rappresentazione
sintetica delle sorgenti tramite la tecnica delle catene lessicali,
l’unità di Modena studierà e svilupperà
misure di similarità semantica per quantificare l’attinenza
delle sorgenti rispetto all’ontologia di dominio di riferimento
come evoluzione di quelle presentate in (Budanitsky, 2001).
Tali misure dovranno considerare due diversi aspetti: il primo
relativo al matching “esatto” di significati/concetti,
il secondo inerente alla similarità e alle relazioni
semantiche fra concetti.
FASE 1
Verranno analizzati in modo critico i principali algoritmi di
matching presenti in letteratura, considerando con attenzione
quelli che prevedono tecniche per la risoluzione dei conflitti
tra le varie rappresentazioni e le proposte di standard per
il mapping tra ontologie.
PRODOTTI
D2.R1: Analisi Critica di linguaggi e tecniche di mapping (MO,
TN)
FASE 2
Si concorrerà alla definizione di un linguaggio per il
mapping e di un algoritmo di matching che proponga in modo automatico
mapping basati sulla similarità semantica.
PRODOTTI
D2.R2: Definizione del linguaggio per la specifica di mapping
semantici (MO, TN)
D2.R3: Valutazione empirica di misure di similarità semantica
(MO)
FASE 3
L’attività svolta durante la fase 3 sarà
rivolta all’estrazione della rappresentazione sintetica
delle sorgenti tramite la tecnica delle catene lessicali. In
particolare, verranno valutati gli algoritmi di cui al D1.R6
secondo vari parametri, tra i quali alcuni di natura tecnologica
(robustezza del processo estrattivo, complessità computazionale,…)
altri di natura qualitativa (espressività delle catene
lessicali come metodologia descrittiva delle sorgenti, possibilità
di estensione in ambito multilinguistico, efficacia delle tecniche
proposte in relazione all’assegnazione di semantica ai
dati estratti tramite RoadRunner). Verranno studiate e svilupperemo
misure di similarità semantica fra le catene lessicali
e l’ontologia di riferimento stessa. Tali misure dovranno
considerare due diversi aspetti: il primo relativo al matching
“esatto” di significati/concetti, il secondo inerente
alla semantic relatedness fra concetti (Budanitsky, 2001). Ad
esempio, le misure di similarità semantica dovranno considerare
diversamente il caso in cui l’ontologia di riferimento
e la sorgente, tramite le catene lessicali, condividono il concetto
di libro ed il caso in cui la seconda non contenga il
concetto di libro ma esprima il concetto di volume.
PRODOTTI
D2.P1 Prototipo della piattaforma per la generazione/gestione
automatica di mapping tra ontologie di domino eterogenee (MO,
TN)
TEMA
3
Un primo obiettivo specifico è
quello di mettere a punto tecniche e strumenti per la traduzione
(riscrittura) automatica di una query, formulata con riferimento
a una ontologia di dominio locale, in forme che siano adeguate
anche rispetto alle altre ontologie disponibili nell’ambiente
distribuito. Tale processo è chiaramente necessario nell’ottica
di rispondere nel modo più efficace e completo possibile
alle query poste dagli utenti, sfruttando così appieno
le potenzialità delle informazioni messe a disposizione
dalle sorgenti dati. Non è infatti plausibile pensare
che tutte le informazioni utili a soddisfare il fabbisogno informativo
dell’utente che esegue un’interrogazione provengano
dalla sorgente rispetto alla quale la query è stata formulata;
piuttosto, occorre cercare di sfruttare tutte le sorgenti utili,
interrogando quindi anche quelle che sono integrate in ontologie
diverse da quella su cui è posta la query originaria.
Lo scopo è quindi quello di ottenere delle tecniche che,
sfruttando le informazioni sulla semantica dei singoli concetti
descritti nelle ontologie di riferimento e il contesto in cui
sono inseriti, riscrivano la query verso le altre ontologie,
in una forma che sia il più possibile equivalente a quella
originaria.
Un secondo obiettivo è relativo allo studio di tecniche
per la creazione della Istanza Globale della GVV. Tale istanza,
viene calcolata sulla base delle estensioni delle sorgenti locali,
unicamente in fase di risoluzione delle interrogazioni e sulla
base dei seguenti elementi: il mapping tra la GVV e le sorgenti
locali, l’identificazione degli oggetti delle sorgenti
locali che rappresentano gli stessi oggetti del mondo reale
(Join Map) e l’operazione di full-disjunction che permette
di sintetizzare un unico risultato per ogni oggetto instanziato
in piu' sorgenti. L’attività di ricerca sarà
rivolta allo studio di tecniche per la definizione semiautomatica
delle Join Map e all’estensione dell’operazione
di full-disjunction. In particolare, verranno sviluppate soluzioni
che sono valide sia sotto l’ipotesi di "omogeneità
semantica", cioè valori uguali per attributi locali
comuni in differenti sorgenti e relativi allo stesso oggetto
reale, che nel caso generale.
FASE 1
La prima fase prevedrà un’analisi critica delle
tecniche di riscrittura delle query basate su ontologie (deliverable
D3.R1).
PRODOTTI
D3.R1: Analisi critica di linguaggi di interrogazione e tecniche
di riscrittura basati su ontologie (BO, MO, TN)
FASE 2
Verrà scelto l’approccio per la riscrittura di
query, unitamente a una serie di tecniche propedeutiche ad una
riscrittura il più possibile efficace. In particolare,
i mapping semantici tra le ontologie costituiranno una importante
base di partenza per poter riscrivere una data query originariamente
espressa con riferimento a una ontologia locale. L’idea
alla base sarà quella di partire da tali mapping per
quantificare le similarità tra i diversi concetti descritti
nelle ontologie di riferimento. Le tecniche per valutare la
similarità tra i concetti coinvolti non sono proprie
della fase di riscrittura in sé ma ne costituiscono una
fondamentale fase
preliminare e propedeutica. Tali tecniche dovranno essere studiate
in modo che non si limitino all’utilizzo delle informazioni
semantiche legate al significato dei vari concetti presenti
nelle ontologie, ma che tengano anche conto del contesto (struttura)
in cui tali concetti sono inseriti, ispirandosi ad altri approcci
presentati recentemente (Garcia-Molina et al., 2002). Le similarità
individuate mediante tali approcci verranno quindi sfruttate
per la fase di riscrittura verso le altre ontologie, che sarà
in grado tanto di riadattare la struttura della query quanto
di riscriverne in modo consistente i valori. Tali similarità
verranno inoltre utilizzate per valutare e quantificare la verosimiglianza
tra le query ottenute tramite riscrittura e quella originaria.
Per ottenere una risposta completa e minimale ad una query verrà
applicato ed esteso il metodo della full-disjunction.
PRODOTTI
D3.R3: Definizione del linguaggio di interrogazione e delle
tecniche di riscrittura basate su ontologie (BO, MO, TN)
FASE 3
La FASE 3 vedrà l’effettiva implementazione delle
tecniche di riscrittura proposte all’interno un prototipo
per la formulazione di interrogazioni.
PRODOTTI
D3.P1 Prototipo per la formulazione di interrogazioni (BO, MO).
|