TEMA 3
ELABORAZIONE DI INTERROGAZIONI |
|
| Unità
coinvolte nel Tema |
|
Università di Modena e Reggio
Emilia
|
|
Università di Trento
|
|
Università di Bologna
|
|
Università di Roma Tre
|
|
|
| Obiettivi del
Tema |
| Relativamente al TEMA 3, un
primo obiettivo è quello di sfruttare la caratterizzazione
delle sorgenti per indirizzare l'esecuzione verso le sole sorgenti
ritenute più rilevanti. A tale scopo un ruolo fondamentale
viene giocato dai mapping semantici tra le ontologie di dominio
e dalla definizione di una “distanza semantica”
tra i concetti coinvolti nei mapping. Relativamente agli aspetti
di esecuzione si intendono definire tecniche per la riscrittura
automatica di interrogazioni che, sfruttando le informazioni
sulla semantica dei singoli concetti descritti nelle ontologie
di riferimento e il contesto in cui sono inseriti, riscrivano
l’interrogazione verso le altre ontologie in una forma
che sia il più possibile simile a quella originaria.
La determinazione del risultato di un’interrogazione richiede
di ricostruire ogni oggetto coinvolto a partire dalle informazioni
relative che lo caratterizzano e che si trovano distribuite
su più sorgenti (“object fusion”). In questo
caso l’obiettivo è estendere i metodi noti di “full
disjunction” al caso di match approssimati e di eterogeneità
semantica (presenza di valori diversi per stessi attributi gestiti
da più sorgenti). Ulteriore obiettivo è lo sviluppo
di tecniche, corrette ed efficienti, anche al variare del criterio
di combinazione (ad es., somma pesata) dei vari fattori che
influenzano la rilevanza degli oggetti, per la determinazione
dei “migliori” N oggetti per una data interrogazione.
Ultimo obiettivo è lo sviluppo di meccanismi che permettano
una navigazione interattiva del risultato, rispettando i livelli
di astrazione offerti dalle ontologie. A tal fine si studieranno
opportuni operatori che consentano di fruire del risultato a
diversi livelli, favorendo l'individuazione di pattern significativi
nei dati da parte dell'utente.
|
| |
| Fasi di lavoro |
| Fase 1 (durata 6 mesi:
1/12/2004 - 31/05/2005)
|
| La prima fase del progetto sarà
innanzitutto dedicata all'analisi critica dello stato dell'arte,
allo scopo di definire compiutamente i limiti delle soluzioni
attualmente disponibili per i problemi di interesse. Si procederà
quindi alla formulazione dei requisiti specifici per i diversi
argomenti di ricerca pertinenti al Tema 3. Nello specifico:
- Verrà condotta un’analisi critica dei linguaggi
di interrogazione e delle tecniche di riscrittura di interrogazione
basati su ontologie (prodotto D3.R1), allo scopo di evidenziarne
i limiti e definire compiutamente i requisiti per gli strumenti
e le tecniche che si andranno a sviluppare nelle fasi successive
del progetto.
- Partendo da un’analisi delle principali tipologie di
elaborazione di interrogazioni in Ambiente distribuito ed eterogeneo,
si definiranno compiutamente i limiti delle stesse in relazione
all’architettura di WISDOM (nella quale, si ricorda, una
sorgente è visibile esternamente solo attraverso l’ontologia
di dominio (GVV) che la integra). In particolare, considerando
i vari aspetti che possono contribuire a determinare la rilevanza
di un risultato, si analizzerà se e come tali aspetti
sono influenzati dall’architettura di WISDOM. Si analizzerà
inoltre la possibilità di elaborare i dati restituiti
dalle interrogazioni al fine di presentarli all’utente
in forma compatta e facilmente fruibile, valutando in che misura
sia opportuno abbinare tecniche di navigazione e sintesi proprie
della business intelligence a forme di rappresentazione di pattern
proprie del data mining. Si analizzeranno inoltre i paradigmi
di interrogazione visuale di basi di dati alllo scopo di caratterizzarne
i limiti nel caso di sistemi, quali WISDOM, basati sull’utilizzo
di ontologie.
|
| Fase 2 (durata 6 mesi: 1/6/2005
- 31/11/2005)
|
| Nella seconda fase del progetto
verranno messe a punto le soluzioni per gli argomenti oggetto
d’indagine del Tema 3.
Verrà definito il linguaggio di interrogazione basato
su ontologie di dominio e scelto l’approccio per la riscrittura
di interrogazioni.L’idea di base è partire dalle
similarità individuate tra i concetti nelle diverse ontologie
per riscrivere in una forma che sia il più possibile
equivalente a quella originaria l’interrogazione e i valori
(costanti) presenti nella stessa. A tale scopo verrà
definita una "distanza semantica" tra concetti di
diverse ontologie legati da mapping di tipo semantico (Tema
2). Questa distanza sarà uno dei criteri che verranno
usati per definire la nozione di sorgente rilevante per una
data interrogazione (intuitivamente, mapping con elevata distanza
semantica rendono una sorgente poco rilevante) e di “risposta
buona” (in particolare, nel caso in cui un concetto mappi
su più di un concetto di un’altra ontologia, non
è detto che tutti tali mapping siano parimenti rilevanti).
Per la determinazione delle sorgenti rilevanti, le informazioni
di natura semantica verranno combinate con quelle di natura
strutturale e statistica. Per le prime l’idea è
sfruttarle in modo da definire compiutamente il contesto in
cui un dato concetto si colloca, per le seconde l’obiettivo
è introdurre informazioni di natura quantitativa legate
alle sorgenti in quanto tali (in particolare: qualità/affidabilità
dei dati forniti dalla sorgente, frequenza di aggiornamento
dei dati stessi) e alle istanze in esse presenti. In quest’ultimo
caso l’idea è sfruttare l’arricchimento delle
ontologie di dominio mediante “content summaries”
(Tema 1) in modo da poter attribuire a ciascuna sorgente uno
“score” di rilevanza relativo ai valori usati nell’interrogazione
(intuitivamente, una sorgente può essere rilevante a
livello semantico, ma non a livello di istanze, e quindi non
in grado di restituire risultati che soddisfano le condizioni
dell’interrogazione).
|
| Fase 3 (durata 12 mesi:
1/12/2005 - 31/11/2006)
|
| La terza fase del progetto sarà
prevalentemente dedicata allo sviluppo di prototipi e alla loro
integrazione, oltre che alla sperimentazione dei prototipi stessi.
I prototipi del Tema 3 saranno 2.
Il primo prototipo (prodotto D3.P1) si farà carico dell’acquisizione
e analisi delle interrogazioni, oltre che della determinazione
delle sorgenti rilevanti per l’interrogazione stessa e
della riscrittura dell’interrogazione.
Il secondo prototipo (prodotto D3.P2) implementerà le
tecniche di esecuzione di interrogazione messe a punto durante
la fase 2, e includerà un’interfaccia per la navigazione
interattiva dell’informazione a diversi livelli di astrazione
sulla base dell’ontologia di
dominio.
|
|
|
|