Tema 3

TEMA 3

ELABORAZIONE DI INTERROGAZIONI

Unità coinvolte nel Tema

Università di Modena e Reggio Emilia

Università di Trento

Università di Bologna

Università di Roma Tre

Obiettivi del Tema

Relativamente al TEMA 3, un primo obiettivo è quello di sfruttare la caratterizzazione delle sorgenti per indirizzare l'esecuzione verso le sole sorgenti ritenute più rilevanti. A tale scopo un ruolo fondamentale viene giocato dai mapping semantici tra le ontologie di dominio e dalla definizione di una “distanza semantica” tra i concetti coinvolti nei mapping. Relativamente agli aspetti di esecuzione si intendono definire tecniche per la riscrittura automatica di interrogazioni che, sfruttando le informazioni sulla semantica dei singoli concetti descritti nelle ontologie di riferimento e il contesto in cui sono inseriti, riscrivano l’interrogazione verso le altre ontologie in una forma che sia il più possibile simile a quella originaria. La determinazione del risultato di un’interrogazione richiede di ricostruire ogni oggetto coinvolto a partire dalle informazioni relative che lo caratterizzano e che si trovano distribuite su più sorgenti (“object fusion”). In questo caso l’obiettivo è estendere i metodi noti di “full disjunction” al caso di match approssimati e di eterogeneità semantica (presenza di valori diversi per stessi attributi gestiti da più sorgenti). Ulteriore obiettivo è lo sviluppo di tecniche, corrette ed efficienti, anche al variare del criterio di combinazione (ad es., somma pesata) dei vari fattori che influenzano la rilevanza degli oggetti, per la determinazione dei “migliori” N oggetti per una data interrogazione.
Ultimo obiettivo è lo sviluppo di meccanismi che permettano una navigazione interattiva del risultato, rispettando i livelli di astrazione offerti dalle ontologie. A tal fine si studieranno opportuni operatori che consentano di fruire del risultato a diversi livelli, favorendo l'individuazione di pattern significativi nei dati da parte dell'utente.

Fasi di lavoro

Fase 1 (durata 6 mesi: 1/12/2004 - 31/05/2005)

La prima fase del progetto sarà innanzitutto dedicata all'analisi critica dello stato dell'arte, allo scopo di definire compiutamente i limiti delle soluzioni attualmente disponibili per i problemi di interesse. Si procederà quindi alla formulazione dei requisiti specifici per i diversi argomenti di ricerca pertinenti al Tema 3. Nello specifico:
- Verrà condotta un’analisi critica dei linguaggi di interrogazione e delle tecniche di riscrittura di interrogazione basati su ontologie (prodotto D3.R1), allo scopo di evidenziarne i limiti e definire compiutamente i requisiti per gli strumenti e le tecniche che si andranno a sviluppare nelle fasi successive del progetto.
- Partendo da un’analisi delle principali tipologie di elaborazione di interrogazioni in Ambiente distribuito ed eterogeneo, si definiranno compiutamente i limiti delle stesse in relazione all’architettura di WISDOM (nella quale, si ricorda, una sorgente è visibile esternamente solo attraverso l’ontologia di dominio (GVV) che la integra). In particolare, considerando i vari aspetti che possono contribuire a determinare la rilevanza di un risultato, si analizzerà se e come tali aspetti sono influenzati dall’architettura di WISDOM. Si analizzerà inoltre la possibilità di elaborare i dati restituiti dalle interrogazioni al fine di presentarli all’utente in forma compatta e facilmente fruibile, valutando in che misura sia opportuno abbinare tecniche di navigazione e sintesi proprie della business intelligence a forme di rappresentazione di pattern proprie del data mining. Si analizzeranno inoltre i paradigmi di interrogazione visuale di basi di dati alllo scopo di caratterizzarne i limiti nel caso di sistemi, quali WISDOM, basati sull’utilizzo di ontologie.

Fase 2 (durata 6 mesi: 1/6/2005 - 31/11/2005)

Nella seconda fase del progetto verranno messe a punto le soluzioni per gli argomenti oggetto d’indagine del Tema 3.
Verrà definito il linguaggio di interrogazione basato su ontologie di dominio e scelto l’approccio per la riscrittura di interrogazioni.L’idea di base è partire dalle similarità individuate tra i concetti nelle diverse ontologie per riscrivere in una forma che sia il più possibile equivalente a quella originaria l’interrogazione e i valori (costanti) presenti nella stessa. A tale scopo verrà definita una "distanza semantica" tra concetti di diverse ontologie legati da mapping di tipo semantico (Tema 2). Questa distanza sarà uno dei criteri che verranno usati per definire la nozione di sorgente rilevante per una data interrogazione (intuitivamente, mapping con elevata distanza semantica rendono una sorgente poco rilevante) e di “risposta buona” (in particolare, nel caso in cui un concetto mappi su più di un concetto di un’altra ontologia, non è detto che tutti tali mapping siano parimenti rilevanti).
Per la determinazione delle sorgenti rilevanti, le informazioni di natura semantica verranno combinate con quelle di natura strutturale e statistica. Per le prime l’idea è sfruttarle in modo da definire compiutamente il contesto in cui un dato concetto si colloca, per le seconde l’obiettivo è introdurre informazioni di natura quantitativa legate alle sorgenti in quanto tali (in particolare: qualità/affidabilità dei dati forniti dalla sorgente, frequenza di aggiornamento dei dati stessi) e alle istanze in esse presenti. In quest’ultimo caso l’idea è sfruttare l’arricchimento delle ontologie di dominio mediante “content summaries” (Tema 1) in modo da poter attribuire a ciascuna sorgente uno “score” di rilevanza relativo ai valori usati nell’interrogazione (intuitivamente, una sorgente può essere rilevante a livello semantico, ma non a livello di istanze, e quindi non in grado di restituire risultati che soddisfano le condizioni dell’interrogazione).

Fase 3 (durata 12 mesi: 1/12/2005 - 31/11/2006)

La terza fase del progetto sarà prevalentemente dedicata allo sviluppo di prototipi e alla loro integrazione, oltre che alla sperimentazione dei prototipi stessi.
I prototipi del Tema 3 saranno 2.
Il primo prototipo (prodotto D3.P1) si farà carico dell’acquisizione e analisi delle interrogazioni, oltre che della determinazione delle sorgenti rilevanti per l’interrogazione stessa e della riscrittura dell’interrogazione.
Il secondo prototipo (prodotto D3.P2) implementerà le tecniche di esecuzione di interrogazione messe a punto durante la fase 2, e includerà un’interfaccia per la navigazione interattiva dell’informazione a diversi livelli di astrazione sulla base dell’ontologia di
dominio.