Wisdom: Unità di Trento

Unità di ricerca: Università di Trento

Dipartimento di Informatica e Telecomunicazioni

Programma di Ricerca dell'Unità (modello B)

Coordinatore Scientifico del Programma di Ricerca

Prof. Bouquet Paolo

Dipartimento di INFORMATICA E TELECOMUNICAZIONI
Facoltà di ECONOMIA
Università degli Studi di TRENTO

Via Sommarive, 14 - 38100 Trento, Italia
Tel :+39 0461 882088
Fax :+39 0461 882093

E-mail: bouquet@dit.unitn.it
Home page: http://dit.unitn.it/~bouquet

Partecipanti al programma dell'Unità di Ricerca

Partecipante	Dipartimento	Qualifica
BOUQUET PAOLO	Dip. INFORMATICA E TELECOMUNICAZIONI	Ricercatore
BLANZIERI ENRICO	Dip. INFORMATICA E TELECOMUNICAZIONI	Ricercatore
GIUNCHIGLIA FAUSTO	Dip. INFORMATICA E TELECOMUNICAZIONI	Prof. Ordinario
ROSCHELOVA ALBENA	Dip. INFORMATICA E TELECOMUNICAZIONI	Dottoranda
SHVAIKO PAVEL	Dip. INFORMATICA E TELECOMUNICAZIONI	Dottorando
ZANOBINI STEFANO	Dip. INFORMATICA E TELECOMUNICAZIONI	Dottorando

Titolo specifico del programma svolto dall'unità di ricerca

Linguaggi, modelli tecniche e strumenti per la scoperta, rappresentazione e gestione di mapping semantici tra ontologie di dominio/schemi eterogenei e distribuiti.

Descrizione del programma e dei compiti dell'Unità di Ricerca

Una delle sfide chiave nello sviluppo di sitemi distribuiti aperti, come il Web, una intranet aziendale o il Semantic Web, e' di rendere possibile lo scambio di informazione attraverso applicazioni che utilizzano schemi autonomamente sviluppati per organizzare localmente
i dati. Tipici esempi sono: databases con differenti schemi, raccolte di documenti che utilizzano diverse strutture di classificazione, file system di utenti diversi. L'interoperabilita' tra queste applicazioni dipende essenzialmente dall'abilita' di scoprire o utilizzare mappings
tra tali schemi eterogenei. Oggi questi mappings sono fatti per lo piu' a mano, con un processo molto dispendioso (in termini di risorse e tempo) e suscettibile di frequenti errori. Conseguentemente, l'integrazione semantica e' divenuta attualmente un collo di bottiglia
per lo sviluppo di una gran varieta' di applicazioni per la gestione della conoscenza: gli alti costi hanno motivato numerose attivita' di ricerca sui metodi per descrivere mappings, manipolarli e generarli (semi)automaticamente.
Per quanto concerne quest'ultimo, il problema puo' essere definito formalmente come il problema di generare mappings tra elementi (o insiemi di elementi) appartenenti a schemi eterogenei. Un mapping M e' un insieme di triple (m,n,R) dove m,n sono elementi di diversi schemi e R e' la relazione intercorrente tra i due nodi.
Gli approcci proposti in letteratura possono essere analizzati secondo tre dimensioni: l'achitettura generale, le tecniche usate per generare mappings e i possibili valori per le relazioni.

TEMA 1

L'obiettivo del TEMA 1 lo studio di soluzioni per la rappresentazione semantica dei contenuti delle sorgenti informative in ambito Web, con particolare riferimento ai siti data-intensive e ai siti e pagine Web con contenuto scarsamente strutturato.
La rappresentazione ed integrazione di tali sorgenti informative portera' alla definizione di un linguaggio per definire ontologie di dominio e classificazioni e alle loro pratiche realizzazioni, al fine di un loro utilizzo per l'esecuzione delle query nel TEMA 3.
Rispetto a questo tema, l'unita' di Trento contribuira' nei seguenti modi:

FASE 1
Contributo alla stesura di un documento sullo stato dell'arte dei linguaggi e standard emergenti per la definizione di ontologie e classificazioni (deliverable D1.R1). Il lavoro dell'unita' si focalizzaera' principalmente sulla rappresentazione di gerarchie di
concetti (tassonomie). Esse, infatti, sono estremamente comuni sul wen (si vedano per esempio le Web directories di Google or Yahoo, o la struttura a directory di molti portali web), e inoltre la scoperta di mapping tra tassonomie e' si un caso particolare, ma molto rilevante, in quanto trova applicazione in molti strumenti di condivisione
di documenti e di knowledge management.

FASE 2
Contributo alla specifica di un linguaggio per definire ontologie di dominio e classificazioni.
L'unita' di Trento si focalizzera' in particolare sulla specifica di gerarchie di concetti e tassonomie semanticamente annotate.
Il lavoro prendera' le mosse dalla definizione di CTXML (Context Markup Language), un linguaggio basatp su XML proposto da Bouquet, Magnini, Serafini, Zanobini al AAAI-02 workshop on Meaning Negotiation (Edmonton, CAnada, luglio 2002).
Tale linguaggio deve essere compatibile con lo standard W3C (XML, RDF, RDFS, XML Schema, OWL) e con il linguaggio di query di cui al successivo tema 3.

FASE 3
Sviluppo di un prototipo per il popolamento automatico di classificazioni (deliverable D1.P5). Questo strumento fornira' un semplice metodo per associare documenti a schemi di classificazioni predefiniti, e sara' usato principalmente per aggiungere al sistema risorse web poco strutturate. Esso permettera' di raggruppare i documenti disponibili in cluster semanticamente omogenei. Tra le tecninche che verranno usate citiamo quelle di elaborazione del linguaggio naturale, text mining e case-based reasoning.

TEMA 2

L'obiettivo del TEMA 2 lo sviluppo di tecniche di mapping semantico
tra ontologie di dominio (GVV) e tra classificazioni eterogenee. Questo tema costituisce la principale area di lavoro dell'unita' di Trento.
In particolare la presente unita' di ricerca contribuira' con i seguenti compiti:

FASE 1
Report sullo stato dell'arte dei linguaggi e tecniche per mappare ontologie di dominio (deliverable D2.R1). L'obiettivo di questa attivita' e' duplice:
* la definizione di un framework comune per il mapping di ontologie di dominio, compresa la definizione di quale informazione debba essere contenuto in un mapping
* l'analisi e il confronto tra le tecniche allo stato dell'arte per il mapping semantico, compresa una valutazione del contributo che ognuna di queste tecniche puo' portare alla computazione di mapping come quelli che saranno definiti come output dell'attivita'
precedente.

FASE 2
Nella seconda fase, saranno definite tecniche innovative per scoprire mapping tra ontologie di dominio (deliverable D2.R2). In particolare:
a. definizione di un linguaggio per rappresentare mapping complessi tra ontologie di dominio eterogenee.
b. specifica di un algoritmo che consenta la generazione di mapping tra ontologie di dominio eterogenee. Tale algoritmo prendera' le mosse da un algoritmno denominato CTXMATCH, sviluppato dall'Universita' di Trento.

FASE 3
Sviluppo di unapiattaforma per la scoperta e la gestione di mapping semantici tra ontologie di dominio (deliverable D2.P1). La piattaforma pua' essere vista come un servizio che puo' essere invocato per generare tali mapping. Essa costituisce un sistema altamente modulare e indipendente dal dominio, in cui diversi componenti funzionali possono essere inseriti
"plug and play" o customizzati.
A seconda delle scelte architetturali che verranno fatto per il progetto WISDOM, la piattaforma potra' essere usata come un servizio condiviso a livello globale, o usato localmente in modalita' "peer-to-peer".

TEMA 3

Obiettivo generale del TEMA 3 e' lo sviluppo di tecniche di ricerca di informazioni basate sulle ontologie di dominio (costruite nel tema 1) e sui mapping semantici (costruiti nel tema 2). Rispetto a questo tema, il contributo dell'unita' di Trento e' cosi' distribuito:

FASE 1
Contributo al report sull'analisi dei linguaggi di query e di riscrittura di query basati su ontologie (deliverable D3.R1).

FASE 2
Contributo alla definizione diun query language e di tecniche di riscrittura di query basate su ontologie (deliverable D3.R3). In particolare, il contributo dell'unità di Trento sara' la definizione diuna nozione di "distanza semantica" tra un concetto usato in una query
come utilizzato in una certa ontologia T1, e altri concetti (appartenenti ad altre ontologie) a cui il primo concetto e' legato mediante dei mapping di tipo semantico (TEMA 2).
Questa distanza sara' uan delle soglie usate per definire la nozione di "risposta buona" a una certa query, in particolare quando l'esecuzione della query richiede l'uso dei mapping definiti tra concetti di ontologie di dominio diverse.