Tema 1

TEMA 1

CREAZIONE ED ESTENSIONE DI UNA ONTOLOGIA DI DOMINO

Unità coinvolte nel Tema

Università di Modena e Reggio Emilia

Università di Trento

Università di Bologna

Università di Roma Tre

Obiettivi del Tema

Relativamente al TEMA 1, un primo obiettivo è la definizione di un linguaggio di ontologia per la descrizione strutturale e semantica dei contenuti delle sorgenti, in termini di metadati, compatibile con standard W3C (XML, RDF, RDFS, XML Schema, OWL). In particolare, per far fronte a query specifiche, tale linguaggio deve consentire una caratterizzazione sintetica del contenuto (istanze) delle sorgenti informative.
Una ontologia di dominio è rappresentata come una vista globale virtuale (GVV - Global Virtual View) di un insieme di sorgenti informative relative allo stesso dominio. Per i siti data-intensive, il primo problema da affrontare è l'estrazione dello schema tramite opportuni wrapper generati automaticamente. Un secondo problema è quello di dare una semantica ai dati estratti da wrapper generati automaticamente. Per tale problema si valuteranno estensioni alle tecniche per la annotazione dei dati estratti da wrapper con approcci basati sulla semantica dell'ontologia di dominio. Problemi di natura diversa riguardano i siti e le pagine Web con contenuto scarsamente strutturato. In questo caso l'approccio è sfruttare la tecnologia dei Web search engine (es. Google), opportunamente estesa/complementata con strumenti di natura semantica. Si proporranno tecniche mirate alla costruzione di schemi di classificazione - tipicamente gerarchici - dei documenti disponibili. Un ultimo obiettivo è lo sviluppo di tecniche per estendere una ontologia di dominio tramite l'aggiunta di una nuova sorgente informativa.

Fasi di lavoro

Fase 1 (durata 6 mesi: 1/12/2004 - 31/05/2005)

L’attività durante la fase preliminare sarà svolta congiuntamente dalle 4 unità e sarà dedicata all’analisi critica delle soluzioni proposte in letteratura per la definizione di linguaggi di ontologia (prodotto D1.R1). Lo studio degli standard emergenti sarà particolarmente focalizzato sul problema dell’evoluzione delle ontologie e del trattamento integrato di ontologie eterogenee indipendentemente sviluppate.

Fase 2 (durata 6 mesi: 1/6/2005 - 31/11/2005)

In questa fase, le unità coinvolte definiranno il linguaggio per la specifica dell’ontologia di dominio (prodotto D1.R2). Il linguaggio di ontologia verrà sviluppato a partire dal linguaggio ODLI3, già utilizzato in MOMIS, e dovrà rispettare una serie di requisiti: in
primo luogo dovrà essere compatibile con gli standard W3C, in secondo luogo dovrà essere sufficientemente espressivo per consentire il trattamento integrato di sorgenti informative. Inoltre, tale linguaggio dovrà essere in grado di rappresentare concetti
estensionali, al fine di facilitare il compito di reperimento delle sorgenti rilevanti per l’esecuzione di una query.
Un'altra attività di questa fase sarà lo studio del problema dell’evoluzione dell’ontologia di dominio in seguito all’introduzione di una nuova sorgente informativa, con particolare attenzione al fatto che una modifica in uno o più concetti dell’ontologia può causare inconsistenze sia in concetti collegati, sia in altre ontologie in relazione attraverso i mapping. Tale attività prevede la progettazione e lo sviluppo di un prototipo che permetterà l’integrazione di una descrizione di una nuova sorgente tramite un processo semiautomatico basato sul lessico (prodotto D1.P1).
Relativamente al problema della generazione automatica dei wrapper, in questa fase si studieranno tecniche innovative efficaci ed efficienti per inferire la descrizione di un sito data-intensive (prodotto D1.R5). La descrizione (o schema) del sito mira ad individuare classi di pagine, le cui istanze sono gruppi di pagine che condividono la stessa struttura e che offrono le stesse informazioni intensionali. I collegamenti fra le classi rappresentano associazioni concettuali. Per i siti a contenuto scarsamente strutturato l’attività si focalizzerà principalmente sulla classificazione di documenti in rappresentazioni gerarchiche di concetti (tassonomie) e sulla scoperta di mapping fra tassonomie. Un’ulteriore attività sarà relativa alla costruzione di “content summaries”, al fine di fornire una caratterizzazione (“profilo”) delle sorgenti dal punto di vista statistico che permetta una più precisa valutazione della rilevanza delle sorgenti stesse relativamente a una data interrogazione e, conseguentemente, la selezione delle sorgenti più significative (prodotto D1.R3).
Come ultima attività si effettuerà un’analisi critica delle tecniche esistenti per l’estrazione di catene lessicali, al fine di sviluppare strumenti di natura semantica in grado di migliorare l’efficacia delle tecniche attualmente utilizzate dai motori di ricerca keyword-based (prodotto D1.R4).

Fase 3 (durata 12 mesi: 1/12/2005 - 31/11/2006)

Come prima attività verrà studiato in che modo arricchire semanticamente lo schema di un sito data-intensive tramite la tecnica delle catene lessicali, per la quale verranno sviluppati nuovi algoritmi a complessità computazionale lineare adatti a rappresentare efficacemente documenti Web (prodotto D1.R6).
In quest'ultima fase del Tema 1 saranno sviluppati quattto prototipi software.
Il primo sarà un prototipo che, a partire da un’ontologia di dominio esistente, implementerà tecniche di probing (interrogazione) delle sorgenti (considerando le informazioni di natura ontologica e i vincoli che da tali informazioni sono desumibili) e produrrà, a partire dai risultati ottenuti, i relativi “content summaries” (prodotto D1.P2).
Il secondo prototipo avrà come obiettivo la costruzione di catene lessicali estratte dall'analisi di siti web (prodotto D1.P3).
Il terzo prototipo che verrà prodotto sarà quello per associare documenti di risorse Web poco strutturate a schemi di classificazione predefiniti (prodotto D1.P5).
Il quarto prototipo servirà per inferire automaticamente lo schema di un sito data intensive (prodotto D1.P4).