TEMA 1
CREAZIONE ED ESTENSIONE DI UNA ONTOLOGIA
DI DOMINO |
|
Unità
coinvolte nel Tema |
Università di Modena e Reggio
Emilia
|
Università di Trento
|
Università di Bologna
|
Università di Roma Tre
|
|
Obiettivi del
Tema |
Relativamente al TEMA 1, un primo
obiettivo è la definizione di un linguaggio di ontologia
per la descrizione strutturale e semantica dei contenuti delle
sorgenti, in termini di metadati, compatibile con standard W3C
(XML, RDF, RDFS, XML Schema, OWL). In particolare, per far fronte
a query specifiche, tale linguaggio deve consentire una caratterizzazione
sintetica del contenuto (istanze) delle sorgenti informative.
Una ontologia di dominio è rappresentata come una vista
globale virtuale (GVV - Global Virtual View) di un insieme di
sorgenti informative relative allo stesso dominio. Per i siti
data-intensive, il primo problema da affrontare è l'estrazione
dello schema tramite opportuni wrapper generati automaticamente.
Un secondo problema è quello di dare una semantica ai
dati estratti da wrapper generati automaticamente. Per tale
problema si valuteranno estensioni alle tecniche per la annotazione
dei dati estratti da wrapper con approcci basati sulla semantica
dell'ontologia di dominio. Problemi di natura diversa riguardano
i siti e le pagine Web con contenuto scarsamente strutturato.
In questo caso l'approccio è sfruttare la tecnologia
dei Web search engine (es. Google), opportunamente estesa/complementata
con strumenti di natura semantica. Si proporranno tecniche mirate
alla costruzione di schemi di classificazione - tipicamente
gerarchici - dei documenti disponibili. Un ultimo obiettivo
è lo sviluppo di tecniche per estendere una ontologia
di dominio tramite l'aggiunta di una nuova sorgente informativa.
|
|
Fasi di lavoro |
Fase 1 (durata 6 mesi:
1/12/2004 - 31/05/2005)
|
L’attività durante
la fase preliminare sarà svolta congiuntamente dalle
4 unità e sarà dedicata all’analisi critica
delle soluzioni proposte in letteratura per la definizione di
linguaggi di ontologia (prodotto D1.R1). Lo studio degli standard
emergenti sarà particolarmente focalizzato sul problema
dell’evoluzione delle ontologie e del trattamento integrato
di ontologie eterogenee indipendentemente sviluppate.
|
Fase 2 (durata 6 mesi: 1/6/2005
- 31/11/2005)
|
In questa fase, le unità
coinvolte definiranno il linguaggio per la specifica dell’ontologia
di dominio (prodotto D1.R2). Il linguaggio di ontologia verrà
sviluppato a partire dal linguaggio ODLI3, già utilizzato
in MOMIS, e dovrà rispettare una serie di requisiti:
in
primo luogo dovrà essere compatibile con gli standard
W3C, in secondo luogo dovrà essere sufficientemente espressivo
per consentire il trattamento integrato di sorgenti informative.
Inoltre, tale linguaggio dovrà essere in grado di rappresentare
concetti
estensionali, al fine di facilitare il compito di reperimento
delle sorgenti rilevanti per l’esecuzione di una query.
Un'altra attività di questa fase sarà lo studio
del problema dell’evoluzione dell’ontologia di dominio
in seguito all’introduzione di una nuova sorgente informativa,
con particolare attenzione al fatto che una modifica in uno
o più concetti dell’ontologia può causare
inconsistenze sia in concetti collegati, sia in altre ontologie
in relazione attraverso i mapping. Tale attività prevede
la progettazione e lo sviluppo di un prototipo che permetterà
l’integrazione di una descrizione di una nuova sorgente
tramite un processo semiautomatico basato sul lessico (prodotto
D1.P1).
Relativamente al problema della generazione automatica dei wrapper,
in questa fase si studieranno tecniche innovative efficaci ed
efficienti per inferire la descrizione di un sito data-intensive
(prodotto D1.R5). La descrizione (o schema) del sito mira ad individuare classi di pagine, le cui istanze sono gruppi di
pagine che condividono la stessa struttura e che offrono le
stesse informazioni intensionali. I collegamenti fra le classi
rappresentano associazioni concettuali. Per i siti a contenuto
scarsamente strutturato l’attività si focalizzerà
principalmente sulla classificazione di documenti in rappresentazioni
gerarchiche di concetti (tassonomie) e sulla scoperta di mapping
fra tassonomie. Un’ulteriore attività sarà
relativa alla costruzione di “content summaries”,
al fine di fornire una caratterizzazione (“profilo”)
delle sorgenti dal punto di vista statistico che permetta una
più precisa valutazione della rilevanza delle sorgenti
stesse relativamente a una data interrogazione e, conseguentemente,
la selezione delle sorgenti più significative (prodotto
D1.R3).
Come ultima attività si effettuerà un’analisi
critica delle tecniche esistenti per l’estrazione di catene
lessicali, al fine di sviluppare strumenti di natura semantica
in grado di migliorare l’efficacia delle tecniche attualmente
utilizzate dai motori di ricerca keyword-based (prodotto D1.R4).
|
Fase 3 (durata 12 mesi:
1/12/2005 - 31/11/2006)
|
Come prima attività verrà
studiato in che modo arricchire semanticamente lo schema di
un sito data-intensive tramite la tecnica delle catene lessicali,
per la quale verranno sviluppati nuovi algoritmi a complessità
computazionale lineare adatti a rappresentare efficacemente
documenti Web (prodotto D1.R6).
In quest'ultima fase del Tema 1 saranno sviluppati quattto prototipi
software.
Il primo sarà un prototipo che, a partire da un’ontologia
di dominio esistente, implementerà tecniche di probing
(interrogazione) delle sorgenti (considerando le informazioni
di natura ontologica e i vincoli che da tali informazioni sono
desumibili) e produrrà, a partire dai risultati ottenuti,
i relativi “content summaries” (prodotto D1.P2).
Il secondo prototipo avrà come obiettivo la costruzione
di catene lessicali estratte dall'analisi di siti web (prodotto
D1.P3).
Il terzo prototipo che verrà prodotto sarà quello
per associare documenti di risorse Web poco strutturate a schemi
di classificazione predefiniti (prodotto D1.P5).
Il quarto prototipo servirà per inferire automaticamente
lo schema di un sito data intensive (prodotto D1.P4).
|
|
|