| L'unita' di Roma Tre e' impegnata
nel progetto prevalentemente nelle attivita' del Tema 1 (CREAZIONE
ED ESTENSIONE DI UNA ONTOLOGIA DI DOMINIO); ma artecipa anche
alle attivita' del Tema 2 (SEMANTICA EMERGENTE: SCOPERTA DI
MAPPING SEMANTICI TRA ONTOLOGIE).
L'unita' ha approfondite competenze nelle problematiche relative
alla estrazione di dati da siti web data-intensive. In particolare,
l'unita' ha sviluppato un sistema, chiamato RoadRunner (Crescenzi
et al 2001, Crescenzi et al. 2002), per la generazione automatica
di web wrapper per sorgenti web data-intensive (vedi Base di
partenza scientifica). Dato un insieme di pagine campione simili
nella struttura, il sistema genera un wrapper. Il wrapper può
essere successivamente essere applicato per estrarre dati da
pagine che abbiano la stessa struttura delle pagine campione.
Numerosi esperimenti hanno dimostrato l'efficacia e l'efficienza
del approccio.
L'esperienza maturata nello sviluppo del sistema RoadRunner
(cosi' come lo stesso sistema) costituisce la base di partenza
per le attivita' dell'unita', i cui contributi principali saranno
nel sottotema 1.2 (Aggiunta di una nuova sorgente informativa
alla Ontologia di dominio) in collaborazione con l'unita' di
Modena. Come discusso nel Modello A, per estensione di una ontologia
di dominio si intende l'aggiunta di una nuova sorgente informativa.
Nel caso di una sorgente data-intensive questa operazione comporta:
(i) inferenza di uno schema che descriva l'organizzazione dei
dati offerti dalla sorgente, (ii) la definizione di programmi,
wrapper, che permettano di estrarre i dati dalla sorgente e
organizzarli in un formato strutturato, (iii) la attribuzione
di una semantica allo schema e ai dati estratti, e (iv) la estensione
della Vista Globale Virtuale.
La tecniche sviluppate per la generazione
automatica di wrapper risolvono parzialmente e limitatamente
i punti precendenti. Con riferimento ai primi due punti, gli
approcci in letteratura sono infatti in grado di inferire uno
schema, e il programma di estrazione ad esso associato, per
un insieme di pagine strutturalmente omogenee. I moderni siti
web organizzano le proprie pagine in numerose classi (di pagine
simili), in una struttura ipertestuale complessa e articolata.
Per generare i wrapper necessari ad estrarre dati da un
intero sito (o da piu' di un sito) e' quindi necessario descrivere
l'organizzazione delle pagine del sito. Ad oggi tale descrizione
puo' essere fatta solo fatta manualmente, limitando severamente
la scalabilita' dell'intero approccio.
Per illustrare il problema ci avvaliamo di un esempio. Consideriamo
il sito dei campionati del mondo di calcio. Il sito offre alcune
miglaia di pagine, fortemente interconnesse. Queste pagine presentano
informazioni sulle squadre, le partite, i giocatori, etc. Il
sito e' organizzato in maniera regolare; ad esempio abbiamo
una pagina per ogni giocatore, una pagina per ogni squadra,
una pagina per ogni incontro, e cosi' via. Anche le pagine,
al loro interno sono fortemente strutturate: tutte le pagine
dei calciatori hanno un template comune, atraverso il quale
vengono presentate le stesse informazioni intensionali (il nome,
il ruolo, un breve biografia, etc.). Analogamente, tutte le
pagine delle squadre presentano le stesse informazioni intensionli
in un template comune. Inoltre, una regolarita' interna alle
pagine, e interna al sito e' espressa anche dai collegamenti
ipertestuali. Ad esempio, tutte le pagine dei
calciatori hanno un link alla squadra in cui militano, un insieme
di link alle pagine degli altri membri della squadra, etc.
Per poter estrarre informazioni da questo sito sarebbe necessario
generare un wrapper per ogni classe di pagina (uno per le pagine
dei calciatri, uno per le pagine delle squadre, etc). Quindi,
per applicare i wrapper al fine di estrarre continuativamente
i dati, e' necessario avere una descrizione delle associazioni
ipertestuali tra le varie classi di pagine. Infatti, osserviamo
che l'estensione di ogni classe di pagina puo' cambiare nel
tempo. Ad esempio, durante lo svolgimento dei mondiali, ogni
giorno verranno aggiunte pagine relative alla descrizione degli
incontri. Solo avendo a disposizione i percorsi necessari a
raggiungere l'estensioni delle varie classi di pagine e' possibile
raggiunge le istanze.
Per poter quindi estrarre dati da siti data intesive quali quello
del nostro esempio, e' necessario generare una descrizione della
struttura del sito (o schema del sito). In questa descrizione
devono essere evidenziate le classi di pagine offerte dal sito,
e icollegamenti tra esse.
L'obiettivo principale dello studio e' quello di definire generare
automaticamente la descrizione di un sito. Un requisito importante
e' l'efficienza di queste tecniche. Nel nostro contesto possiamo
dire che l'efficienza corrisponde a visitare una porzione limitata
del
sito. In pratica si vuole generare un descrizione delle calssi
di pagine e delle loro interconnessioni, visitando un piccolo,
ma significativo, numero di pagine.
E' importante notare che avere a disposizione uno schema del
sito permette di affrontare anche il problema della attribuzione
di semantica alle informazioni estratte (corrispondente al punto
(iii) di cui sopra). La descrizione a cui abbiamo fatto riferimento
precedentemente mira ad individuare classi di pagine. Le istanze
di queste classi sono pagine che hanno in comune una struttura.
E' ragionevaole attendersi che le pagine di ogni classe offrano
le stesse informazioni intensionali; e che i collegamenti tra
le classi rappresentino associazioni concettuali. Con riferimento
al nostro esempio la classe di pagine dei calciatori e' associata
a quella delle squadre. L'obiettivo e' quindi quello di studiare
tecniche che, analizzando i contenuti delle pagine di ciascuna
classe e i collegamenti alle altre pagine, associno una semantica
alle classi e alle associazioni. La strada che che si intende
perseguire e' quella di complementare ed estendere le tecniche
per la annotazione degli schemi dei wrapper generati automaticamente
studiate dalla unita' (Arlotta et al - 2003) con le tecniche
di basate su catene lessicali oggetto di recenti studi della
unita' di Modena.
Nel seguito descriviamo l'articolazione del programma di ricerca,
e i prodotti previsti per ciascuna delle fasi. I prodotti elencati
includono sia quelli per i quali l'Unita' ha una diretta responsabilita',
sia quelli frutto di lavoro congiunto con le altre unita'.
FASE 1
Durante la prima fase l'unita' lavorera' congiuntamente a tutte
le altre Unità, alla definizione dell'architettura metodologica
e funzionale di riferimento per l'intero progetto (prodotto
D0.R1). Inoltre collaborera' con le unita altre unita' alla
analisi critica dei linguaggi e degli standard emergenti per
le ontologie (prodotto D1.R1)
PRODOTTI
D0.R1 Rapporto sull'architettura metodologica e funzionale di
riferimento (in collaborazione con Modena e Reggio Emilia -
MO, Bologna - BO, Trento - TN)
D1.R1: Analisi Critica dei linguaggi e standard emergenti per
le ontologie (in collaborazione con BO,MO,TN)
FASE 2
Durante la seconda fase l'unita' si concentrera' prevalentemente
sulla definizione di tecniche che consentano di inferire automaticamente
la descrizione di un sito data-intensive. Le tecniche proposte
veranno descritte in un rapporto tecnico (prodotto D1.R5).
Infine si lavorerà, congiuntamente a tutte le altre Unità,
alla definizione delle interfacce dei componenti per il prototipo
integrato (prodotto D0.R2).
PRODOTTI
D0.R2 Specifiche delle interfacce dei componenti del prototipo
integrato (in collaborazione con MO, BO, TN)
D1.R5 Definizione di tecniche per inferire automaticamente lo
schema di un sito data-intensive
FASE 3
Nella terza fase del progetto verranno sviluppato e sperimentato
il prototipo per la inferenza automatica dello schema di un
sito data-intensive (prodotto D1.P4). Inoltre, congiuntamente
alla unita' di Modena, si studieranno tecniche basate su catene
lessicali per associare semantica allo schema di un sito data-intensive.
Questo studio congiunto portera' alla produzione di un rapporto
tecnico (prodotto D1.R6). Infine si collaborerà con le
altre Unità all'integrazione dei prototipi realizzati
durante il progetto (prodotto D0.P1).
PRODOTTI
D0.P1 Prototipo integrato di sistema (in collaborazione con
MO, BO, TN)
D1.R6 Definizione di tecniche per associare semantica allo schema
di un sito data-intensive basate su catene lessicali (in collaborazione
con MO)
D1.P4 Prototipo per inferire automaticamente lo schema di un
sito data-intensive
|