Unità di ricerca: Università di Roma Tre

Dipartimento di Informatica e Automazione

 

Programma di Ricerca dell'Unità (modello B)

Coordinatore Scientifico del Programma di Ricerca

Prof. Merialdo Paolo

Dipartimento di INFORMATICA E AUTOMAZIONE
Facoltà di INGEGNERIA
Università degli Studi ROMA TRE

Via della Vasca Navale, 79 - 00149 Roma, Italia
Tel  :+39 06 55173218
Fax :+39 06 5573030

E-mail: merialdo@dia.uniroma3.it
Home page: www.dia.uniroma3.it/~merialdo

Partecipanti al programma dell'Unità di Ricerca
 
Partecipante
Dipartimento
Qualifica
MERIALDO PAOLO Dip. INFORMATICA E AUTOMAZIONE Ricercatore
ATZENI PAOLO Dip. INFORMATICA E AUTOMAZIONE Prof. Ordinario
TORLONE RICCARDO Dip. INFORMATICA E AUTOMAZIONE Prof. Associato
CABIBBO LUCA Dip. INFORMATICA E AUTOMAZIONE Prof. Associato

Titolo specifico del programma svolto dall'unità di ricerca

Estrazione automatica di dati e schemi da sorgenti web data-intensive

 
Descrizione del programma e dei compiti dell'Unità di Ricerca

L'unita' di Roma Tre e' impegnata nel progetto prevalentemente nelle attivita' del Tema 1 (CREAZIONE ED ESTENSIONE DI UNA ONTOLOGIA DI DOMINIO); ma artecipa anche alle attivita' del Tema 2 (SEMANTICA EMERGENTE: SCOPERTA DI MAPPING SEMANTICI TRA ONTOLOGIE).


L'unita' ha approfondite competenze nelle problematiche relative alla estrazione di dati da siti web data-intensive. In particolare, l'unita' ha sviluppato un sistema, chiamato RoadRunner (Crescenzi et al 2001, Crescenzi et al. 2002), per la generazione automatica di web wrapper per sorgenti web data-intensive (vedi Base di partenza scientifica). Dato un insieme di pagine campione simili nella struttura, il sistema genera un wrapper. Il wrapper può essere successivamente essere applicato per estrarre dati da pagine che abbiano la stessa struttura delle pagine campione. Numerosi esperimenti hanno dimostrato l'efficacia e l'efficienza del approccio.
L'esperienza maturata nello sviluppo del sistema RoadRunner (cosi' come lo stesso sistema) costituisce la base di partenza per le attivita' dell'unita', i cui contributi principali saranno nel sottotema 1.2 (Aggiunta di una nuova sorgente informativa alla Ontologia di dominio) in collaborazione con l'unita' di Modena. Come discusso nel Modello A, per estensione di una ontologia di dominio si intende l'aggiunta di una nuova sorgente informativa. Nel caso di una sorgente data-intensive questa operazione comporta: (i) inferenza di uno schema che descriva l'organizzazione dei dati offerti dalla sorgente, (ii) la definizione di programmi, wrapper, che permettano di estrarre i dati dalla sorgente e organizzarli in un formato strutturato, (iii) la attribuzione di una semantica allo schema e ai dati estratti, e (iv) la estensione della Vista Globale Virtuale.

La tecniche sviluppate per la generazione automatica di wrapper risolvono parzialmente e limitatamente i punti precendenti. Con riferimento ai primi due punti, gli approcci in letteratura sono infatti in grado di inferire uno schema, e il programma di estrazione ad esso associato, per un insieme di pagine strutturalmente omogenee. I moderni siti web organizzano le proprie pagine in numerose classi (di pagine simili), in una struttura ipertestuale complessa e articolata. Per generare i wrapper necessari ad estrarre dati da un
intero sito (o da piu' di un sito) e' quindi necessario descrivere l'organizzazione delle pagine del sito. Ad oggi tale descrizione puo' essere fatta solo fatta manualmente, limitando severamente la scalabilita' dell'intero approccio.
Per illustrare il problema ci avvaliamo di un esempio. Consideriamo il sito dei campionati del mondo di calcio. Il sito offre alcune miglaia di pagine, fortemente interconnesse. Queste pagine presentano informazioni sulle squadre, le partite, i giocatori, etc. Il sito e' organizzato in maniera regolare; ad esempio abbiamo una pagina per ogni giocatore, una pagina per ogni squadra, una pagina per ogni incontro, e cosi' via. Anche le pagine, al loro interno sono fortemente strutturate: tutte le pagine dei calciatori hanno un template comune, atraverso il quale vengono presentate le stesse informazioni intensionali (il nome, il ruolo, un breve biografia, etc.). Analogamente, tutte le pagine delle squadre presentano le stesse informazioni intensionli in un template comune. Inoltre, una regolarita' interna alle pagine, e interna al sito e' espressa anche dai collegamenti ipertestuali. Ad esempio, tutte le pagine dei
calciatori hanno un link alla squadra in cui militano, un insieme di link alle pagine degli altri membri della squadra, etc.
Per poter estrarre informazioni da questo sito sarebbe necessario generare un wrapper per ogni classe di pagina (uno per le pagine dei calciatri, uno per le pagine delle squadre, etc). Quindi, per applicare i wrapper al fine di estrarre continuativamente i dati, e' necessario avere una descrizione delle associazioni ipertestuali tra le varie classi di pagine. Infatti, osserviamo che l'estensione di ogni classe di pagina puo' cambiare nel tempo. Ad esempio, durante lo svolgimento dei mondiali, ogni giorno verranno aggiunte pagine relative alla descrizione degli incontri. Solo avendo a disposizione i percorsi necessari a raggiungere l'estensioni delle varie classi di pagine e' possibile raggiunge le istanze.
Per poter quindi estrarre dati da siti data intesive quali quello del nostro esempio, e' necessario generare una descrizione della struttura del sito (o schema del sito). In questa descrizione devono essere evidenziate le classi di pagine offerte dal sito, e icollegamenti tra esse.
L'obiettivo principale dello studio e' quello di definire generare automaticamente la descrizione di un sito. Un requisito importante e' l'efficienza di queste tecniche. Nel nostro contesto possiamo dire che l'efficienza corrisponde a visitare una porzione limitata del
sito. In pratica si vuole generare un descrizione delle calssi di pagine e delle loro interconnessioni, visitando un piccolo, ma significativo, numero di pagine.
E' importante notare che avere a disposizione uno schema del sito permette di affrontare anche il problema della attribuzione di semantica alle informazioni estratte (corrispondente al punto (iii) di cui sopra). La descrizione a cui abbiamo fatto riferimento
precedentemente mira ad individuare classi di pagine. Le istanze di queste classi sono pagine che hanno in comune una struttura. E' ragionevaole attendersi che le pagine di ogni classe offrano le stesse informazioni intensionali; e che i collegamenti tra le classi rappresentino associazioni concettuali. Con riferimento al nostro esempio la classe di pagine dei calciatori e' associata a quella delle squadre. L'obiettivo e' quindi quello di studiare tecniche che, analizzando i contenuti delle pagine di ciascuna classe e i collegamenti alle altre pagine, associno una semantica alle classi e alle associazioni. La strada che che si intende perseguire e' quella di complementare ed estendere le tecniche per la annotazione degli schemi dei wrapper generati automaticamente studiate dalla unita' (Arlotta et al - 2003) con le tecniche di basate su catene lessicali oggetto di recenti studi della unita' di Modena.


Nel seguito descriviamo l'articolazione del programma di ricerca, e i prodotti previsti per ciascuna delle fasi. I prodotti elencati includono sia quelli per i quali l'Unita' ha una diretta responsabilita', sia quelli frutto di lavoro congiunto con le altre unita'.


FASE 1
Durante la prima fase l'unita' lavorera' congiuntamente a tutte le altre Unità, alla definizione dell'architettura metodologica e funzionale di riferimento per l'intero progetto (prodotto D0.R1). Inoltre collaborera' con le unita altre unita' alla analisi critica dei linguaggi e degli standard emergenti per le ontologie (prodotto D1.R1)


PRODOTTI
D0.R1 Rapporto sull'architettura metodologica e funzionale di riferimento (in collaborazione con Modena e Reggio Emilia - MO, Bologna - BO, Trento - TN)
D1.R1: Analisi Critica dei linguaggi e standard emergenti per le ontologie (in collaborazione con BO,MO,TN)

 


FASE 2
Durante la seconda fase l'unita' si concentrera' prevalentemente sulla definizione di tecniche che consentano di inferire automaticamente la descrizione di un sito data-intensive. Le tecniche proposte veranno descritte in un rapporto tecnico (prodotto D1.R5).
Infine si lavorerà, congiuntamente a tutte le altre Unità, alla definizione delle interfacce dei componenti per il prototipo integrato (prodotto D0.R2).


PRODOTTI
D0.R2 Specifiche delle interfacce dei componenti del prototipo integrato (in collaborazione con MO, BO, TN)
D1.R5 Definizione di tecniche per inferire automaticamente lo schema di un sito data-intensive

 


FASE 3
Nella terza fase del progetto verranno sviluppato e sperimentato il prototipo per la inferenza automatica dello schema di un sito data-intensive (prodotto D1.P4). Inoltre, congiuntamente alla unita' di Modena, si studieranno tecniche basate su catene lessicali per associare semantica allo schema di un sito data-intensive. Questo studio congiunto portera' alla produzione di un rapporto tecnico (prodotto D1.R6). Infine si collaborerà con le altre Unità all'integrazione dei prototipi realizzati durante il progetto (prodotto D0.P1).


PRODOTTI
D0.P1 Prototipo integrato di sistema (in collaborazione con MO, BO, TN)
D1.R6 Definizione di tecniche per associare semantica allo schema di un sito data-intensive basate su catene lessicali (in collaborazione con MO)
D1.P4 Prototipo per inferire automaticamente lo schema di un sito data-intensive