WordNet è un database lessicale, per la lingua Inglese, basato su principi psicolinguistici e sviluppato alla Princeton University da George Miller. E’ stato ideato come una risorsa computazionale in grado di migliorare alcuni difetti dei dizionari tradizionali, come la circolarità delle definizioni e l’ambiguità in relazione ai significati. WordNet distingue due tipi di relazioni: relazioni lessicali, quali la sinonimia, l’antinomia e la polisemia, e relazioni concettuali, quali l'iponimia e la meronimia.
Multi WordNet è sviluppato presso l’IRST (Instituto per la Ricerca Scientifica e Tecnologica), come estensione del WordNet Inglese. Il progetto mira alla realizzazione di una matrice lessicale multi-lingue (MLLM) come estensione della matrice bidimensionale attualmente implementata nel WordNet, sarà quindi possibile, attraverso l’aggiunta di una terza dimensione, considerare diversi linguaggi. L’estensione della dimensione dei linguaggi verrà inizialmente considerata per l’Italiano. La figura 1 mostra le tre dimensioni della matrice: (a) parole in un linguaggio, indicate da Wj; (b) significati, indicati da Mi; (c) linguaggi, indicati da Lk. Per realizzare la matrice multilinguale in linea di principio occorre ri-mappare le forme lessicali italiane con i significati corrispondenti (Mi), costruendo l’insieme dei synsets per l’italiano (esplicitando i valori d’intersezione EijI ). Il risultato sarà una completa ridefinizione delle relazioni lessicali, mentre per le relazioni semantiche verranno sfruttate, per quanto possibile, quelle già definite originariamente per l’inglese. Da questo punto di vista la dimensione dei significati viene considerata costante rispetto alle lingue e alle parole di ogni lingua. Se per un certo Mk si ottiene EikL = {0,...,0} significa che per il linguaggio L non esiste nessuna parola che realizza lessicalmente quel significato.

Il principale compito per costruire una MLKB (base di conoscenza lessicale multilingua) basata sul WordNet è di trovare la corretta corrispondenza tra le parole in Italiano e i synset (insieme dei sinonimi) definiti per l’Inglese. Per costruire in modo automatico la matrice LKB (base di conoscenza lessicale) ci sono due principali problemi:
La figura 2 mostra le relazioni tra queste due dimensioni per una bilingue LKB (Italiano-Inglese). La conoscenza lessicale per l’Italiano sarà acquisita da un dizionario in formato elettronico della lingua Italiana. Per la traduzione è usato un dizionario bilingue, Italiano/Inglese e Inglese/Italiano.

Il metodo è basato su un approccio duale che parte dalle definizioni Italiane o Inglesi; in entrambi i casi ci saranno parole che non avranno un significato corrispondente nell’altro linguaggio. In particolare molte parole Italiane non avranno nessun synset da riferire, e cosi saranno aggiunti nuovi nodi mantenendo la classificazione del WordNet.
Data la relativa semplicità delle definizioni Inglesi contenute nel WordNet, si avranno migliori risultati quando partiremo da esse. È importante in ogni modo l'intervento di un lessicografo per validare le scelte proposte.