alternatywy:
- opis dekompozycyjny -> jednostek atomowych
- sieć semantyczna -> nie ma opisu znaczeń, ale są relacje między znaczeniami
struktura WordNetu:
- synset – zleksykalizowane pojęcie, np. {course, line}
- relacje semantyczne (między synsetami), np. hiponimia
- inne relacje
relacje między jednostkami leksykalnymi:
- hiponimia
- meronimia
- holonimia
- synonimia – definiowana przez synset
- antonimia
- konwersja np. biorca <-> dawca
- troponimia – derywaty, czynność w pewien sposób, np. krzyczeć <-> mówić
- relacyjność – związki słowotwórcze, np. biały <-> biel
- odnośność – jak relacyjność ale o mniejszym stopniu regularności
- fuzzynimia – taka kategoria miscellaneous
jądro Słowosieci:
- budowane ręcznie
- najbardziej ogólne znaczeniowo jedn. leks.
budowa automatyczna:
- najczęstsze lematy z korpusu IPI PAN 1.0
- 45 dziedzin znaczeniowych (tylko, żeby podzielić pracę na lingwistów) (bo 45 plików w oryginalnym WordNetcie – nie ma wpływu na strukturę)
- rozszerzenie listy lematów w oparciu o mały słownik pl-en i WN (en)
- korekta sysetów (2 lata) -> 11792 lematów, 8966 synsetów, najwięcej hipernimii: 4422 relacji, potem antonimia: ~2000
automatyka:
- podobieństwo znaczenia <- paradygmat dystrybucyjny
- paradygmat wzorców (podobne użycie)
- kontekst użycia wyrażenia (nie sprawdziło się)
hipoteza dystrybucyjna
wzorzec dystrybucji -> konteksty użycia -> macierz koincydencji: lemat x cecha kontekstu
dostajemy funkcję: lemat x lemat -> R
typy kontekstów:
- dokument
- okno tekstowe
- relacje leksykalno-składniowe, np. bycie podmiotem dla czasownika
liczba cech z eksperymentu ~200k (tyle kolumn macierzy koincydencji)
rozpoznawanie wystąpień relacji -> 95% poprawności
MPZ (miara powiązania znaczeniowego): rankowanie częstości -> miara kosinusowa dla lematów
weryfikacja MPZ: testy synonimii – dla lematu weź synonim i 3 losowe -> wskaż synonim
testy: ludzie vs MPZ
hiperonimia z frazy “such as:” -> parser oparty na regex(ręczne wzorce) -> max. sprawność 30%
kombinacja 3 wzorców -> 67% ale mało i znanych już par
alternatywa: iteracyjne wydobywanie wzorców -> ocena wzorców (miara niezawodności) -> wydobycie instancji -> ocena instancji (miara niezawodności) -> wydobycie wzorców -> i.t.d.
- dokładność 41% (wzorce zadziwiająco proste)
łączenie metod wydobywania -> Wordnet Weaver
dołączanie nowego sensu lematu -> nie da się do synsetu, ale do regionu synsetów (najwięcej pasujących synsetów)
- różne metody “głosują” za dopasowaniem lematu do regionu
- w regionie porównujemy z lematami w synsetach
- lingwista dostaje interfejs (3 proponowane regiony dla nikiel) i klika (akceptuje dopasowanie) lub opisuje błąd
- przeliczanie grafów pomagało (początkowo w jądrze nie było dziedziny “jedzenie” -> losowe strzały, po dodaniu kilku lematów dużo lepiej)
efektywny budżet (po narzutach PWr) plWordNet 60 000 euro -> dużo wyższe ilości lematów niż w innych, dużo lepiej finansowanych, projektów EuroWordnet…
jak będzie licencja, to plWordNet będzie udostępniony tu -> http://www.clarin.eu/
w WordNet Weaver paczki zawierają pogrupowane lematy do dopasowanie, grupowanie za pomocą Cluto uwzględniając MPZ