Słowosieć 1.0 – wordnet języka polskiego zbudowany w oparciu o metody półautomatyczne

alternatywy:

  • opis dekompozycyjny -> jednostek atomowych
  • sieć semantyczna -> nie ma opisu znaczeń, ale są relacje między znaczeniami

struktura WordNetu:

  • synset – zleksykalizowane pojęcie, np. {course, line}
  • relacje semantyczne (między synsetami), np. hiponimia
  • inne relacje

plWordNet

relacje między jednostkami leksykalnymi:

  • hiponimia
  • meronimia
  • holonimia
  • synonimia – definiowana przez synset
  • antonimia
  • konwersja np. biorca <-> dawca
  • troponimia – derywaty, czynność w pewien sposób, np. krzyczeć <-> mówić
  • relacyjność – związki słowotwórcze, np. biały <-> biel
  • odnośność – jak relacyjność ale o mniejszym stopniu regularności
  • fuzzynimia – taka kategoria miscellaneous

jądro Słowosieci:

  • budowane ręcznie
  • najbardziej ogólne znaczeniowo jedn. leks.

budowa automatyczna:

  • najczęstsze lematy z korpusu IPI PAN 1.0
  • 45 dziedzin znaczeniowych (tylko, żeby podzielić pracę na lingwistów) (bo 45 plików w oryginalnym WordNetcie – nie ma wpływu na strukturę)
  • rozszerzenie listy lematów w oparciu o mały słownik pl-en i WN (en)
  • korekta sysetów (2 lata) -> 11792 lematów, 8966 synsetów, najwięcej hipernimii: 4422 relacji, potem antonimia: ~2000

stats

automatyka:

  • podobieństwo znaczenia <- paradygmat dystrybucyjny
  • paradygmat wzorców (podobne użycie)
  • kontekst użycia wyrażenia (nie sprawdziło się)

hipoteza dystrybucyjna
wzorzec dystrybucji -> konteksty użycia -> macierz koincydencji: lemat x cecha kontekstu

dostajemy funkcję: lemat x lemat -> R

typy kontekstów:

  • dokument
  • okno tekstowe
  • relacje leksykalno-składniowe, np. bycie podmiotem dla czasownika

liczba cech z eksperymentu  ~200k (tyle kolumn macierzy koincydencji)

rozpoznawanie wystąpień relacji -> 95% poprawności

MPZ (miara powiązania znaczeniowego): rankowanie częstości -> miara kosinusowa dla lematów

weryfikacja MPZ: testy synonimii – dla lematu weź synonim i 3 losowe -> wskaż synonim

testy: ludzie vs MPZ

hiperonimia z frazy „such as:” -> parser oparty na regex(ręczne wzorce) -> max. sprawność 30%
kombinacja 3 wzorców -> 67% ale mało i znanych już par

alternatywa: iteracyjne wydobywanie wzorców -> ocena wzorców (miara niezawodności)  -> wydobycie instancji -> ocena instancji (miara niezawodności) -> wydobycie wzorców -> i.t.d.
– dokładność 41% (wzorce zadziwiająco proste)

łączenie metod wydobywania -> Wordnet Weaver

dołączanie nowego sensu lematu -> nie da się do synsetu, ale do regionu synsetów (najwięcej pasujących synsetów)

  • różne metody „głosują” za dopasowaniem lematu do regionu
  • w regionie porównujemy z lematami w synsetach
  • lingwista dostaje interfejs (3 proponowane regiony dla nikiel) i klika (akceptuje dopasowanie) lub opisuje błąd
  • przeliczanie grafów pomagało (początkowo w jądrze nie było dziedziny „jedzenie” -> losowe strzały, po dodaniu kilku lematów dużo lepiej)

efektywny budżet (po narzutach PWr) plWordNet 60 000 euro -> dużo wyższe ilości lematów niż w innych, dużo lepiej finansowanych, projektów EuroWordnet…

jak będzie licencja, to plWordNet będzie udostępniony tu -> http://www.clarin.eu/

w WordNet Weaver paczki zawierają pogrupowane lematy do dopasowanie, grupowanie za pomocą Cluto uwzględniając MPZ

Tagi:

Jedna odpowiedź to “Słowosieć 1.0 – wordnet języka polskiego zbudowany w oparciu o metody półautomatyczne”

  1. Świadectwa energetyczne Says:

    I komu to po trzebne?!?!Wymyślili sposób na kolejne zbieranie kasy! Swoją drogą artykuł dobrze napisany! Znalazlam arta w google, szukajac cos o energii. Czekam na nastepne wpisy!

Skomentuj

Please log in using one of these methods to post your comment:

Logo WordPress.com

Komentujesz korzystając z konta WordPress.com. Log Out / Zmień )

Zdjęcie z Twittera

Komentujesz korzystając z konta Twitter. Log Out / Zmień )

Facebook photo

Komentujesz korzystając z konta Facebook. Log Out / Zmień )

Google+ photo

Komentujesz korzystając z konta Google+. Log Out / Zmień )

Connecting to %s


%d bloggers like this: