Archive for the ‘WordNet’ Category

Słowosieć 1.0 – wordnet języka polskiego zbudowany w oparciu o metody półautomatyczne

2009.05.05

alternatywy:

  • opis dekompozycyjny -> jednostek atomowych
  • sieć semantyczna -> nie ma opisu znaczeń, ale są relacje między znaczeniami

struktura WordNetu:

  • synset – zleksykalizowane pojęcie, np. {course, line}
  • relacje semantyczne (między synsetami), np. hiponimia
  • inne relacje

plWordNet

relacje między jednostkami leksykalnymi:

  • hiponimia
  • meronimia
  • holonimia
  • synonimia – definiowana przez synset
  • antonimia
  • konwersja np. biorca <-> dawca
  • troponimia – derywaty, czynność w pewien sposób, np. krzyczeć <-> mówić
  • relacyjność – związki słowotwórcze, np. biały <-> biel
  • odnośność – jak relacyjność ale o mniejszym stopniu regularności
  • fuzzynimia – taka kategoria miscellaneous

jądro Słowosieci:

  • budowane ręcznie
  • najbardziej ogólne znaczeniowo jedn. leks.

budowa automatyczna:

  • najczęstsze lematy z korpusu IPI PAN 1.0
  • 45 dziedzin znaczeniowych (tylko, żeby podzielić pracę na lingwistów) (bo 45 plików w oryginalnym WordNetcie – nie ma wpływu na strukturę)
  • rozszerzenie listy lematów w oparciu o mały słownik pl-en i WN (en)
  • korekta sysetów (2 lata) -> 11792 lematów, 8966 synsetów, najwięcej hipernimii: 4422 relacji, potem antonimia: ~2000

stats

automatyka:

  • podobieństwo znaczenia <- paradygmat dystrybucyjny
  • paradygmat wzorców (podobne użycie)
  • kontekst użycia wyrażenia (nie sprawdziło się)

hipoteza dystrybucyjna
wzorzec dystrybucji -> konteksty użycia -> macierz koincydencji: lemat x cecha kontekstu

dostajemy funkcję: lemat x lemat -> R

typy kontekstów:

  • dokument
  • okno tekstowe
  • relacje leksykalno-składniowe, np. bycie podmiotem dla czasownika

liczba cech z eksperymentu  ~200k (tyle kolumn macierzy koincydencji)

rozpoznawanie wystąpień relacji -> 95% poprawności

MPZ (miara powiązania znaczeniowego): rankowanie częstości -> miara kosinusowa dla lematów

weryfikacja MPZ: testy synonimii – dla lematu weź synonim i 3 losowe -> wskaż synonim

testy: ludzie vs MPZ

hiperonimia z frazy „such as:” -> parser oparty na regex(ręczne wzorce) -> max. sprawność 30%
kombinacja 3 wzorców -> 67% ale mało i znanych już par

alternatywa: iteracyjne wydobywanie wzorców -> ocena wzorców (miara niezawodności)  -> wydobycie instancji -> ocena instancji (miara niezawodności) -> wydobycie wzorców -> i.t.d.
– dokładność 41% (wzorce zadziwiająco proste)

łączenie metod wydobywania -> Wordnet Weaver

dołączanie nowego sensu lematu -> nie da się do synsetu, ale do regionu synsetów (najwięcej pasujących synsetów)

  • różne metody „głosują” za dopasowaniem lematu do regionu
  • w regionie porównujemy z lematami w synsetach
  • lingwista dostaje interfejs (3 proponowane regiony dla nikiel) i klika (akceptuje dopasowanie) lub opisuje błąd
  • przeliczanie grafów pomagało (początkowo w jądrze nie było dziedziny „jedzenie” -> losowe strzały, po dodaniu kilku lematów dużo lepiej)

efektywny budżet (po narzutach PWr) plWordNet 60 000 euro -> dużo wyższe ilości lematów niż w innych, dużo lepiej finansowanych, projektów EuroWordnet…

jak będzie licencja, to plWordNet będzie udostępniony tu -> http://www.clarin.eu/

w WordNet Weaver paczki zawierają pogrupowane lematy do dopasowanie, grupowanie za pomocą Cluto uwzględniając MPZ

Reklamy

Wordnet graph online browsers

2009.01.09

accidentally (via a screenshot @code.google.com) I’ve just found these 3 Wordnet graph online browsers:

great apps, but „I still haven’t found… „, which is: select 2 nodes and visualize path between them

WordNet::Similarity @Ubuntu

2009.01.05

the time came to use what I found

trying to make it as simple as Ubuntu gets:

  1. sudo apt-get install wordnet libwordnet-querydata-perl libdigest-sha1-perl
  2. get and make Text-Similarity
  3. get WordNet::Similarity
  4. making it use Ubuntu’s default dir for WN: perl Makefile.PL WNHOME=/usr/share/wordnet
  5. it looks for dict subdir so:  cd /usr/share/wordnet; sudo ln -s . dict or 208 line of next file
  6. before make test also change in /usr/share/perl5/WordNet/QueryData.pm line 206 the default dir
  7. test similarity measures, e.g.: samples/sample.pl computer#n#1 notebook#n#1

żywa ontologia

2008.01.21

właśnie przypadkiem znalazłem sposób wyznaczenia relacji concept-concept w implementacji mojego modelu DAC:

Ted Pedersen – WordNet::Similarity

Szymański: „Wyszukiwanie i rekomendacja informacji w Internecie w oparciu o ontologie”

2007.05.23

klasyfikacja IR:

  • szybko i prosto
  • złożenie i dokładnie

klasyfikacja personalizacji:

  • otwarcie, jawnie (prośba o feedback)
  • w tle

jeśli ontologia jest taksonomią (drzewem), to głębokość (poziom) dokument świadczy o szczegółowości, a rozległość (dopasowanie do sąsiednich węzłów) świadczy o zakresie tematycznym – chyba 🙂

i jeszcze dowiedziałem się o innym WordNecie

WordNet

2007.04.05

w końcu miałem chwilkę, żeby zetknąć się z WordNet’em, gdy kolega pochwalił się działającą polską wersją

klikając przez to, może w końcu, zapamiętam czym się różni meronimia od troponimii 🙂