SIIS23: „Wydobywanie reguł na potrzeby ujednoznaczniania morfo-syntaktycznego oraz płytkiej analizy składniowej tekstów polskich”

zaproszenie

zastosowania:

  • mining
  • tłumaczenie
  • streszczanie

poziomy analizy:

  • morfologii
  • składni
  • analiza morfo-synkaktyczna czyli, fleksyjno-pozycyjna (szyk)
  • jednostce leksykalnej (token) (instancji) przypisujemy znaczniki (klasy): W -> 2T
  • analiza bezkontekstowa
  • Morfeusz – słownik rozpoznający morfologię
  • trafność tagera <- ilość poprawnie rozpoznanych tokenów
  • card(tag set)=~4000 – liczba znaczników (znaczniki są wieloatrybutowe (max. 6) i często się ich nie dzieli, np: 1 znacznik: „rzeczownik, mianownik, r. żeński, l. poj.”)
  • klasa: część mowy; atrybuty: przypadek, rodzaj, liczba
  • pełna vs płytka (shallow) analiza składniowa:
    • zrezygnujemy z dokładności opisu na rzecz pewności
    • ograniczamy zestaw całostek (chunk) – nierekursywny rdzeń frazy o zakresie: <początek, fraza nadrzędna (np. rzeczownik)> -> „całostka rzeczownikowa”
  • w językach słowiańskich dowolny szyk wyrazów <- „metody statystyczne ‚bezużyteczne’ „
  • wbrew powyższemu: Tager TaKIPI (Piasecki et al.): statystyczny, trafność 93,44% (ale…)
  • oznaczenie (tagowanie) całostki ogranicza możliwe znaczniki tokenów
  • wyrzucamy jednoznacznie identyfikowane tokeny, które są mało istotne, a utrudniają analizę (np. przysłówki: „Zjadłem szybko zupę”)

prof. Tabakow: „Jak to zrobić, żeby melodia lingwistyczna zabrzmiała jak melodia informatyczna?” Bo przewód otwierany jest na Informatyce…

p.s. udało mi się wyłudzić slajdy

Tagi: ,

Skomentuj

Please log in using one of these methods to post your comment:

Logo WordPress.com

Komentujesz korzystając z konta WordPress.com. Log Out / Zmień )

Zdjęcie z Twittera

Komentujesz korzystając z konta Twitter. Log Out / Zmień )

Facebook photo

Komentujesz korzystając z konta Facebook. Log Out / Zmień )

Google+ photo

Komentujesz korzystając z konta Google+. Log Out / Zmień )

Connecting to %s


%d bloggers like this: