Archive for the ‘seminarium’ Category

SIIS23: „Wydobywanie reguł na potrzeby ujednoznaczniania morfo-syntaktycznego oraz płytkiej analizy składniowej tekstów polskich”

2008.06.12

zaproszenie

zastosowania:

  • mining
  • tłumaczenie
  • streszczanie

poziomy analizy:

  • morfologii
  • składni
  • analiza morfo-synkaktyczna czyli, fleksyjno-pozycyjna (szyk)
  • jednostce leksykalnej (token) (instancji) przypisujemy znaczniki (klasy): W -> 2T
  • analiza bezkontekstowa
  • Morfeusz – słownik rozpoznający morfologię
  • trafność tagera <- ilość poprawnie rozpoznanych tokenów
  • card(tag set)=~4000 – liczba znaczników (znaczniki są wieloatrybutowe (max. 6) i często się ich nie dzieli, np: 1 znacznik: „rzeczownik, mianownik, r. żeński, l. poj.”)
  • klasa: część mowy; atrybuty: przypadek, rodzaj, liczba
  • pełna vs płytka (shallow) analiza składniowa:
    • zrezygnujemy z dokładności opisu na rzecz pewności
    • ograniczamy zestaw całostek (chunk) – nierekursywny rdzeń frazy o zakresie: <początek, fraza nadrzędna (np. rzeczownik)> -> „całostka rzeczownikowa”
  • w językach słowiańskich dowolny szyk wyrazów <- „metody statystyczne ‚bezużyteczne’ „
  • wbrew powyższemu: Tager TaKIPI (Piasecki et al.): statystyczny, trafność 93,44% (ale…)
  • oznaczenie (tagowanie) całostki ogranicza możliwe znaczniki tokenów
  • wyrzucamy jednoznacznie identyfikowane tokeny, które są mało istotne, a utrudniają analizę (np. przysłówki: „Zjadłem szybko zupę”)

prof. Tabakow: „Jak to zrobić, żeby melodia lingwistyczna zabrzmiała jak melodia informatyczna?” Bo przewód otwierany jest na Informatyce…

p.s. udało mi się wyłudzić slajdy

Reklamy

seminarium „Metody analizy spójności i zgodności kolekcji dokumentów WWW”

2007.06.13

dziś wygłosiłem w ZSI seminarium (slajdy) n/t postępów w Ph.D., po którym koleżanka zanotował mi uwagi od słuchaczy:

  1. pomieszanie użytkowników z tekstami
  2. brak przedstawienia metody -> zaproponować miary
  3. bardzo przypomina to klastering wielokryteryjny
  4. użytkownicy w róży sposób oceniają (collaborative filtering)
  5. są tu relacje między użytkownikami, a temat nie zawiera tego
  6. temat jest sformułowany i tego trzeba się trzymać
  7. bardzo wiele kierunków
  8. podać precyzyjne, formalne definicje
  9. nie badamy spójność par, a spójność kolekcji
  10. przedstawione ogólnie -> taka jest problematyka
  11. weryfikacja -> metody!! – właściwości formalne; użytkownik -> eksperymenty
  12. oryginalność metody!! czym różni się od innych

moje komentarze Ad.:

  1. autorzy dokumentów są jednym z atrybutów dokumentów, aby wykorzystać semantykę tego atrybutu badamy relacje między użytkownikami/autorami… może trochę nadwyrężyłem ten wątek, ale wokół niego były ostatnie badania
  2. no jak bym miał miary, to już bym był blisko końca 🙂
  3. rzeczywiście – to może być podpowiedź co do metod weryfikacji… można wziąć gotowe pogrupowane zbiory i sprawdzić jak pogrupuje je spójność… tylko, że gotowe zbiory nie będą miały informacji semantycznej 😦
  4. a to nie mój problem, z resztą dlatego taka szeroka analiza innych źródeł informacji o relacjach, żeby nie obarczać userów deklaracjami wprost
  5. temat nie zawiera też podobieństwa treściowego, dat publikowania i innych atrybutów, po których spójność może być mierzona
  6. prawda, trochę pojechałem, ale teraz jest co zawężać i uszczegóławiać, bo wszystko jest w jakimś stopniu związane z tematem
  7. j/w
  8. ad. 2
  9. para to też kolekcja… oczywiście miara musi być określona dla n dokumentów, ale w poprzednich publikacjach miara dla n korzystała w wyliczonych miar dla par… czyli mając miarę dla pary możemy np. zbadać każdą parę i uśrednić
  10. ad. 7
  11. rzeczywiście tu jest problem, wygląda na to, że ciężko będzie znaleźć nieempiryczną metodę, a empiryczne zawsze można podważyć, ale nie ma co rozważać na weryfikacją, jak nie ma konkretnej metody; patrz też ad.3
  12. też ad.3. no i nie konkretów nie ma odpowiedzi

podsumowując muszę:

  1. zawęzić światopogląd
  2. napisać wzory
  3. udowodnić ich własności
  4. porównać z metodami rankingu i klasteringu
  5. może zaadaptować z tych metod sposoby weryfikacji
  6. zapoznać się z analizami grafowymi
  7. wymyślić nieempryczną weryfikację

Szymański: „Wyszukiwanie i rekomendacja informacji w Internecie w oparciu o ontologie”

2007.05.23

klasyfikacja IR:

  • szybko i prosto
  • złożenie i dokładnie

klasyfikacja personalizacji:

  • otwarcie, jawnie (prośba o feedback)
  • w tle

jeśli ontologia jest taksonomią (drzewem), to głębokość (poziom) dokument świadczy o szczegółowości, a rozległość (dopasowanie do sąsiednich węzłów) świadczy o zakresie tematycznym – chyba 🙂

i jeszcze dowiedziałem się o innym WordNecie

Rozpraszanie usług w złożonych systemach komputerowych

2007.03.01

Na dzisiejszym seminarium „przybliżyłem się” do problemu plecakowego.
Wiedziałem, że „agent” może być wieloznacznym pojęciem, ale aż tak? W polskim mniej niejednoznaczny.

o wykorzystaniu Enron’a…

2006.12.14

Dziś przeprowadziłem seminarium w ZSI (info w zakładowym blogu) o możliwości wykorzystania mail’owej bazy Enron do wyznaczenia siły relacji między autorami. Wspomniałem też o FOAF, XFN i Linkback (tu są slajdy). Zbierając materiały znalazłem też kilka mysqldump’ów: by Jafar Adibi, by Ron Bekkerman, @UC Berkeley… może niepotrzebnie się z tym męczyłem… sprawdzę je jeszcze… Znalazłem też 2 komercje zrobione na tym dataset’cie: Enron Explorer jako reklamówka produktu SONAR platform (Social Networks And Relevance) firmy Trampoline Systems i InBoxer Anti-Risk Appliance – AJAX’owa aplikacja do wykrywania potencjalnych zagrożeń wynikających z korespondencji firmowej.

„Zastosowanie sieci neuronowych do powiększania obrazów cyfrowych”

2006.11.30

Na dzisiejszym seminarium filozoficzna dyskusja o tym, że powiększanie obrazów jest tylko po to, aby łudzić ludzi większą ilością szczegółów, pomyślałem, że może rzeczywiście warto opracować takie metody, które będą powiększały obrazki do wyświetlenia w większej rozdzielczości i zrobią to lepiej niż przeglądarki pokazujące mniejsze obrazki w FullScreen.