Archive for the ‘bibliography’ Category

After the Software Wars (eBook on FLOSS)

2011.04.21

” People can only share ideas when they also share the software to display and modify them.”

„The key to faster technological progress is the more widespread use of free software. Free versus proprietary (or non-free) software is similar to the divide between science and alchemy. Before science, there was alchemy, where people guarded their ideas because they wanted to corner the market on the means to convert lead into gold. Computers are an advancement comparable to the invention of movable type. While computers and the Internet have already changed many aspects of our lives, we still live in the dark ages of computing because proprietary software is still the dominant model ”

from http://keithcu.com/wordpress/?page_id=407

Mały Brat

2008.07.18

Kultura 2.0 » Archiwum bloga » Mały Brat
“Little Brother” to historia grupy amerykańskich nastolatków, którzy wpadają w poważne kłopoty z jednej tylko przyczyny – nieźle znają się na komputerach

nigdy nie czytałem takich książek, ale poniważ ten temat ten pojawił się też wcześniej tu >

apophenia: Little Brother + the Uglies series = le awesome young adult scifi
Little Brother is the story of a group of friends who are in the middle of an alternate reality game when a terrorist attack shakes San Francisco.

pomyślałem, że może spróbuję, zwłaszcza, że początek można było sobie odsłuchać

no i masz! nie minęła minuta i słyszę: „I grabbed my bag and folded my laptop three-quarters shut — I didn’t want to blow my downloads — and got ready for the inevitable.

no co za lameriada!… tak mnie to zraziło, że nie mogłem iść dalej 🙂
domyślam, się, że większość notebooków ma domyślnie ustawione „wstrzymywanie systemu” przy zamknięciu pokrywy (LCD) i ten fakt chciał Doctorow zaznaczyć (bo pewnie też go to irytowało i pomyślał, że większość ludzi ustawiających download na czas kiedy się musi na chwilę oderwać od kompa też tak ma, więc trafi tą bolączką w odbiorców), ale…

może nie jestem młodym hackerem (nie młodym? :), ale geekiem na pewno… a jak rozumiem to właśnie do tego dopełnienia zbioru odbiorców Harrego Pottera zwraca się Doctorow… więc jak każdy szanujący się geek customizuję swoje środowisko pracy i jedną z pierwszy rzeczy jakie robię przy każdym nowym systemie na każdym notebooku (nawet, gdy customizuję pod kogoś innego) to właśnie przełączenie domyślnego ustawienia opcji zasilania dla lid close action (czy jak tam) na … na none (czy do nothing)

z zacytowanego tekstu wnioskuję, że Doctorow nigdy nie widział (nawet nie pomyślał o) takiej opcji, więc nie może on być nawet partnerem w rozmowie geeków… a co dopiero ich guru 😛

no chyba, że rzeczywiście (jak przypadkach 2 cytowanych powyżej blogów) mówimy o „geekach – nie informatykach„… choć ten argument do mnie nie przemawia 😉

mój nazwisknik z kietą

2007.11.03

miałem dziś chwilkę, żeby przyjrzeć się troszkę lepiej łańcuchom Markova:

  • własność Markova (czyli taka jaką miały na PKK źródła Markova II rzędu): posiada ją proces w systemie stochastycznym (przeciwieństwo deterministycznego) jeśli kolejny stan zależy od aktualnego i nie zależy bezpośrednio od żadnego wcześniejszego
  • własności łańcuchów:
    • redukcyjność – nieredukcyjny, gdy przestrzeń stanów jest klasą komunikującą, tj. komunikują się parami wszystkie stany (można przejść tam i z powrotem)
    • okresowość – dot. liczby kroków, po jakich wracamy do tego samego stanu
    • rekurencja – j/w, z tym, że liczba kroków nie musi być stała, a jedynie skończona, bo stan:
      • przejściowy – gdy w nieskończonych krokach prawdopodobieństwo powrotu <1
      • rekurencyjny, stały – gdy j/w, ale prawdopodobieństwo skończonego hitting time = 1
        • pozytywnie rekurencyjny – gdy wartość oczekiwana hitting time jest skończona
        • null-recurrent- w p/p
      • absorbujący – p(wyjście)=0
    • ergodyczność – gdy wszystkie stany są ergodyczne, t.j. aokresowe i pozytywnie rekurencyjne
  • odwracalny łańcuch Markova istnieje, gdy wyznaczymy macierz odwróconą (jak na PKK)
  • konkretnym przypadkiem łańcucha Markova może być schemat Bernoulli’ego z jednakowymi wierszami w macierzy prawdopodobieństw przejść – czyli następny stan jest niezależny nie tylko od poprzednich, ale i od aktualnego…
  • zastosowanie I-netowe: PageRank(prawdopodobieństwo przejścia to odwrotność stron linkujących + odwrotność wielkości indeksu) i personalizacja WWW
  • zastosowanie w automatycznym komponowaniu muzyki: łańcuchy Markova I rzędu – raczej przypominać będę wprawkę czy niewprawną improwizację, ale wyższych rzędów zdają się grupować nuty i rozbijać je na sekwencje
  • zastosowanie dla spamu i parodii jest też oczywiste, jak pewnie miało to miejsce z pamiętnym paper generator
  • można sobie poczytać wiersze pana Mark’a V Shaney’a
  • a to wszystko zaczęło się ponad 100 lat temu

acha, a Hiddetn Markov model to model statystyczny, który zakłada, że modelowany system jest procesem Markova, z tym, że nie tylko prawdopodobieństwa przejść są nieznane, ale również stany nie są znane… aczkolwiek znane są zmienne pochodne od stanów… stąd główne wykorzystanie HMM w pattern recognition, a sam HMM można traktować jako „the simplest dynamic Bayesian network

reputacja MAS ;)

2007.04.19

Extracting reputation in multi agent systems by means of social network topology
JM Pujol, R Sangüesa, J Delgado – Proceedings of the first international joint conference on …, 2002 – portal.acm.org

  • wyznaczenie reputacji user‚ów, bez potrzeby feedback‚u (MAS)
  • sieć społeczna jako graf skierowany (nieskierowanie poprzez sumę krawędzi obie strony) wyciągnięta z MAS’owego systemu Collaboratory (projekt rozszerzony do badań na ludzi z Politechniki Katalońskiej i losowo wybrane 34)
  • wagi krawędzi to wspólne linki, e-mail’e i resoures na stronach domowych
  • NodeRanking: na początku wszyscy mają jednakowe degree of authority i algorytm wnioskuje reputację na podstawie autorytetu węzła i węzłów na niego wskazujących
  • algorytm jest asynchroniczny (działa lokalnie – nie musi znać całego grafu), ale kolejne jego iteracje są zbieżne (jeśli converge() nie przekracza progu, to węzeł jest stationary, gdy wszystkie są stationary algorytm się kończy – ale nie sprawdza wszystkich, bo węzły same się testują)
  • wzorem jest CiteSeer rank, a testowane są jeszcze PageRank i HITS (przez correlation)
  • ponieważ graf jest small world (daleki od pełnego), żeby uniknąć rank sink problem (ślepe ścieżki), stosuje się jumping probability 0.5414 (czyli pomijanie węzłów)
  • NodeRanking wypadł najlepiej, ale gdyby PageRank też miał Pr_jump > 1/2 (zwykla ma 0,15) to wyniki były by podobne – więc jedyna zaleta, że NR działa lokalnie, a PR globalnie

foaf z 3 stron

2007.04.05

Analyzing Social Networks on the Semantic Web
L Ding, T Finin, A Joshi – IEEE Intelligent Systems (Trends & Controversies), 2004 – ebiquity.umbc.edu

  • problemy do rozwiązania, aby korzystać z SN on the SW:
    • Knowledge representation – zdecentralizowane ontologie
    • Knowledge management – geste połączenia na poziomie grafu RDF, rzadkie na poziomie dokumentów RDF
    • Social network extraction, integration and analysis – zaszumiona i niepełna wiedzia, problemy z łączeniem (fuse) i wiarygodnością info
    • Provenance and trust aware distributed inference – jak zmniejszyć złożoność rozproszonego wnioskowania?
  • dataset’y:
    • DS-SWOOGLE: 225k valid SWD’ów z 37M rdf’owych trójek (odfiltrowane tylko 10k z jednego site’a)
    • DS-FOAF – ale ponieważ 95% URLi (z 1800 witryn) to „wielkie blogsite’y”, więc rozważany DS-FOAF-VAR tylko z URLami z site’ów o <1k FOAFD (czyli z 1065 witryn): 37k instancji foaf:Person i 4k ‚strict’ FOAFD (1-osobowy)
  • foaf:Person pojawia się w 17 ontologiach (wg SWOOGLE)
  • na foaf:Person można spojrzeć jako na:
    1. definicję ontologiczną w stosunku do jej nad-, pod-klas
    2. jej properties (np. foaf:mbox, foaf:name), które używają jej jako domeny (rdfs:domain)
    3. empiryczną właśność, którą posiadają instancje
  • podsumowując autorzy chcieliby połączyć (nałożyć na siebie):
    • sieć FOAF
    • systemy reputacji (np. PageRank)
    • sieć zaufania
    • indeksy współautorstwa (DBLP)

agregator FOAF’ów

2007.03.26

How the Semantic Web is Being Used:An Analysis of FOAF Documents

Authors: Li Ding, Lina Zhou, Tim Finin, and Anupam Joshi
Book Title:
Proceedings of the 38th International Conference on System Sciences
Date:
January 03, 2005

  • agregacja FOAF’owych RDF’ów z: blog (1,5 mln) i non-blog sites (5k)
  • analiza tylko non-blog, bo blog’owe są tworzone przez automat, a non-blog ręcznie i świadomie >> różne słownictwo i struktury pokazują co powinno być w standardzie
  • w 2004.06 FOAF 2-gą co do rozwinięcia (populated – użytą w dokumentach) ontologią; I był RDF, a RSS – VI
  • podział na:
    • strict FOAF document (z tylko jedną foaf:Person nie w trójce, czyli nie jako obiekt, np. w foaf:knows)
    • general FOAF document (opisujący wiele osób)
  • łączenie osób (fuse) z różnych RDF’ów na podstawie foaf:mbox >> otrzymujemy owl:sameIndividualAs
  • wzory połączonych komponentów (CC, czyli podgrafów): star, clique, singleton
  • tylko 7% węzłów ma in-links i out-links, a z only-in-links 97,7% są węzłami I rzędu (out-degree = 0)

network czy Web?

2007.03.01
Trust networks on the semantic web in Proceedings of cooperative intelligent agents 2003, Golbeck, Jennifer and Bijan Parsia and James Hendler, Helsinki, Finland, August 2003.
Available at http://www.mindswap.org/papers/CIA03.pdf
  • sieć zaufania poprzez rozszerzenie foaf:Person o 9-stopniową skalę trust i kontekstu zaufania „trust regarding”
  • zaufanie pośrednie przez iloczyn zaufań w ścieżce
  • Web service przeliczający zaufanie między 2 mail-adress’ami, a w parametrze funkcja opisująca jak przeliczać zaufanie (własny algorytm przeliczania używający Java’owego API do trust grafu)
  • implementacja w IRC bot’cie („the bot can be queried to provide the weighted average, as well as maximum and minimum path lengths, and maximum and minimum capacity paths”) i Mozzila Messenger’ze (dodatkowa kolumna z trustem przy tematach)

stan zaawansowania prac

2007.02.21

z okazji zmiany promotora musiałem napisać dziekanowi takie coś:

Przewód doktorski p.t. „Metody analizy spójności i zgodności kolekcji dokumentów WWW” został otwarty 2003.06.03 na Wydziale Informatyki i Zarządzania Politechniki Wrocławskiej przez mgr inż. Marka Kopla. Jego promotorem był dr hab. inż. Czesław Daniłowicz, prof. PWr.

Jeszcze w tym samym roku został wygłoszony referat autorstwa Daniłowicz, Kopel, p.t. „Analysis method of coherency and topical relevancy for web document collections” na konferencji ISAT 2003. W referacie została poruszona kwestia spójności kolekcji dokumentów WWW. Zdefiniowano algorytm obliczania spójności, na podstawie hiperlinków, łączących dokumenty w kolekcje. Miarę spójności można potraktować jako narzędzie pozwalające zbadać zgodność tematyczną dokumentów. Przykładowe zastosowanie to badanie relewancji odpowiedzi wyszukiwarki dokumentów WWW poprzez wyznaczenie spójności kolekcji dokumentów z odpowiedzi i dokumentów użytych w zapytaniu do wyszukiwarki.

Myśl ta została kontynuowana i rozwinięta w 2004 w książce p.t. „Intelligent technologies for inconsistent knowledge processing” w rozdziale autorstwa Kopel, Daniłowicz, p.t.”Method of completing the consistency graph of a hyperlinked document collection”. Poza usprawnieniem metody wyznaczania spójności zaproponowano 2 metody poprawienia dokładności obliczanej spójności na podstawie uzupełniania grafu spójności. Uzupełniania grafu spójności kolekcji dokumentów, to dodawanie kolejnych krawędzi, symbolizujących pośrednie hiperlinki między dokumentami, na podstawie ścieżek hiperlinków bezpośrednich.

W tym samym roku na konferencji MiSSI’04 został wygłoszony referat Marka Kopla p.t.” Identyfikacja spamu na podstawie analizy spójności wiadomości”. Główną ideą przedstawioną w referacie była adaptacja metody badania spójności kolekcji dokumentów WWW dla środowiska wiadomości e-mail. Użycie metody w kontekście e-mail’i pozwala wykryć spam. Identyfikacja spamu odbywa się poprzez wyznaczanie spójności kolekcji składających się z podejrzanych wiadomości i wiadomości jawnie oznaczonych jako spam przez użytkownika.

Zasugerowana we wnioskach, wspomnianego wcześniej rozdziału w książce, nowa płaszczyzna badania spójności kolekcji dokumentów WWW była podstawą dla referatu wygłoszonego na konferencji ISAT’04, autorstwa Kopel, Daniłowicz, p.t.„Measuring the importance of concepts and relations between the concepts in a hypertext collection”. Nowa płaszczyzna to informacje semantyczne w sieci WWW, których zastosowanie to obietnica ewolucji WWW w Semantic Web. Zwykle wydobycie informacji semantycznej wymaga zdefiniowanej ontologii, której utrzymanie i używanie może być kłopotliwe. Referat zaprezentował możliwości wygenerowania ontologii istniejącego stanu sieci WWW i na jej podstawie możliwość wyznaczenia relacji typu „ogólny/szczegółowy” i „pokrewny” między dokumentami hipertekstowymi.

Tytułowe metody opracowywane w przewodzie doktorskim to hybrydowe wyznaczanie spójności dokumentów kolekcji WWW wynikającej z ich semantyki (kontekstu ich publikacji, relacji między ich autorami, itp.) oraz zgodności wynikającej z treści dokumentów (ważenie terminów, hiperłącza, itp.). O ile metody badania zgodności są już opracowane, to nadal trwają prace nad wykorzystaniem semantyki dokumentów do analizowania ich spójności. Aktualne badania dotyczą semantyki wynikającej z relacji pomiędzy autorami. Bieżące wyniki tych badań zostały wykorzystane w referacie zaakceptowanym na konferencję AMSTA’07 autorstwa Kopel, Kazienko, p.t. „Application of agent-based personal web of trust to local document ranking”. Badania te to ostatni etap uszczegóławiania ogólnej metody opracowywanej w ramach pracy doktorskiej.