Opis wycinka świata rzeczywistego, który zostanie zamodelowany na potrzeby rozwiązania problemu pracy

WWW to globalna sieć dokumentów dostępnych w Internecie. Przykładem dokumentu WWW może być tradycyjna strona WWW, czyli hipertekstowy zasób, najczęściej w formacie (X)HTML, dostępny za pomocą przeglądarki internetowej. Samo pojęcie dokumentu WWW jest o wiele szersze. W odróżnieniu od strony WWW – dokument WWW może być dostępny za pośrednictwem dowolnego protokołu internetowego, a nie tylko HTTP(S). Może też być w dowolnym formacie i udostępniony do przeglądnięcia za pomocą dowolnej aplikacji obsługującej dany protokół i format.

Dokumenty WWW najczęściej można spotkać w kolekcjach, tzn. grupach, które wiążą dokumenty pewną wspólną cechą. Kolekcje są zwykle związane z witrynami grupującymi dokumenty, np.: witryna konferencji może zawierać kolekcję artykułów konferencyjnych – wspólna tematyka dokumentów; witryna biblioteki cyfrowej udostępnia dokumenty opublikowane za jej pośrednictwem – wspólny wydawca; witryna bloga grupuje refleksje spisane przez jego właściciela – wspólny autor.

Ze względu na ogromną ilość dokumentów w WWW tworzone są katalogi, które jednak w większości katalogują witryny, a nie poszczególne dokumenty. Można więc powiedzieć, że katalogi WWW zajmują się meta-grupowaniem lub grupowaniem na innym poziomie kolekcji dokumentów WWW. Oczywiście, idąc w drugą stronę poziomu grupowania, kolekcje mogą również zawierać podkolekcje, np.: artykuły konferencyjne mogą być pogrupowane wg sesji tematycznych; publikacje biblioteki mogą być przyporządkowane do dziedzin i znakowane słowami kluczowymi; artykuły bloga mogą być znakowane tagami opisującymi tematykę czy grupowane w kalendarzu wg czasu powstania.

Jak w każdym środowisku, w którym liczba obiektów jest nie do ogarnięcia przez jedną osobę, istnieje potrzeba wyszukiwania. Współczesne wyszukiwarki internetowe, z Google na czele, stosują, tradycyjne dla dokumentów tekstowych, metody indeksowania i ważenia terminów i na tej podstawie budowanie rankingu dokumentów spełniających kryteria pytania wyszukującego. Dodatkowo, ze względu na fakt, że WWW jest środowiskiem hipertekstowym, na ranking mają również wpływ odsyłacze hipertekstowe, czyli tzw. linki łączące dokumenty w sieć. O ile jednak na pozycję dokumentu (strony) w rankingu ma wpływ liczba hiperłącz do niego odsyłających, o tyle nie brany jest w ogóle pod uwagę rodzaj tych linków. Ta sytuacja jednak powoli zaczyna się zmieniać wraz z opracowywaniem przez Google coraz lepszego i odporniejszego na manipulacje algorytmu PageRank, który jest najbardziej popularnym i uznanym rankingiem w WWW. Póki co jednak, pomimo popularności wyszukiwarki Google, dokładność i kompletność PageRank’a nie jest w pełni zadowalająca.

Wymiana danych jest innym ważnym aspektem dotyczącym WWW. Najpopularniejszy obecnie standard wymiany danych to RSS. Format RSS umożliwia tworzenia tzw. Web feed’ów, które są ustandaryzowanymi kanałami syndykowania informacji. Dzięki kanałom RSS mamy w spójny sposób dostępu do dokumentów ze wszystkich źródeł informacji, które ten format obsługują. Przez to, że w kanale RSS przesyłane są dane i metadane dotyczące dokumentu, samo pojęcie dokumentu, rozumianego jako plik w formacie HTML, przestaje po woli funkcjonować. Ponieważ wiedza dokumentu opisana jest atrybutami np.: autor, data, treść, abstrakt – dokument HTML może być, co najwyżej, jednym z możliwych sposobów prezentacji tej wiedzy.

RSS zawdzięcza swoją popularność prostocie i łatwości używania. Fakt ten jednak pociąga za sobą ograniczenie w przekazywaniu w Web feed’ach bardziej złożonych metadanych. Dlatego biblioteki cyfrowe do wymiany metadanych używają protokołu OAI-PMH. Dzięki temu protokołowi możliwe jest wyszukiwanie wg metadanych w rozproszonych bibliotekach i repozytoriach współpracujących z tym protokołem. Dodatkowo same metadane udostępniane są najczęściej w opartym na XML’u formacie RDF. Sam RDF był z resztą podstawą wczesnej wersji RSS. Udostępnienie metadanych w XML’owym pliku powoduje, że w bardzo wielu przypadkach wyszukiwania zbędne jest sięganie do oryginalnego dokumentu, który z resztą nie musi być dokumentem tekstowym, a co za tym idzie może nie być łatwy do przetworzenia.

Ze względu na potencjalne możliwości wykorzystania wiedzy zawartej w WWW do maszynowego przetwarzania i wnioskowania twórca WWW – Tim Berners-Lee stworzył wizję Semantic Web. Semanic Web, która ma być kolejnym krokiem rozwoju WWW ma zawierać informacje w postaci przyswajalnej przez maszyny. W związku z tym dokumenty tworzone dla ludzi powinny zawierać również informację semantyczną pozwalającą zawartą w nich wiedzę automatycznie przetwarzać przez agenty. Obecnie WWW jest na etapie przekształcania się w Semantic Web, to znaczy: tylko część serwisów zaopatruje udostępniane dokumenty w dodatkową semantykę. Problemem dotychczas nierozwiązanym i hamującym rozwój Semantic Web jest fakt, że to autor musi opatrzyć swój dokument, ale nie widząc perspektywy wykorzystania tej informacji użytkownicy WWW najczęściej tego nie robią. Oczywiście istnieją narzędzia wspomagające dodawanie semantyki do publikowanych danych. Np. część serwisów blogowych udostępnia formularze do wprowadzania informacji o relacjach między autorami blogów w formacie XFN lub tworzy RDF’owe pliki FOAF. Na razie jednak serwisy obsługujące tego typy metadane, pomimo dynamicznie zwiększającej się ich liczby, są mniejszością.

Poza semantycznymi metadanymi do automatycznego wnioskowania potrzebna jest ontologia. Z ontologią jest taki problem, że istnienie jednej globalnej ontologii do wszystkiego jest wbrew jej założeniom. Stąd problem tworzenia i mapowania tzw. lekkich ontologii, którego rozwiązanie obecnie jest jeszcze na etapie raczkowania.

Odpowiedzi: 2 to “Opis wycinka świata rzeczywistego, który zostanie zamodelowany na potrzeby rozwiązania problemu pracy”

  1. Marek Kopel Says:

    TBL to nie „autor WWW” tylko „autor koncepcji WWW”… autorami WWW jesteśmy my wszyscy, łosiu…
    i kto to widział czytać swoje stare posty – nie masz co robić?

Skomentuj

Please log in using one of these methods to post your comment:

Logo WordPress.com

Komentujesz korzystając z konta WordPress.com. Log Out / Zmień )

Zdjęcie z Twittera

Komentujesz korzystając z konta Twitter. Log Out / Zmień )

Facebook photo

Komentujesz korzystając z konta Facebook. Log Out / Zmień )

Google+ photo

Komentujesz korzystając z konta Google+. Log Out / Zmień )

Connecting to %s


%d bloggers like this: