after >2 months Ggl has indexed my enron dataset so I can continue developing my search result refinement method with this AJAX interface
Archive for the ‘enron’ Category
Gindexed – at last
12 February 2007o wykorzystaniu Enron’a…
14 December 2006Dziś przeprowadziłem seminarium w ZSI (info w zakładowym blogu) o możliwości wykorzystania mail’owej bazy Enron do wyznaczenia siły relacji między autorami. Wspomniałem też o FOAF, XFN i Linkback (tu są slajdy). Zbierając materiały znalazłem też kilka mysqldump’ów: by Jafar Adibi, by Ron Bekkerman, @UC Berkeley… może niepotrzebnie się z tym męczyłem… sprawdzę je jeszcze… Znalazłem też 2 komercje zrobione na tym dataset’cie: Enron Explorer jako reklamówka produktu SONAR platform (Social Networks And Relevance) firmy Trampoline Systems i InBoxer Anti-Risk Appliance – AJAX’owa aplikacja do wykrywania potencjalnych zagrożeń wynikających z korespondencji firmowej.
kilka nowych rzeczy od Google’a a propos Enron’a
6 December 2006Ostatnio próbując sprawdzić czy mój import e-mail Enron do MySQL’a dobrze działa zacząłem przeszukiwać tysiące plików (e-mail’i) na dysku, żeby porównać rekord w bazie z mail’em, z którego nagłówków rekord powstał… i wtedy mnie olśniło, że od wyszukiwania jest… Google
Stworzyłem więc sobie nowy Custom Search Engine dla Enron’a i w opcjach znalazłem ciekawą rzecz: Refinements – czyli możliwość dodania tagów (Google “tagi” nazywa “labels” – jak w GMail’u) do URLi, które Engine przeszukuje i w wynikach klikając na taki label zawężamy wyszukiwanie. Co więcej kliknięcie na label może dodać kilka tagów filtrujących. Labels są utrzymywane globalnie, więc można nawet (po kliknięciu label) zaproponować również wyniki z innych engine’ów używających tych etykietek. Etykietki są ułożone tematycznie, gdzie Google pozwala (podobnie jak wcześniej tagowanie obrazów na zasadzie gry – Image Labeler) tagować konkretne witryny. Widać wyraźnie, że tagowanie to nowy kierunek dla PageRank…
Ale wracając do Enrona – engine jest, ale nie ma index’ów… no bo w sumie skąd? teraz umieszczę link do maildir‘a tu (Enron Mail Search Engine) i poczekam aż Google to za’index’uje – ciekawe ile to w dzisiejszych czasach trwa?
Acha no i jeszcze użyłem do tego Google AJAX Search API (Beta)
Przy okazji poczytałem o GWT i możliwościach AJAXa
Enron v.2.1
5 November 2006OK, moja wina: w 1 miejscu trim‘owania po prostu nie było. Tym razem poszło w 46 min. Ale nadal jest problem z adresami:
8934, ‘<susan”.”mara@enron.com>’
13832, ‘<young”.”bennett@enron.com>’
13833, ‘<tom”.”riley@enron.com>’
bo występują też ich wersje bez “” i z
15095, ‘<”mark_kopinski/intl/acim/americancentury”@am’
15098, ‘<”mark_kopinski/intl/acim/americancentury”@am’
15099, ‘<”mark_kopinski/intl/acim/americancentury”@am’
15101, ‘<”mark_kopinski/intl/acim/americancentury”@am’
15102, ‘<”mark_kopinski/intl/acim/americancentury”@am’
15114, ‘<”mark_kopinski/intl/acim/americancentury”@am’
15127, ‘<”mark_kopinski/intl/acim/americancentury”@am’
, które miały być chyba wersją 15094, ‘mark_kopinski@americancentury.com’ . A dlaczego się powieliły? Bo długość pola adr to 45, więc jak skrypt porównywał <”mark_kopinski/intl/acim/americancentury”@americancentury.com@enron.com> z tym co było w bazie, to nie pasowało i tworzył nowe id.
Nie mówiąc już o 150 adresach typu: ‘e-mail <.val@enron.com>’.
Teraz, żeby móc rozważać relacje między użytkownikami, należałoby połączyć adresy typu:
14997, ‘mkopinski@prodigy.net’
15094, ‘mark_kopinski@americancentury.com’
15095, ‘<”mark_kopinski/intl/acim/americancentury”@am
15165, ‘mark_kopinski@enron.com
Pytanie: jak to zrobić?
Enron ver. 2
2 November 2006Znów po niemałej przerwie przysiadłem i przerobiłem bazę maili Enron’a. Przerobiłem, czyli rozbiłem tabelę sent_only (ponieważ na razie analizuję jedynie maile z podfolderów mających w nazwie sent) na dwie ADR i SENT. W wersji z 1 tabelą był problem wydobycia z pola to adresu, gdy mail był do wielu adresatów. Teraz mamy w ADR zunifikowanych userów (nadawców i odbiorców), a w SENT 2 klucze obce from i to do ADR.id.W ver.1 upload 101 876 maili (tylko sent) trwał ok. 12 min (maile i MySQL na tej samej maszynie, przez skrypt PHP uruchomiony w przeglądarce na maszynie obok). Teraz poszło w 55 minut. Ale i tak muszę to zrobić jeszcze raz, bo funkcja trim() jakoś nie zadziałała i mam te same adresy w ADR raz ze spacją, raz z tabulatorem, a raz bez
.
Zapraszam do testowania:
host: zsi4.zsi.pwr.wroc.pl:3306
user: enron_ro
passwd: odczyt
db: enron
P.S. zdaję sobie sprawę, że trochę to wszystko wyrwane z kontekstu, ale jakoś trzeba zacząć…