Archive for the ‘enron’ Category

Gindexed – at last

2007.02.12

after >2 months Ggl has indexed my enron dataset so I can continue developing my search result refinement method with this AJAX interface

Reklamy

o wykorzystaniu Enron’a…

2006.12.14

Dziś przeprowadziłem seminarium w ZSI (info w zakładowym blogu) o możliwości wykorzystania mail’owej bazy Enron do wyznaczenia siły relacji między autorami. Wspomniałem też o FOAF, XFN i Linkback (tu są slajdy). Zbierając materiały znalazłem też kilka mysqldump’ów: by Jafar Adibi, by Ron Bekkerman, @UC Berkeley… może niepotrzebnie się z tym męczyłem… sprawdzę je jeszcze… Znalazłem też 2 komercje zrobione na tym dataset’cie: Enron Explorer jako reklamówka produktu SONAR platform (Social Networks And Relevance) firmy Trampoline Systems i InBoxer Anti-Risk Appliance – AJAX’owa aplikacja do wykrywania potencjalnych zagrożeń wynikających z korespondencji firmowej.

kilka nowych rzeczy od Google’a a propos Enron’a

2006.12.06

Ostatnio próbując sprawdzić czy mój import e-mail Enron do MySQL’a dobrze działa zacząłem przeszukiwać tysiące plików (e-mail’i) na dysku, żeby porównać rekord w bazie z mail’em, z którego nagłówków rekord powstał… i wtedy mnie olśniło, że od wyszukiwania jest… Google

Stworzyłem więc sobie nowy Custom Search Engine dla Enron’a i w opcjach znalazłem ciekawą rzecz: Refinements – czyli możliwość dodania tagów (Google „tagi” nazywa „labels” – jak w GMail’u) do URLi, które Engine przeszukuje i w wynikach klikając na taki label zawężamy wyszukiwanie. Co więcej kliknięcie na label może dodać kilka tagów filtrujących. Labels są utrzymywane globalnie, więc można nawet (po kliknięciu label) zaproponować również wyniki z innych engine’ów używających tych etykietek. Etykietki są ułożone tematycznie, gdzie Google pozwala (podobnie jak wcześniej tagowanie obrazów na zasadzie gry – Image Labeler) tagować konkretne witryny. Widać wyraźnie, że tagowanie to nowy kierunek dla PageRank…

Ale wracając do Enrona – engine jest, ale nie ma index’ów… no bo w sumie skąd? teraz umieszczę link do maildir‚a tu (Enron Mail Search Engine) i poczekam aż Google to za’index’uje – ciekawe ile to w dzisiejszych czasach trwa?

Acha no i jeszcze użyłem do tego Google AJAX Search API (Beta)

Przy okazji poczytałem o GWT i możliwościach AJAXa

Enron v.2.1

2006.11.05

OK, moja wina: w 1 miejscu trim‚owania po prostu nie było. Tym razem poszło w 46 min. Ale nadal jest problem z adresami:

8934, ‚<susan”.”mara@enron.com>’
13832, ‚<young”.”bennett@enron.com>’
13833, ‚<tom”.”riley@enron.com>’

bo występują też ich wersje bez „” i z
15095, ‚<„mark_kopinski/intl/acim/americancentury”@am’
15098, ‚<„mark_kopinski/intl/acim/americancentury”@am’
15099, ‚<„mark_kopinski/intl/acim/americancentury”@am’
15101, ‚<„mark_kopinski/intl/acim/americancentury”@am’
15102, ‚<„mark_kopinski/intl/acim/americancentury”@am’
15114, ‚<„mark_kopinski/intl/acim/americancentury”@am’
15127, ‚<„mark_kopinski/intl/acim/americancentury”@am’

, które miały być chyba wersją 15094, ‚mark_kopinski@americancentury.com’ . A dlaczego się powieliły? Bo długość pola adr to 45, więc jak skrypt porównywał <„mark_kopinski/intl/acim/americancentury”@americancentury.com@enron.com> z tym co było w bazie, to nie pasowało i tworzył nowe id.

Nie mówiąc już o 150 adresach typu: ‚e-mail <.val@enron.com>’.
Teraz, żeby móc rozważać relacje między użytkownikami, należałoby połączyć adresy typu:

14997, ‚mkopinski@prodigy.net’
15094, ‚mark_kopinski@americancentury.com’
15095, ‚<„mark_kopinski/intl/acim/americancentury”@am
15165, ‚mark_kopinski@enron.com

Pytanie: jak to zrobić?

Enron ver. 2

2006.11.02

Znów po niemałej przerwie przysiadłem i przerobiłem bazę maili Enron’a. Przerobiłem, czyli rozbiłem tabelę sent_only (ponieważ na razie analizuję jedynie maile z podfolderów mających w nazwie sent) na dwie ADR i SENT. W wersji z 1 tabelą był problem wydobycia z pola to adresu, gdy mail był do wielu adresatów. Teraz mamy w ADR zunifikowanych userów (nadawców i odbiorców), a w SENT 2 klucze obce from i to do ADR.id.W ver.1 upload 101 876 maili (tylko sent) trwał ok. 12 min (maile i MySQL na tej samej maszynie, przez skrypt PHP uruchomiony w przeglądarce na maszynie obok). Teraz poszło w 55 minut. Ale i tak muszę to zrobić jeszcze raz, bo funkcja trim() jakoś nie zadziałała i mam te same adresy w ADR raz ze spacją, raz z tabulatorem, a raz bez 😦 .

Zapraszam do testowania:
host: zsi4.zsi.pwr.wroc.pl:3306
user: enron_ro
passwd: odczyt
db: enron
P.S. zdaję sobie sprawę, że trochę to wszystko wyrwane z kontekstu, ale jakoś trzeba zacząć…