Enron ver. 2

Znów po niemałej przerwie przysiadłem i przerobiłem bazę maili Enron’a. Przerobiłem, czyli rozbiłem tabelę sent_only (ponieważ na razie analizuję jedynie maile z podfolderów mających w nazwie sent) na dwie ADR i SENT. W wersji z 1 tabelą był problem wydobycia z pola to adresu, gdy mail był do wielu adresatów. Teraz mamy w ADR zunifikowanych userów (nadawców i odbiorców), a w SENT 2 klucze obce from i to do ADR.id.W ver.1 upload 101 876 maili (tylko sent) trwał ok. 12 min (maile i MySQL na tej samej maszynie, przez skrypt PHP uruchomiony w przeglądarce na maszynie obok). Teraz poszło w 55 minut. Ale i tak muszę to zrobić jeszcze raz, bo funkcja trim() jakoś nie zadziałała i mam te same adresy w ADR raz ze spacją, raz z tabulatorem, a raz bez😦 .

Zapraszam do testowania:
host: zsi4.zsi.pwr.wroc.pl:3306
user: enron_ro
passwd: odczyt
db: enron
P.S. zdaję sobie sprawę, że trochę to wszystko wyrwane z kontekstu, ale jakoś trzeba zacząć…

Skomentuj

Please log in using one of these methods to post your comment:

Logo WordPress.com

Komentujesz korzystając z konta WordPress.com. Log Out / Zmień )

Zdjęcie z Twittera

Komentujesz korzystając z konta Twitter. Log Out / Zmień )

Facebook photo

Komentujesz korzystając z konta Facebook. Log Out / Zmień )

Google+ photo

Komentujesz korzystając z konta Google+. Log Out / Zmień )

Connecting to %s


%d bloggers like this: