Znów po niemałej przerwie przysiadłem i przerobiłem bazę maili Enron’a. Przerobiłem, czyli rozbiłem tabelę sent_only (ponieważ na razie analizuję jedynie maile z podfolderów mających w nazwie sent) na dwie ADR i SENT. W wersji z 1 tabelą był problem wydobycia z pola to adresu, gdy mail był do wielu adresatów. Teraz mamy w ADR zunifikowanych userów (nadawców i odbiorców), a w SENT 2 klucze obce from i to do ADR.id.W ver.1 upload 101 876 maili (tylko sent) trwał ok. 12 min (maile i MySQL na tej samej maszynie, przez skrypt PHP uruchomiony w przeglądarce na maszynie obok). Teraz poszło w 55 minut. Ale i tak muszę to zrobić jeszcze raz, bo funkcja trim() jakoś nie zadziałała i mam te same adresy w ADR raz ze spacją, raz z tabulatorem, a raz bez
.
Zapraszam do testowania:
host: zsi4.zsi.pwr.wroc.pl:3306
user: enron_ro
passwd: odczyt
db: enron
P.S. zdaję sobie sprawę, że trochę to wszystko wyrwane z kontekstu, ale jakoś trzeba zacząć…