parsin’ WordPress

trying to parse (XMLParser) (via into that schema (img by Workbench):

DAC4WP SQL Diagram

  1. atom has author’s uri – rss2 doesn’t > use atom
  2. at the moment tags and categories in feeds are indistinguishable
  3. only get 10 post from blog at a time, but script runs incrementally
  4. comments are parsed independently
  5. post ids sometimes are pretty permalinks and sometimes contain „/?=”
  6. suffixes „/feed”, „/feed/atom”, „/?feed=atom” works only with permalinks> use permalinks instead of ids
  7. user’s uri <-> blog’s url mismatch:
    • uris often end with „/” – urls never
    • uris are often blank
    • uris often contain „www.” which is an error – urls never
  8. to find pingbacks just check if comment author’s uri = post’s url


  1. parse blogrolls with XFN rel > author-author rel
  2. use WordNet::Similarity > concept-concept rel

Tagi: ,


Proszę zalogować się jedną z tych metod aby dodawać swoje komentarze:


Komentujesz korzystając z konta Wyloguj /  Zmień )

Zdjęcie na Google+

Komentujesz korzystając z konta Google+. Wyloguj /  Zmień )

Zdjęcie z Twittera

Komentujesz korzystając z konta Twitter. Wyloguj /  Zmień )

Zdjęcie na Facebooku

Komentujesz korzystając z konta Facebook. Wyloguj /  Zmień )


Connecting to %s

%d blogerów lubi to: