Blog-Corpus Crawler/Reader

In meinen logfiles fanden sich folgende merkwürdige Einträge:

139.18.2.211 – – [31/Oct/2007:12:04:43 +0100] “GET /blog/feed/ HTTP/1.1” 200 4533 “-” “Mozilla 5.0 (BlogCorpusReader 1.4142)”

139.18.2.211 – – [03/Nov/2007:00:20:08 +0100] “GET /blog/2007/11/01/bin-unterwegs/ HTTP/1.1” 200 17476 “-” “BlogCorpusCrawler 1.414213 <http://wortschatz.uni-leipzig.de/~mrichter/BCC/>”

Die dazu passende Seite ist leider extrem inhaltsleer. Ich bin nicht der Einzige der sich darüber wundert.

Der Crawler bzw. Reader hält sich nicht an die Grundregel für freundliche Crawler: Er ignoriert komplett die robots.txt, eine Datei in der man einstellen kann welcher Crawler was crawlen dürfen soll. Die zum Crawler passende Seite bietet keinerlei Möglichkeit zu verhindern dass der eigene Blog für ein nicht näher definiertes Forschungsziel(was von besserer Massen-Propaganda bis zur statistischen Analyse von Rechtschreibfehlern sein könnte) missbraucht wird.

Um mehr zu erfahren habe ich dem Verantwortlichem Mathias Richter eine (ich gebe zu: unhöfliche) Mail geschrieben.

Seine Antworten (in meinen eigenen Worten zusammengefasst um keinen wie auch immer gearteten Unterlassungsanspruch zu generieren):

  • Wer ist Mathias Richter?
    • Keine weiteren Informationen als die auf der Uni-Seite.
  • Was speichert der BlogCorpusCrawler/BlogCorpusReader?
    • Worthäufigkeiten, signifikant auffällig miteinander auftretende Begriffe und den Netzwerkgraphen.
  • Wie lange werden die Daten gespeichert?
    • Prinzipiell sehr lange; praktisch undendlich
  • Warum ignoriert der Crawler die robots.txt ?
    • Das ist ein Feature das eingebaut wird wenn Herr Richter wieder Zeit hat
  • Wie kann man Ihn dazu bringen den Blog nicht zu crawlen?
    • Ausschließlich indem man Ihm eine Mail an mrichter@informatik.uni-leipzig.de sendet
  • Was ist der Forschungsgegenstand?
    • Wortverwendungen, Sprachgebrauch und dessen Veränderung; Themenentwicklungen in News vs. Blogs
  • Wer bezahlt das Ganze?
    • Diese spezielle niemand; generell bekommt Herr Richter Geld von der Medienstiftung der Leipziger Sparkasse

Der Mangel an Informationen und die Nicht-Bekanntmachung des Opt-outs kombiniert mit dem Ignorieren der robots.txt stößt mir sauer auf. In der jetzigen Form unterscheidet sich das Vorgehen von Herr Richter in meinen Augen nur in Details von Firmen die illegalerweise komplette Datenbestände aller Blogs zwecks Marketinganalysen anfertigen. Ich kann jedem nur raten seine logs zu kontrollieren und beim Auftreten des Crawlers Herrn Richter dazu zu veranlassen den Blog in Ruhe zu lassen.

Leave a Reply

This site uses Akismet to reduce spam. Learn how your comment data is processed.