Willkommen auf Datenstrahl.de
Was ist der Sinn dieser Seite?
In meiner Tätigkeit als Entwickler stoße ich häufig auf Probleme. Sei es die Frage wie ich dies und das umsetze oder sei es umständliche Implementierungen von Dingen. Das Netz ist voll von Hilfestellungen für diese Probleme, weswegen diese Seite dann eher überflüssig ist, aber dennoch sind diese Probleme meist nie exakt wie die meinen und vielleicht hilft es ja den ein oder anderen.
Ferner habe ich vor Module zu entwickeln, welche eine hohe Wiederverwendbarkeit und Anpassungsfähigkeit bieten. Mein Ziel ist es das jeder, der möchte, diese Module mit einen sehr geringen Aufwand in die eigenen Projekte einpflegen und sofort nutzen kann. Zu diesen Modulen werde ich eine Art Tutorial schreiben und hier online stellen, in der Hoffnung das es doch den einen oder anderen auch hilft.
Nutzlose Twitter API - Hier eine einfache Alternative
Hallo Leute!
Heute, knapp zwei Jahre nachdem ich diese Seite mal erstellt habe, schaffe ich es auch endlich mal diese mit ein wenig Content zu füllen ;)
Mein erster Beitrag richtet sich an alle leidgeplagten TwitterAPI Nutzer da draußen. Im letzten halben Jahr haben ein Kommilitone und ich, im Rahmen einer Laborarbeit der Leibniz Universität Hannover, einen Weg gefunden die Twitter API zu umgehen und dennoch automatisiert an sämtliche Tweets von Interesse zu kommen.
Als kleiner Exkurs: Die Twitter API bietet eine Schnittstelle zum Social Media Twitter ;).
Diese ist seitens Twitter jedoch stark limitiert nutzbar. Um diese zu nutzen muss man zuerst einen Twitter Account anlegen. Zugegeben das ist jetzt nicht so tragisch, jedoch stehen einen als registrierter Nutzer lediglich 180 Suchanfragen innerhalb von 15 Minuten zur Verfügung.
Das geht ja auch noch, jedoch erhält man pro Suchanfrage nur maximal 100 Ergebnisse. Wenn wir uns also zum Beispiel alle Tweets zur EM2016 anzeigen lassen wollen (Stand April 2016) mag das jetzt noch gehen, aber spätestens ab Juni könnte es da etwas knapp werden. Vor allem sobald die Vorrunden vorbei sind und wir mitte Juli aufs Finale zugehen erhalten wir keine Tweets mehr, welche am Anfang der EM getwittert wurden, da die API uns nur Tweets der letzten 7 Tage ausspuckt. Mal davon abgesehen das das OAuth Verfahren meiner Meinung nach eh nicht so cool ist aber wie gesagt, die API ist ohnehin doof :P
BTT:
Nun unsere Labor Arbeit befasste sich damit, dass wir Quellen für wissenschaftliche Arbeiten haben wollen, also URLs zu Seiten, dessen Inhalt für uns interessant sein könnte. Die Idee hierbei war Twitter als Suchmaschine dafür zu verwenden, da wir davon ausgehen, dass wenn eine URL, zu dem von uns gesuchten Thema, oft getwittert wurde, dessen Inhalt wohlmöglich wertvoll sein könnte. Beispielsweise interessiert uns die Präsidentschaftswahl der USA von 2012. Dort Ecken wir mit der API schon an zwei Stellen an. Einerseits ist 2012 leider länger als eine Woche her und andererseits wurden sehr wahrscheinlich mehr als 100 Tweets dazu verfasst.
Die Lösung ist erstaunlich simpel. Wir nutzen die Mobile Twitter Suche, welche uns alle Tweets bis 2006 ausspuckt. Warum die Mobile? Ganz einfach, da diese die einzelnen Tweetseiten nicht mittels AJAX nachläd und wir mit einen einfachen PHP Script alle Tweets auslesen, modifizieren, verwerten, wasauchimmer können.
So erhalten wir alle Tweets die im Jahr 20xy getwittert wurden und im PHP Script filtern wir alle herraus welche keine URL enthalten.
Im zweiten Schritt wollten wir Scum/Spam und tote Links hinausfiltern und entschieden uns die WayBack Machine von archive.org einzubinden. Wir verlassen uns darauf das eine interessante Seite von archive.org erfasst wurde und wenn dem so ist lassen wir uns diese Seite ausgeben.
Im folgenden Paper kann alles noch detaillierter nachgelesen werden und zum nächsten Wochenende werde ich ein kleines Tutorial schreiben, damit sich jeder, bei Interesse, auch sein eigenes kleines Script schreiben kann und nicht mehr auf die TwitterAPI angewiesen sein muss ;)
Viele Grüße
Christian