Apr 19.

Screaming Frog SEO Spider über die Amazon-Cloud EC2 laufen lassen

Seit geraumer Zeit benutze ich für Onpage-Crawls den Screaming Frog SEO Spider. Ich schreibe in diesem Beitrag aber nicht über das Tool oder die Datenauswertung, sondern ich zeige hier, wie man das Tool auf Amazons EC2 Cloud zum Laufen bekommt, um größere Datenmengen in kürzerer Zeit zu crawlen.

Falls das Tool noch nicht eingesetzt wird, geht’s hier zum Download. Die Free-Version erlaubt allerdings lediglich eine Abfrage von 500 URLs. Dieser Beitrag richtet sich aber an fortgeschrittene Nutzer, die das Tool schon einsetzen.

Möchte man größere Websites crawlen, kommt man mit einem kleinen Rechner schnell ans Ende der Kapazitäten. Mit 4 GB RAM schafft man es meiner Erfahrung nach lediglich, ca. 30.000 – 40.000 URLs zu crawlen. Die Lösung für das Problem ist ganz einfach:

MEHR POWER.

Da diese Crawls nicht täglich vorkommen, liegt es nahe sich Rechenpower zu mieten. Ich zeige hier auf, wie man auf Amazons EC2 eine Ubuntu-Instanz mit bis zu 70 GB RAM mit dem Screaming Frog zum Laufen bekommt.

Ich setze voraus, dass man zumindest weiß, wie man in der Konsole Verzeichnisse wechselt. ;)

Da der Screaming Frog visuelle Eingaben erfordert, müssen wir zudem zusätzlich eine Desktop-Version von Ubuntu installieren.

How To: Screaming Frog in der Amazon-Cloud

 

1. Anmelden bei EC2 und im Dashboard eine Instanz starten

 

Anmeldung bei EC2

Anmelden bei EC2 und im Dashboard Instanz starten

 

2. Starten einer Ubuntu-Instanz mit dem Instance Wizard

Achtung: Am besten erstmal über die FREE-Variante testen!

Starten der Ubuntu-Instanz

Starten der Ubuntu-Instanz

 

Wenn wir das Tool in der kleinsten Version zum Laufen bekommen haben, können wir direkt vom erstellten Image aus das Ganze auf der 70-GB-Variante starten.

70GB-Instanz starten

Jetzt starten wir die 70-GB-Instanz

 

Als nächstes immer weiter klicken bis zum Menüpunkt CREATE KEY PAIR. Hier generiert man einen Key, diesen muss man natürlich auch downloaden. (Achtung: unbedingt Ordner des Downloads merken!):

 

Key generieren und downloaden

Key generieren und downloaden

 

Die Security Group Einstellungen sollten sein: SSH 22 und 5900-5901 port Freigabe:

 

Security Group richtig einstellen

Security Group richtig einstellen

 

3.Verbindung mit dem Terminal

Sobald die Instanz hochgefahren ist, verbinden wir uns via Terminal (für windows gibt es dafür PuTTY) per ssh:

ssh -i (pfad zu meinem key)/my-key.pem ubuntu@ec2-xx-xxx-xx-xxx.eu-west-1.compute.amazonaws.com

Falls es Probleme mit den Schreib- und Leserechten des Keys gibt, sollten diese noch auf dem lokalen Rechner geändert werden:

chmod 600 my-key.pem

Steht die Verbindung, muss man nun noch eine Desktop-Version installieren. Eine ganz schlanke ohne Schi-Schi reicht vollkommen aus, denn wir brauchen ja alles an Power für den Screaming Frog.

sudo apt-get update
sudo apt-get install xfce4

Nun können wir eine kurze Kaffeepause machen, denn die Installation könnte etwas länger dauern. :-)

Um eine Remote Desktop-Verbindung herstellen zu können, müssen wir vnc4server installieren:

sudo apt-get install vnc4server
vncserver

Hier legen wir ein Passwort an. Jetzt muss vncserver wieder beendet werden:

vncserver -kill :1

Und eine Ergänzung:

vim .vnc/xstartup

Muss erweitert werden um:

xstartup erweitern

xstartup erweitern

 

Tipp: Mit ESC wechselt man zwischen Eingabe und Command-Modus. Zum Beenden des Ediors ctrl+c drücken, dann :wq eingeben.

Nun brauchen wir noch Java:

sudo apt-get install openjdk-7-jdk

Und den Screaming Frog:

wget http://www.screamingfrog.co.uk/products/seo-spider/screamingfrogseospider_2.11_all.deb
sudo dpkg –i screamingfrogseospider_2.11_all.deb

Fast geschafft.

 

4.VNC Server starten

Auf dem eigenen Rechner muss ein VNC Client installiert sein. Ich nutze VNC Viewer. Um die Verbindung herzustellen, den VNC Server jetzt per Terminal starten:

vncserver

Im VNC Viewer die Adresse der Instanz mit :1 eingeben:

Adresse im VNC Viewer eingeben

Adresse im VNC Viewer eingeben

 

Und dann kann man den Screaming Frog unter applications/internet starten:

 

Screaming Frog starten

Screaming Frog starten

 

Jetzt noch die Lizenz eingeben und den entsprechenden RAM zuweisen (.screamingfrog von 512MB auf zum Beispiel 65000MB ändern) und es kann losgehen:

vim .screamingfrogseospider
-Xmx512M

ändern in:

-Xmx65000M

5. Image erstellen

Von der Instanz erstellen wir uns nun per Rechtsklick ein Image (AMI), welches wir mit einem Klick auf einer großen Instanz starten können, so dass wir nicht jedesmal den Installationsaufwand haben.

 

6. Crawl starten

Zum Start des Screaming Frogs:

  • Per Terminal verbinden
  • vncserver starten
  • Adresse der Instanz im VNC Viewer anpassen

ACHTUNG: Es sollte immer erst das Einverständnis des Seitenbetreibers eingeholt werden, ansonsten könnte ein solcher Crawl als DDoS-Attacke gewertet werden! Nicht zu schnell Crawlen und am besten nachts, um die Seite nicht zu schädigen.

 

7. Download der fertigen Datei

Die fertige csv-Datei wird per Terminal vom lokalen Rechner aus mittels SCP downgeloadet:

scp –i my-key.pem ubuntu@ec2-xx-xxx-xx-xxx.eu-west-1.compute.amazonaws.com:internal_all.csv .

Und nicht vergessen: Die Instanz muss terminiert werden, sonst fallen laufend weitere Kosten an!

Viel Spass!

Themen: SEO-Tools Kommentare: 12 Kommentare
Jan Marquardt
Senior SEO Consultant
Ich teste gern verschiedene SEO-Maßnahmen, besonders im OffPage-Bereich. Wichtig finde ich auch die Verknüpfung der verschiedenen Marketingkanäle von SEA und SEO – eine ganzheitliche Betrachtung ist mittlerweile unumgänglich. Meine Interessensschwerpunkte sind Mobile und E-Commerce. Ich bin seit 2011 als SEO-Consultant bei der artaxo AG. Den Einstieg ins Online Marketing fand nach einem geisteswissenschaftlichen Studium in Hamburg und Thessaloniki über Google Adwords. Ich war vollkommen fasziniert von der Effektivität und Messbarkeit. Noch spannender war und ist für mich aber der Bereich Suchmaschinenoptimierung.
Bisher wurden 12 Kommentare geschrieben.
  1. Erstellt am 19. April 2013 um 11:25

    Danke Jan!
    Wer mit Ubuntu/Linux nicht klar kommt dem sei gesagt das man bei Amazon natürlich auch ein Windows-Rechner starten kann.

  2. Jan Marquardt
    Erstellt am 19. April 2013 um 12:29

    Hi Stefan,
    Das stimmt natürlich. Nur braucht die Windows-Instanz mehr Speicher und kostet mindestens das Doppelte bei geschätzter halber Performanz…
    Aber kurz: es funktioniert ebenfalls (habe ich auch getestet) und eine Remote Desktop Verbindung herstellen ist einfacher unter Windows. Das war es dann aber auch an Pluspunkten. ;)

    • Erstellt am 19. April 2013 um 13:19

      Danke Jan für die zusätzlichen Infos. Den Ansatz finde ich sehr spannend. Für Konkurrenzanalysen scheint das ja ein ganz praktikabler Ansatz zu sein. Als alternative zum Screaming Frog könnte man auch mal das Microsoft SEO Toolkit verwenden (http://www.microsoft.com/web/seo), dann allerdings auf einer Windows-Instanz. :-)

  3. Erstellt am 19. April 2013 um 12:47

    Hallo Jan, kannst du noch was dazu sagen, wie viele Seiten sich dann in etwa mit einer solchen Instanz crawlen lassen? Auch interessant fände ich noch etwas zu den entstehenden Kosten zu erfahren. Was kostet es denn auf dem Weg z.B. 1 Mio Seiten zu crawlen?

  4. Jan Marquardt
    Erstellt am 19. April 2013 um 13:03

    Hi Tobias,

    Ich habe ohne Probleme 800.000 URLs einsammeln können, mehr geht auch. Das Problem hier ist dann die Auswertung mit Excel, da ist sicher eine Datenbanklösung und natürlich strucr optimal.
    Die 70GB Instanz kostet knapp unter 2$ pro Stunde, die Dauer hängt dann natürlich von der Performanz der zu crawlenden Seite ab. Wenn man von 10 URLs/sec ausgeht, braucht man dann rechnerisch schon über 24 Stunden. Dazu kommen noch Kosten für den Traffic (0,1$ pro GB) plus Speicherkosten für das Image. Ich schätze mal grob, das die Kosten für 1.000.000 URLs bei deutlich unter 100$ liegen dürften.
    Man kann bei amazon auch auf Instanzen bieten (Spot Instances), hier sind die Kosten dann natürlich entsprechend geringer.

  5. Erstellt am 26. April 2013 um 10:56

    [...] von der Anmeldung bei der Amazon Cloud bis zum Download der fertigen Datei könnt ihr hier nachlesen. Wir sagen: innovativer Ansatz für effektives [...]

  6. Erstellt am 4. Mai 2013 um 11:23

    [...] And this one is probably my favorite read in terms of tools (and it’s not a tool release!): Johannes did a pretty awesome job in figuring out how to run ScreamingFrog SEO Spider within the Amazon Cloud EC2. And yes, that means you can allocate up to 70 Gigabytes of memory for a large crawl. Go check it out! [...]

  7. Germany & Search: April 2013 Edition - State of Search
    Erstellt am 6. Mai 2013 um 11:04

    [...] And this one is probably my favorite read in terms of tools (and it’s not a tool release!): Johannes did a pretty awesome job in figuring out how to run ScreamingFrog SEO Spider within the Amazon Cloud EC2. And yes, that means you can allocate up to 70 Gigabytes of memory for a large crawl. Go check it out! [...]

  8. Erstellt am 11. Mai 2013 um 19:51

    [...] And this one is probably my favorite read in terms of tools (and it’s not a tool release!): Johannes did a pretty awesome job in figuring out how to run ScreamingFrog SEO Spider within the Amazon Cloud EC2. And yes, that means you can allocate up to 70 Gigabytes of memory for a large crawl. Go check it out! [...]

  9. Erstellt am 16. August 2013 um 06:34

    Hallo Jan,
    wenn ich aber einen Desktop Rechner mit ausreichend Power habe, bekomme ich doch keine weiteren Vorteile durch AWS. Oder?

  10. Jan
    Erstellt am 23. August 2013 um 09:41

    Moin,

    Bei einem Desktop-Rechner mit genügend Power braucht man AWS natürlich nicht. Wer so einen Rechner nicht hat, und nur ab- und zu crawlt, für den lohnt es sich.

  11. Erstellt am 26. März 2014 um 11:44

    […] Ihr lasst den Spider über eine Cloud-Lösung laufen (Pimp your Frog!). Eine genaue Anleitung, wie ihr das Tool auf Amazons EC2 Cloud zum Laufen bekommt, findet ihr auf dem artaxo-Blog. […]

Kommentar verfassen





Facts
  • Suchmaschinenoptimierung von Experten
  • Seit 2000 erfolgreich, mehr als 300 Kunden
  • Analyse, Beratung, Workshops, Linkbuilding
 Unternehmens- und Leistungsbeschreibung
Leistungen
Detaillierte SEO-Analysen


Gezielte Analysen bilden die Grundlage zur Verbesserung der Rankings Ihrer Webseite in den Suchmaschinen.

Strategische SEO-Beratung

Unsere erfahrenen Consultants entwickeln maßgeschneiderte Konzepte und begleiten Sie persönlich während des gesamten Umsetzungsprozesses.

Praxisnahe SEO-Seminare

In unseren zielgruppenspezifischen Workshops und Seminaren vermitteln wir Expertenwissen und unterstützen Sie bei dem Aufbau von internem SEO-Know-how.

Individuelles internationales Linkbuilding

Diese OffPage-Maßnahme bietet Ihnen eine effiziente und langfristig optimierte Platzierung in den Suchmaschinen.

Weitere Leistungen

Mit unseren Partnern bieten wir Ihnen ergänzende Leistungen in den Bereichen Social Media, Mobile und SEA an.

Ehrenamtliche Projekte

referenz-betterplace Die Internetplattform betterplace.org ermöglicht es weltweit jedem Menschen für ein Hilfsprojekt Unterstützung zu finden - oder selbst ein Hilfsprojekt auszuwählen, das er unterstützen möchte. Die artaxo AG unterstützt das Team von betterplace.org durch kostenfreie SEO-Beratung. mehr...

Partner
Crowdmedia partner elbmarketing big

Die artaxo AG arbeitet seit vielen Jahren erfolgreich mit starken Partnern zusammen, um Ihnen ein optimales Zusatzangebot an Leistungen anzubieten. zur Übersicht

Newsletter
Sie möchten auf dem Laufenden bleiben, kein Google-Update und keinen Trend in Sachen Suchmaschinen- optimierung verpassen? Dann melden Sie sich für den artaxo-Newsletter an und erhalten einmal im Quartal nützliche Tipps zum Selberanwenden sowie spannende Insights aus der SEO-Welt. >Jetzt abonnieren